Aller au contenu principal
Data Source
Ookla Data, Statistics Canada Data
Organizer
Byron Chu, Barton Satchwill; Cybera


Contexte

Le gouvernement du Canada s’est engagé à aider 95 % des ménages et entreprises canadiens à accéder à l'Internet à haut débit à des vitesses minimales de 50 Mbps en aval et de 10 Mbps en amont (ci-après dénommé « l'Engagement ») d'ici 2026, et 100 % d'ici 2030. Selon le CRTC, actuellement, 45,6 % des ménages des communautés rurales ont accès à l'Engagement selon ce qui leur est offert par un fournisseur de services Internet (p. ex. Shaw, Telus, etc.) dans leur région, plutôt que de ce qu'un ménage rural obtient réellement chez lui en termes de vitesse Internet.

 

Research Question

Description des données

Pour cette étude de cas, nous avons voulu mieux comprendre l'état de la connectivité Internet dans les communautés rurales et mal desservies du Canada en utilisant des données fournies par les consommateurs. En utilisant des données fournies directement par le consommateur, nous serons en mesure de comprendre la connectivité dans ces communautés telle qu'elle est mesurée dans leur propre foyer. Plus précisément, nous recherchons :

  • une analyse statistique des vitesses d'accès à l'Internet (amont et aval) réelles et prévues pour les communautés rurales et mal desservies en termes de progrès vers l'Engagement ;
  • une analyse comparative des communautés rurales et des communautés mal desservies en termes de progrès vers l'Engagement ; et
  • l'identification de méthodes statistiquement fiables pour évaluer et comparer l'accès Internet réalisé par les communautés rurales et mal desservies.

Pour cette étude en particulier, il est essentiel d'identifier des méthodes statistiques fiables et reproductibles pour comprendre la connectivité des communautés rurales et mal desservies du Canada. Notre ensemble de données centrées sur le consommateur sera probablement très différent de l'évaluation actuelle par le CRTC de la disponibilité de la large bande.

 

Variables

Dans cet ensemble de données, les mesures de performance Internet sont agrégées par carreau (une zone de la terre mesurant approximativement 610,8 mètres sur 610,8 mètres), par trimestre de l'année et par type de connexion Internet (fixe à large bande ou mobile).

 

Colonne

Type

Description

Exemples de valeurs

quadkey

chaîne 

numéro unique représentant un carreau

0212131231203101

avg_d_kbps

entier

vitesse moyenne de chargement aval pour tous les tests de vitesse effectués à partir d'un carreau (en kbps)

93283

avg_u_kbps

entier

vitesse moyenne de chargement amont pour tous les tests de vitesse effectués à partir d'un carreau (en kbps)

10108

avg_lat_ms

entier

latence moyenne pour tous les tests de vitesse effectués à partir d'un carreau (en millisecondes)

12

tests

entier

nombre total de tests de vitesse effectués à partir d'un carreau

45

devices

entier

nombre total d'appareils uniques à partir desquels des tests de vitesse ont été effectués dans un carreau

8

year

chaîne 

année

[2019,2020,2021] 6

quarter

chaîne 

trimestre de l'année

[Q1, Q2, Q3, Q4] 6

conn_type

chaîne 

type de connexion Internet

[fixed, mobile] 6

PRUID 1

chaîne 

identifiant provincial à 2 chiffres

52

PRNAME 1

chaîne 

nom de la province

Nova Scotia / Nouvelle-Écosse

CDUID 1

chaîne 

identifiant de la division de recensement

1208

CDNAME 1

chaîne 

nom de la division de recensement

Division n° 17

DAUID 1,2

chaîne 

identifiant de la zone de diffusion

48190283

SACTYPE 1,3

chaîne 

classification de la zone statistique

[1,2,3,4,5,6,7,8] 6

DA_POP 4

float

population de la zone de dissémination, nombre entier ou NaN (pas un nombre)

350.0

PCUID 1,5

chaîne 

identifiant du centre de population

0348

PCNAME 1,5

chaîne 

nom du centre de population

Halifax

PCTYPE 1,3,5

chaîne 

type de centre de population

[1,2,4,6] 6

PCCLASS 1,3,5

chaîne 

classe de centre de population

[4,3,2] 6

geometry

polygone

objet polygone contenant la géométrie du carreau au format WGS84 et en représentation WKT

POLYGON ((-114.18 51.04 , ... , -114.18 51.04))

 

  1. Les jointures géométrie/géographie ont été réalisées à l'aide des données des fichiers de limites du recensement de 2016, en particulier les fichiers de forme Aires de diffusion et Centres de population.
  2. Les aires de diffusion sont la plus petite région pour laquelle des statistiques publiques sur la population sont diffusées par Statistique Canada.
  3. De plus amples informations sur les valeurs que peuvent prendre les colonnes SACTYPE, PCUID, PCTYPE et PCCLASS sont disponibles ici : Fichiers des limites, guide de référence et Dictionnaire, Recensement de la population, 2016 (en particulier les tableaux 1.12 et 1.13). 
  4. Les données relatives aux populations ont été tirées du tableau des données du recensement de 2016 : Canada, provinces et territoires, divisions de recensement, subdivisions de recensement et aires de diffusion.
  5. Les étiquettes des centres de population (définition de Statistique Canada) n'existent que lorsque la géométrie du fichier de forme et la géométrie du centre de population constituent la plus grande zone de chevauchement avec le carreau Ookla lors de l'action de superposition de géométrie (à l'aide de GeoPandas). 
  6. Au lieu de valeurs d'exemple, les valeurs indiquées sont toutes des valeurs énumérées pour cette colonne.

 

Data Access

Les données pour ce défi d'étude de cas peuvent être trouvées ICI (CSV) ou ICI (SHAPEFILE)

Les données fournies pour cette étude de cas sont une combinaison de jeux de données provenant d'Ookla et de Statistique Canada. Afin de créer ce sous-ensemble de données et de l'annoter avec les frontières et les populations propres au Canada, les données ont été traitées à l'aide de GeoPandas pour filtrer les données sur les carreaux Ookla qui recoupent le Canada et ses eaux côtières (fichiers de frontières numériques), puis pour calculer les superpositions des aires de diffusion et des centres de population. En cas de chevauchement avec plusieurs géométries canadiennes, le carreau a été étiqueté avec la zone avec laquelle il partage la plus grande fraction de surface. 

Pour comparer les vitesses d'Internet en milieu rural et municipal, il peut être important de prendre en compte les éléments suivants :

  • Si le carreau est étiqueté avec un centre de population ou non ;
  • SACTYPE - qui fournit des renseignements sur le niveau d'influence des municipalités tel que défini par Statistique Canada ; et/ou,
  • Si un centre de population est petit, moyen ou grand (PCCLASS), ou sa classification par type (PCTYPE). Par exemple, il peut être intéressant de contraster les résultats des petits centres de population dans les zones rurales avec ceux des grands centres de population.

Sources des données

Données Ookla

Partout dans le monde, des millions de tests de vitesse Internet sont effectués chaque jour sur les plateformes Ookla. Dans le cadre de l'initiative Ookla for Good, des ensembles de données massifs contenant des mesures de performance pour les tests de vitesse Internet effectués sur les plateformes Ookla en 2019 - 2021 sont mis à la disposition du public sous licence CC BY-NC-SA 4.0. Accédez à l’ensemble de données brut Speedtest by Ookla Global Fixed and Mobile Network Performance Maps ici

Données de Statistique Canada

Voir les notes de bas de page sous le tableau ci-dessus.

Exemple d'exploration de données Ookla

Pour vous aider à démarrer, voici quelques tutoriels publiés par Ookla dans les langages de programmation R et Python. De plus, voici un exemple de carnet de notes Jupyter que Cybera a mis en place et qui explore les données sur la connectivité dans les zones rurales de l'Alberta, au Canada. Le carnet est développé en langage de programmation Python et contient une brève introduction à la demande de données via l'API d'Ookla, les bibliothèques requises pour analyser et traiter les données, et explore la combinaison de l'ensemble de données Ookla avec des fichiers de forme de la région sélectionnée pour fournir un contexte.

 

References

Byron Chu, Cybera
Barton Satchwill, Cybera

 

Si vous rencontrez des difficultés ou si vous avez des questions, n'hésitez pas à nous contacter : datascience@cybera.ca.