Contexte
Le gouvernement du Canada s’est engagé à aider 95 % des ménages et entreprises canadiens à accéder à l'Internet à haut débit à des vitesses minimales de 50 Mbps en aval et de 10 Mbps en amont (ci-après dénommé « l'Engagement ») d'ici 2026, et 100 % d'ici 2030. Selon le CRTC, actuellement, 45,6 % des ménages des communautés rurales ont accès à l'Engagement selon ce qui leur est offert par un fournisseur de services Internet (p. ex. Shaw, Telus, etc.) dans leur région, plutôt que de ce qu'un ménage rural obtient réellement chez lui en termes de vitesse Internet.
Description des données
Pour cette étude de cas, nous avons voulu mieux comprendre l'état de la connectivité Internet dans les communautés rurales et mal desservies du Canada en utilisant des données fournies par les consommateurs. En utilisant des données fournies directement par le consommateur, nous serons en mesure de comprendre la connectivité dans ces communautés telle qu'elle est mesurée dans leur propre foyer. Plus précisément, nous recherchons :
- une analyse statistique des vitesses d'accès à l'Internet (amont et aval) réelles et prévues pour les communautés rurales et mal desservies en termes de progrès vers l'Engagement ;
- une analyse comparative des communautés rurales et des communautés mal desservies en termes de progrès vers l'Engagement ; et
- l'identification de méthodes statistiquement fiables pour évaluer et comparer l'accès Internet réalisé par les communautés rurales et mal desservies.
Pour cette étude en particulier, il est essentiel d'identifier des méthodes statistiques fiables et reproductibles pour comprendre la connectivité des communautés rurales et mal desservies du Canada. Notre ensemble de données centrées sur le consommateur sera probablement très différent de l'évaluation actuelle par le CRTC de la disponibilité de la large bande.
Dans cet ensemble de données, les mesures de performance Internet sont agrégées par carreau (une zone de la terre mesurant approximativement 610,8 mètres sur 610,8 mètres), par trimestre de l'année et par type de connexion Internet (fixe à large bande ou mobile).
|
|
|
|
---|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
- Les jointures géométrie/géographie ont été réalisées à l'aide des données des fichiers de limites du recensement de 2016, en particulier les fichiers de forme Aires de diffusion et Centres de population.
- Les aires de diffusion sont la plus petite région pour laquelle des statistiques publiques sur la population sont diffusées par Statistique Canada.
- De plus amples informations sur les valeurs que peuvent prendre les colonnes SACTYPE, PCUID, PCTYPE et PCCLASS sont disponibles ici : Fichiers des limites, guide de référence et Dictionnaire, Recensement de la population, 2016 (en particulier les tableaux 1.12 et 1.13).
- Les données relatives aux populations ont été tirées du tableau des données du recensement de 2016 : Canada, provinces et territoires, divisions de recensement, subdivisions de recensement et aires de diffusion.
- Les étiquettes des centres de population (définition de Statistique Canada) n'existent que lorsque la géométrie du fichier de forme et la géométrie du centre de population constituent la plus grande zone de chevauchement avec le carreau Ookla lors de l'action de superposition de géométrie (à l'aide de GeoPandas).
- Au lieu de valeurs d'exemple, les valeurs indiquées sont toutes des valeurs énumérées pour cette colonne.
Les données pour ce défi d'étude de cas peuvent être trouvées ICI (CSV) ou ICI (SHAPEFILE).
Les données fournies pour cette étude de cas sont une combinaison de jeux de données provenant d'Ookla et de Statistique Canada. Afin de créer ce sous-ensemble de données et de l'annoter avec les frontières et les populations propres au Canada, les données ont été traitées à l'aide de GeoPandas pour filtrer les données sur les carreaux Ookla qui recoupent le Canada et ses eaux côtières (fichiers de frontières numériques), puis pour calculer les superpositions des aires de diffusion et des centres de population. En cas de chevauchement avec plusieurs géométries canadiennes, le carreau a été étiqueté avec la zone avec laquelle il partage la plus grande fraction de surface.
Pour comparer les vitesses d'Internet en milieu rural et municipal, il peut être important de prendre en compte les éléments suivants :
- Si le carreau est étiqueté avec un centre de population ou non ;
- SACTYPE - qui fournit des renseignements sur le niveau d'influence des municipalités tel que défini par Statistique Canada ; et/ou,
- Si un centre de population est petit, moyen ou grand (PCCLASS), ou sa classification par type (PCTYPE). Par exemple, il peut être intéressant de contraster les résultats des petits centres de population dans les zones rurales avec ceux des grands centres de population.
Sources des données
Données Ookla
Partout dans le monde, des millions de tests de vitesse Internet sont effectués chaque jour sur les plateformes Ookla. Dans le cadre de l'initiative Ookla for Good, des ensembles de données massifs contenant des mesures de performance pour les tests de vitesse Internet effectués sur les plateformes Ookla en 2019 - 2021 sont mis à la disposition du public sous licence CC BY-NC-SA 4.0. Accédez à l’ensemble de données brut Speedtest by Ookla Global Fixed and Mobile Network Performance Maps ici.
Données de Statistique Canada
Voir les notes de bas de page sous le tableau ci-dessus.
Exemple d'exploration de données Ookla
Pour vous aider à démarrer, voici quelques tutoriels publiés par Ookla dans les langages de programmation R et Python. De plus, voici un exemple de carnet de notes Jupyter que Cybera a mis en place et qui explore les données sur la connectivité dans les zones rurales de l'Alberta, au Canada. Le carnet est développé en langage de programmation Python et contient une brève introduction à la demande de données via l'API d'Ookla, les bibliothèques requises pour analyser et traiter les données, et explore la combinaison de l'ensemble de données Ookla avec des fichiers de forme de la région sélectionnée pour fournir un contexte.
Byron Chu, Cybera
Barton Satchwill, Cybera
Si vous rencontrez des difficultés ou si vous avez des questions, n'hésitez pas à nous contacter : datascience@cybera.ca.