Aller au contenu principal
Data Source
Listed in references
Organizer
Dr Kathryn Morrison with help from Dr. Ehsan Karim, Dr. Pingzhao Hu, Dr. Chel Hee Lee and the staff at Precision Analytics

Contexte

Les baladodiffusions sont un type de média de consommation qui gagnent en popularité et qui représentent un vaste potentiel en tant que source de données sur les habitudes de consommation et des tendances. On estime que 51% de la population américaine a écouté une baladodiffusion; il existe plus de 750 000 émissions, totalisant 30 millions d’épisodes. La recherche sur les balados s’est généralement concentrée sur les prédictions de contenu populaire et sur l’utilisation des descriptions d’émissions et d’épisodes pour l’analyse textuelle et le traitement du langage naturel (Tsagkias et al. 2010). Deux paramètres principaux sont utilisés pour déterminer la popularité des baladodiffusions; la cote globale (habituellement basée sur les cotes d’écoutes), et le nombre de critiques; ce dernier étant souvent considéré le plus important, puisqu’il va de pair avec le nombre d’auditeurs.

 

Les objectives de l’étude de cas

Le but de cette étude de cas est d’explorer ce qui peut prédire la popularité des balados, à l’aide d’un ensemble de données récentes sur les cotes de balados, ainsi que des informations sur chaque émission (par exemple, la catégorie, l’animateur, un résumé du sujet). Chaque équipe peut aussi rechercher des covariables additionnelles, ou transformer celles qui sont déjà identifiées, comme par exemple en utilisant des méthodes d’analyse de texte. 

 

 

Les équipes recevront des données horaires de popularité de balados pour une période d’environ 50 jours précédant le début de la compétition. Un ensemble de données additionnel, non-étiqueté, sera aussi fourni, et lorsque les modèles seront construits et validés, chaque équipe remettra des prédictions de nombre de critiques pour l’ensemble non-étiqueté (notez que les balados dans cet ensemble non-étiqueté pourraient, ou non, avoir fait partie de vos données de pratique, de sorte que tous les éléments prédicteurs personnalisés que vous avez utilisés pour construire votre modèle doivent être reproductibles lors d’un nouvel ensemble de covariables, afin de produire des prédictions pour ce nouvel ensemble de données).

 

Description des données

Le classement des baladodiffusions sur iTunes est la source la plus fréquemment utilisée et citée pour l’évaluation de la popularité des balados, puisqu’elle est une des sources principales pour les médias de balados. iTunes rend une API disponible pour les classements actuels en temps réel des baladodiffusions disponibles sur iTunes, et ces données seront utilisées lors de cette compétition d’étude de cas. Les données ont été obtenues par des techniques d’extraction (data scraping) conçues pour obtenir un grand échantillon de la plupart des émissions de langue anglaise qui sont disponibles sur iTunes. L’API permet de faire une extraction automatisée d’au plus 200 émissions par catégorie (la plupart comprenant moins de 200 au total). Chaque ensemble de données horaires comprend environ 2000 lignes. Nous avons conservé seulement les balados de langue anglaise et exclu le contenu vidéo.  Afin de voir un aperçu des données, consultez l’annexe 1.

 

Les ensembles de données de l’étude de cas comprennent un ensemble de pratique avec 1 408 901 lignes et dix colonnes, ainsi qu’un ensemble d’une prédiction (non-étiquetée) avec environ 10 jours de données.

 

 

Research Question

1.      Quelles caractéristiques des baladodiffusions permettent de prédire leur popularité, tant en termes de valeur d’évaluation qu’en nombre de critiques? Quelle mesure de popularité trouvez-vous la plus significative?

2.      Est-ce que les tendances de popularité changent au cours de la période de votre ensemble de données (environ 50 jours)? Pouvez-vous identifier des tendances quotidiennes parmi les données? Des tendances hebdomadaires?

3.      Quelles sont les prévisions de nombre de critiques pour chaque baladodiffusion dans votre nouvel ensemble de données non-étiqueté?

 

L’exactitude de la prédiction du nombre de critiques sera calculée à l’aide de l’erreur absolue moyenne (EAM ou mean absolute error):

 

L’EAM est un paramètre adéquat pour les données continues lorsque de grandes différences ne doivent pas être pénalisées de manière non-linéaire (en comparant, par exemple, l’erreur quadratique moyenne) (Hyndman and Koehler 2006). Les erreurs positives et négatives sont généralement pénalisées de manière équivalente avec l’EAM.

 

 

Variables

Titre

Le nom du balado (tel qu’il apparait sur iTunes)

Résumé

Un petit texte qui décrit le contenu et les sujets de l’émission, ainsi que l’animateur.

 

Sous-catégorie

La sous-catégorie détaillée de l’émission (un total de 70)

Artiste

La compagnie, l’organisation ou l’individu qui produisent l’émission.

 

Date

Un horodatage avec la date de l’extraction des données.

 

Heure

L’heure de 00 (minuit HNE) à 23 (11PM HNE).

 

Sortie

La date de sortie du plus récent épisode.

 

Valeur d’évaluation

Un mesure propriétaire calculée par Apple qui fait une moyenne des critiques des auditeurs avec d’autres informations; minimum1.0 et maximum 5.0

 

Nombre de critiques

Le nombre de critiques sur iTunes, habituellement arrondi à deux chiffres significatifs.

URL

Le site web de l’émission en baladodiffusion.

 

 

Data Access

Les données d’apprentissage peuvent être téléchargées ici

Pour toutes questions, veuillez envoyer un courriel directement à: kathryn@precision-analytics.ca

L'ensemble de données sans étiquette peut être téléchargé à partir d'ici

 

Organisateurs

Cette étude de cas a été préparée par Dr. Kathryn Morrison, avec l’aide et les conseils provenant des autres membres du comité des études de cas de la société statistique du Canada (Dr. Ehsan Karim, Dr. Pingzhao Hu, et Dr. Chel Hee Lee). Les employés de Precision Analytics ont fourni leur assistance pour l’extraction (data scraping) et la préparation des données. 

References

Hyndman RJ, Koehler AB. Another look at measures of forecast accuracy. International Journal of Forecasting. 2006 Oct 1;22(4):679-88.

 

Tsagkias, M., Larson, M. and De Rijke, M., 2010. Predicting podcast preference: An analysis framework and its application. Journal of the American Society for information Science and Technology, 61(2), pp.374-391.

 

Example Dataset / exemple ensemble de données