Prédire la popularité des baladodiffusions sur Itunes

2020

Data Source

Listed in references

Organizer

Dr Kathryn Morrison with help from Dr. Ehsan Karim, Dr. Pingzhao Hu, Dr. Chel Hee Lee and the staff at Precision Analytics

Background

Podcasts are an increasingly popular form of media consumption, and represent a rich potential source of data on consumer patterns and trends. An estimated 51% of the US population has listened to a podcast; there are over 750,000 shows totalling over 30 million episodes. Research on podcasts has generally focused on predicting popular content and making use of the show and episode descriptions for text analysis and natural language processing (Tsagkias et al. 2010). Two primary metrics are used to assess popularity in podcasts: the average rating (usually based on listener ratings), and the number of reviews; the latter is often considered more important, given that it correlates with audience size.

Case study objectives

The goal for this case study project is to explore what predicts podcast popularity, given a recent dataset on podcast ratings and some information about each show (e.g., category, host, topic summary). Each team can also seek out additional covariates or transform the existing ones, such as through text analysis methods.

Teams will be given hourly podcast popularity data for approximately 50 days preceding the competition commencement. An additional unlabelled dataset will be provided, and once your models are built and validated, each team will also submit predicted number of reviews for the unlabelled dataset (note that the podcasts in this unlabelled dataset may or may not have appeared previously in your training data, so any custom predictors you use to build your model must be reproducible given a new set of the included covariates in order to generate predictions for this dataset).

Data description

The podcast ratings on iTunes are the most frequently used and cited source for assessing the popularity of podcasts, as it is one of the primary sources for podast media. iTunes makes available an API for current real-time ratings of the podcasts available on iTunes, and these data are used for this case study compeition. The data were collected by automated scraping techniques designed to get a large sample of most available English-language shows that are available on iTunes. The API allows for automated scraping of up to 200 shows per main category (many of which have fewer than 200 in total). Each hourly dataset is approximately 2000 rows. We only included podcasts in English and excluded video content. For a sample view of the data, see APPENDIX 1.

The case study data sets include a training set with 1,408,901 rows and ten columns, and a prediction (unlabeled) set with approximately 10 days of data.

Research Question

1. Quelles caractéristiques des baladodiffusions permettent de prédire leur popularité, tant en termes de valeur d’évaluation qu’en nombre de critiques? Quelle mesure de popularité trouvez-vous la plus significative?

2. Est-ce que les tendances de popularité changent au cours de la période de votre ensemble de données (environ 50 jours)? Pouvez-vous identifier des tendances quotidiennes parmi les données? Des tendances hebdomadaires?

3. Quelles sont les prévisions de nombre de critiques pour chaque baladodiffusion dans votre nouvel ensemble de données non-étiqueté?

L’exactitude de la prédiction du nombre de critiques sera calculée à l’aide de l’erreur absolue moyenne (EAM ou mean absolute error):

L’EAM est un paramètre adéquat pour les données continues lorsque de grandes différences ne doivent pas être pénalisées de manière non-linéaire (en comparant, par exemple, l’erreur quadratique moyenne) (Hyndman and Koehler 2006). Les erreurs positives et négatives sont généralement pénalisées de manière équivalente avec l’EAM.

Variables

Titre	Le nom du balado (tel qu’il apparait sur iTunes)
Résumé	Un petit texte qui décrit le contenu et les sujets de l’émission, ainsi que l’animateur.
Sous-catégorie	La sous-catégorie détaillée de l’émission (un total de 70)
Artiste	La compagnie, l’organisation ou l’individu qui produisent l’émission.
Date	Un horodatage avec la date de l’extraction des données.
Heure	L’heure de 00 (minuit HNE) à 23 (11PM HNE).
Sortie	La date de sortie du plus récent épisode.
Valeur d’évaluation	Un mesure propriétaire calculée par Apple qui fait une moyenne des critiques des auditeurs avec d’autres informations; minimum1.0 et maximum 5.0
Nombre de critiques	Le nombre de critiques sur iTunes, habituellement arrondi à deux chiffres significatifs.
URL	Le site web de l’émission en baladodiffusion.

Data Access

Les données d’apprentissage peuvent être téléchargées ici:

Pour toutes questions, veuillez envoyer un courriel directement à: kathryn@precision-analytics.ca

L'ensemble de données sans étiquette peut être téléchargé à partir d'ici

Organisateurs

Cette étude de cas a été préparée par Dr. Kathryn Morrison, avec l’aide et les conseils provenant des autres membres du comité des études de cas de la société statistique du Canada (Dr. Ehsan Karim, Dr. Pingzhao Hu, et Dr. Chel Hee Lee). Les employés de Precision Analytics ont fourni leur assistance pour l’extraction (data scraping) et la préparation des données.

References

Hyndman RJ, Koehler AB. Another look at measures of forecast accuracy. International Journal of Forecasting. 2006 Oct 1;22(4):679-88.

Tsagkias, M., Larson, M. and De Rijke, M., 2010. Predicting podcast preference: An analysis framework and its application. Journal of the American Society for information Science and Technology, 61(2), pp.374-391.

Example Dataset / exemple ensemble de données

PDF

annexe_1-fr.pdf