Étude de cas 2 : Qu’est-ce qui permet de prédire la popularité des présentations TED?

2018

Date Source: 

TED

Organizer: 

Lisa Lix


Contexte :
 

L’ensemble de données a été élaboré à l’aide de techniques de récupération en ligne (ou « web scraping »), qui permettent d’extraire des données à partir de sites Web. Le web scraping est une solution largement automatisée qui fait actuellement l’objet de nombreuses recherches. Les données ainsi récupérées sont typiquement analysées à l’aide d’outils de traitement de texte et d’intelligence artificielle. 
 

Les données proviennent de TED, une organisation sans but lucratif ni affiliation politique. TED propage des idées, principalement via de brèves présentations accessibles en ligne. Tel que noté sur son site Web, TED a été fondé en 1984 sous la forme d’une conférence encourageant le partage d’idées en matière de technologie, divertissement et design. Aujourd’hui, les présentations TED couvrent des sujets allant de la science aux affaires aux enjeux planétaires. Pour plus d’informations, veuillez consulter leur site Web : https://www.ted.com/. Il peut être intéressant d’en apprendre davantage sur l’organisation et les présentations pour développer votre stratégie d’analyse des données. 
 

Cette étude de cas est actuellement un concours de données sur Kaggle (https://www.kaggle.com/). Si vous le souhaitez, vous pouvez y voir ce que d’autres ont fait de ces données, même si jusqu’ici les analyses sont principalement descriptives. 
 

Votre analyse mettra l’accent sur l’utilisation de techniques inférentielles pour analyser les données. Par ailleurs, il vous est recommandé d’utiliser pour mesurer la popularité des présentations des approches novatrices qui dépassent la simple mesure conventionnelle du nombre de visionnages.
 

Research Question: 


En analysant les données, vous étudierez les questions suivantes :
  • Quelles caractéristiques d’une présentation TED en prédisent la popularité? 
  • De quelles manières différentes pourriez-vous mesurer la popularité d’une présentation TED? Par exemple, pourriez-vous créer une (ou des) mesure(s) composée(s)? Les caractéristiques qui prédisent la popularité dépendent-elles de la manière dont vous mesurez ce concept?
  • Les caractéristiques qui prédisent la popularité varient-elles dans le temps? 
  • Les caractéristiques qui prédisent la popularité varient-elles selon le thème de la présentation TED? 
     

Variables: 


Description de l’ensemble de données :

Cet ensemble de données contient des informations sur les enregistrements audio-vidéo de présentations TED publiées sur le site Web officiel de TED. Les données couvrent la période de 2006 jusqu’au 21 septembre 2017. 
 

Nombre d’enregistrements : 2550
Nombre de colonnes : 17

 
Nom de la colonne Description
Comments Nombre de commentaires de premier niveau soumis pour la présentation
Description
Description du sujet de la présentation
Duration Durée de la présentation en secondes
Event Évènement TED où la présentation a eu lieu
Film_date Horodatage Unix de la prise de vue
Languages Nombre de langues dans lesquelles la présentation est disponible
Main_speaker Premier présentation nommé
Name Nom officiel de la présentation TED. Inclut le titre et le nom du présentateur
Num_speaker Nombre de présentateurs

Published_date  

Horodatage Unix de la publication de la présentation sur TED.com

Ratings Dictionnaire de chaines des évaluations données à la présentation (p. ex., inspirant, fascinant, épatant, etc.) et leur fréquence
Related_talks Liste de dictionnaires de présentations connexes recommandées
Speaker_occupation   Profession du présentateur principal
Tags Thèmes associés à la présentation
Title Titre de la présentation
Url
URL de la présentation
Views
Nombre de visionnages de la présentation
 

Data Access: 


L’ensemble de données est fourni au format CSV. Veuillez écrire à lisa.lix@umanitoba.ca si vous souhaitez obtenir le fichier .zip. 


Organisatrice :

Lisa Lix
Université du Manitoba
Courriel : lisa.lix@umanitoba.ca

 

Data Files: