Aller au contenu principal
Data Source
TED
Organizer
Lisa Lix

 

Background:

This dataset was developed using web scraping techniques, which extract data from websites. Web scraping is largely an automated solution; it is also an area of research that is rapidly growing. Data from web scraping is typically analyzed using text processing and artificial intelligence tools. 
 

The data are from TED, a nonpartisan and nonprofit organization. TED spreads ideas, primarily via short talks that can be accessed on the internet. As noted on its website, TED was initiated in 1984 as a conference where technology, entertainment, and design ideas were shared. At present, TED Talks cover topics ranging from science to business to global issues. More information about TED can be found at the following website: https://www.ted.com/. Learning about the organization and its talks may be useful to develop your data analytic strategy. 
 

This case study is currently a data competition on Kaggle (https://www.kaggle.com/). You may wish to check out what others have done with these data, although the analyses to date have been primarily descriptive in nature. 
 

Your analysis in this case study will focus on the use of inferential techniques to analyze the data. As well, you should consider innovative approaches to measure popularity of the talks, beyond the conventional measure of the number of views of a talk.
 

Research Question

En analysant les données, vous étudierez les questions suivantes :
  • Quelles caractéristiques d’une présentation TED en prédisent la popularité? 
  • De quelles manières différentes pourriez-vous mesurer la popularité d’une présentation TED? Par exemple, pourriez-vous créer une (ou des) mesure(s) composée(s)? Les caractéristiques qui prédisent la popularité dépendent-elles de la manière dont vous mesurez ce concept?
  • Les caractéristiques qui prédisent la popularité varient-elles dans le temps? 
  • Les caractéristiques qui prédisent la popularité varient-elles selon le thème de la présentation TED? 
     
Variables


Description de l’ensemble de données :

Cet ensemble de données contient des informations sur les enregistrements audio-vidéo de présentations TED publiées sur le site Web officiel de TED. Les données couvrent la période de 2006 jusqu’au 21 septembre 2017. 
 

Nombre d’enregistrements : 2550
Nombre de colonnes : 17

 
Nom de la colonne Description
Comments Nombre de commentaires de premier niveau soumis pour la présentation
Description
Description du sujet de la présentation
Duration Durée de la présentation en secondes
Event Évènement TED où la présentation a eu lieu
Film_date Horodatage Unix de la prise de vue
Languages Nombre de langues dans lesquelles la présentation est disponible
Main_speaker Premier présentation nommé
Name Nom officiel de la présentation TED. Inclut le titre et le nom du présentateur
Num_speaker Nombre de présentateurs

Published_date  

Horodatage Unix de la publication de la présentation sur TED.com

Ratings Dictionnaire de chaines des évaluations données à la présentation (p. ex., inspirant, fascinant, épatant, etc.) et leur fréquence
Related_talks Liste de dictionnaires de présentations connexes recommandées
Speaker_occupation   Profession du présentateur principal
Tags Thèmes associés à la présentation
Title Titre de la présentation
Url
URL de la présentation
Views
Nombre de visionnages de la présentation
 
Data Access


L’ensemble de données est fourni au format CSV. Veuillez écrire à lisa.lix@umanitoba.ca si vous souhaitez obtenir le fichier .zip. 


Organisatrice :

Lisa Lix
Université du Manitoba
Courriel : lisa.lix@umanitoba.ca

 

Data Files