Concours d’affiches d’études de cas en analyse de données 2014

Un concours d’affiches d’études de cas en analyse de données aura lieu durant le congrès annuel à Toronto, du 25 au 28 mai 2013. Un prix sera décerné à la meilleure affiche pour chacune des deux études de cas. Le montant du prix pour chaque étude de cas est fixé à 500 $ pour 2014. Cette somme sera partagée en parts égales par les participants de chaque équipe gagnante. Le Comité du Prix des études de cas en analyse de données tiendra compte à la fois de la qualité de l’analyse des données et de la présentation des résultats. Le Comité du Prix des études de cas en analyse de données se réserve le droit de ne pas décerner de prix pour l’une ou l’autre des études de cas si le nombre de soumissions est insuffisant.

Les études de cas sont destinées à des équipes d’étudiants diplômés ou en dernière année de bac, travaillant avec ou sans professeur mentor. Chaque équipe choisira d’analyser l’un des deux ensembles de données décrits ci-après et présentera un résumé des méthodes utilisées et des résultats de ses analyses lors d’une séance d’affiches pendant le congrès annuel. La date et l'heure de l’évaluation des affiches seront communiqués à toutes les équipes à l'avance de la réunion annuelle.

Les équipes intéressées à participer doivent envoyer un courriel à Georges Monette (georges+ssc@yorku.ca) en indiquant les noms de tous les membres de l’équipe. La date limite pour l’inscription est le 31 mars 2014.







Étude de cas 1 : Le American Time Use Survey: Comment les facteurs économiques et sociodémographiques ont-ils touchés l’écoute de la télévision dans la dernière décennie?

Fournisseur de données: US Bureau of Labor Statistics, American Time Use Survey

Organisatrice: Heather Krause, Datassist, Toronto

Description de l'ATUS:

Le “American Time Use Survey” est l'aboutissement d'un effort ayant été mis sur la conception et le développement, cet effort ayant été déployé sur près de dix ans, comprenant une étude pilote en 1997 et un essai à grande échelle en 2002 (Horrigan et Herz, 2005). L’ATUS utilise un échantillon aléatoire tiré dans des ménages qui ont récemment terminé leur participation dans le ``Current Population Survey`` (CPS). Ainsi, par exemple, un foyer qui a été inclus dans le CPS de janvier à avril 2002 (mois 1 à 4 de l'échantillon) et de janvier à avril 2003 (mois 5 à 8 de l'échantillon) était admissible à l'inclusion dans le ATUS au mois de juin, de juillet ou d'août 2003. Les ménages sélectionnés pour l'échantillon sont choisis en fonction des caractéristiques de la personne de référence dans le ménage et le répondant est ensuite choisi au hasard parmi la liste des membres adultes (15 ans ou plus) du ménage. Tous les adultes au sein d'un ménage ont la même probabilité d'être sélectionnés. En 2003, l’ATUS a recueilli plus de 1,700 journaux de bord par mois. À partir de janvier 2004, la taille de l'échantillon a été réduite à environ 1,100 par mois, un taux qui devrait se poursuivre indéfiniment.

L’ATUS est administré à l'aide d'interviews téléphoniques assistés par ordinateur plutôt qu'à partir de journaux de bord, comme dans de nombreux autres pays. Tous les répondants reçoivent un jour de référence initial et sont appelés le lendemain. Si le répondant n'est pas disponible ce jour-là, les tentatives de contact suivantes sont faites le même jour de chaque semaine ultérieure. Ce procédé maintient l'affectation proportionnelle des répondants aux jours de la semaine.

Le journal de temps de l'ATUS est très semblable à d'autres enquêtes de type budget-temps. Le répondant est invité à décrire sa journée, débutant à 4h00 et se terminant à 4h00 le jour suivant (qui est le jour de l'entrevue). Il décrit chaque activité, que l'intervieweur inscrit textuellement, ou, pour un ensemble limité d’activités couramment pratiquées (comme dormir ou regarder la télévision), que l'intervieweur tape à partir d'un raccourci au clavier. Les réponses textuelles sont codées en utilisant un système à trois niveaux, allant de la catégorie générale de l'activité à des sous-catégories puis à des descriptions d’actions très spécifiques qui sont reliées entre elles par un troisième niveau commun de l'activité.

Seule l'activité principale du répondant est enregistrée et codée. Si le répondant mentionne des activités secondaires effectuées simultanément, elles sont enregistrées mais ne sont pas incluses dans les données reliées au temps total et ne sont pas classées en utilisant le schéma à trois niveaux. Pour chaque épisode, l’ATUS recueille soit l'heure de la fin ou la durée de l'activité. En outre, pour chaque activité, l'enquête recueille le lieu de l'activité et les gens avec qui le répondant se trouvait, à moins que le répondant n'était en train de dormir, de faire sa toilette ou de travailler (dans ces cas, seul l'endroit est demandé). Les codes "qui" pour les membres du ménage réfèrent à des individus spécifiques. Variables reliées à l'individu, incluses dans l’ATUS :

  • statut professionnel
  • revenu
  • gains provenant de l’emploi
  • sexe
  • race
  • état civil
  • âge
  • région
  • état
  • variables démographiques du ménage
  • taille et poids
  • indice de masse corporelle
  • éducation

Et, bien sûr - beaucoup de variables sur l'emploi du temps!

Questions de recherche

Quel est l'effet de l'économie sur la quantité de temps passée à regarder la télévision et à jouer à des jeux vidéo? Est- ce que cela varie selon le sexe? Est- ce que cela varie en fonction de la participation au marché du travail? Est- ce que cela varie selon le revenu? Quels sont les plus forts prédicteurs sociodémographiques du temps passé à regarder la télévision?

Question exploratoire : Quelles activités ont été remplacées par l'augmentation du temps passé devant la télévision et à jouer à des jeux vidéo?

L'accès aux données

Les microdonnées de l’ATUS pour 2003-2012 peuvent être téléchargées à partir du Bureau of Labor Statistics des États-Unis au http://www.bls.gov/tus/.





Étude de cas 2: Analyse de données sur les interactions parmi les joueurs d'un jeu social sur plateforme mobile: Trouver des interactions entre les événements du jeu et les attributs des joueurs qui prédisent l'engagement?

Fournisseur de données: Uken Games

Organisateur: Alex Yakubovich, Uken Games, Toronto

Résumé

Les données proviennent d'un jeu social mobile. Une fois qu'un utilisateur télécharge le jeu de l'App Store, il suit un tutoriel, puis progresse à travers un certain nombre d'étapes. Comme le jeu est gratuit, on offre aux joueurs la possibilité de faire des achats en ligne à l’intérieur du jeu. Un utilisateur a des chances de gagner à chaque tour, mais même s'il ne gagne pas, il peut accumuler un peu de l’argent virtuel dans le jeu. Une fois que les utilisateurs acquièrent assez d’argent, ils peuvent passer à l'étape suivante. Si les utilisateurs se connectent à leur compte du jeu sur Facebook, ils peuvent également envoyer/recevoir des dons en argent de la part de leurs amis.

Observations

Nous mesurons trois variables cibles pour chaque utilisateur: les recettes, l'engagement (minutes de jeu) et la rétention (si le joueur revient après un certain nombre de jours). Nous enregistrons également les moments où différents événements se produisent dans le jeu – par exemple, lorsque l'utilisateur effectue différents achats en ligne, quand il envoie ou reçoit des cadeaux ou lorsqu'il débloque différentes réalisations dans le jeu (par exemple, lorsqu’il atteint un nouveau niveau ou lorsqu’il gagne un prix). Finalement, pour certains utilisateurs, nous disposons de données démographiques comme le sexe, le pays et s'ils se connectent au jeu via leur compte Facebook.

Analyse

Ces données présentent quelques aspects intéressants. Tout d'abord, vous remarquerez que les distributions du revenu (recettes) et de l'engagement sont des distributions à queue lourde, de sorte que nous ne pouvons pas vraiment parler d'un « utilisateur moyen » ici. La plupart des utilisateurs ne deviennent pas des utilisateurs très dépensiers et la plupart des joueurs qui dépensent ne font pas de gros achats. Toutefois, les valeurs aberrantes constituent une grande partie du revenu et, dans un sens, subventionnent le jeu pour tout le reste des joueurs.

Deuxièmement, l'économie du jeu est fermée - c'est-à-dire que nous contrôlons à quel point la monnaie réelle est transformée en monnaie virtuelle, ainsi que le nombre et le type d'achats disponibles.

Voici quelques questions pour guider l'analyse :

  1. Pouvez-vous identifier un bon partitionnement des utilisateurs? Pouvez-vous décrire les caractéristiques communes des utilisateurs dans chaque élément de la partition? Comment l'assignation aux éléments de la partition change-t-elle au fil du temps (par exemple, à quel moment un utilisateur commence-t-il à faire plusieurs achats ou devient-il de plus en plus engagé dans ce jeu?)
  2. Comment les caractéristiques démographiques des utilisateurs et les actions des utilisateurs affectent les variables réponses (engagement, recettes, rétention)? Quels sont les facteurs prédictifs les plus forts? Quelles interactions sont présentes?
  3. Pouvez-vous trouver une bonne façon de visualiser ces données, de préférence de manière interactive?
  4. Quelles autres idées pouvez-vous fournir?

Données

L'ensemble de données consiste en un seul tableau, user_stats.csv, avec un enregistrement pour chaque utilisateur. Il comprend 300,000 lignes et les colonnes suivantes:

  • install_date - AnnéeMoisJour
  • user_id – nombre entier qui identifie chaque jouer
  • num_sessions - nombre de fois qu'un utilisateur ouvre l'application pour plus de quelques secondes à ce jour
  • country - pays de l'utilisateur (NA si le pays n'est pas connu)
  • gender - (male, female, NA) . Le genre est connu si et seulement si l'utilisateur se connecte à Facebook.
  • platform - (ipad, iphone )
  • num_platforms – le nombre de plateformes sur lesquelles l’utilisateur a téléchargé le jeu
  • games_played - nombre de matchs joués à ce jour (une séance peut être composée de plusieurs matchs)
  • fb_connect - date à laquelle l'utilisateur se connecte à son compte de jeu sur Facebook (NA s’ils ne le font jamais)
  •  
  • retention – est-ce que l'utilisateur revient jouer au jeu à la fin the la période d’observation?
  • engagement - combien de minutes a-t-il joué durant la période d’observation?
  • revenue - combien d'argent a-t-il dépensé durant la période d’observation?
  •  
  • tutorial_completed - date à laquelle l'utilisateur complète le tutoriel. NA si le tutoriel n'est pas amorcé durant la période observée.
  • stage1 - date à laquelle l'utilisateur atteint la première étape. NA si la première étape n'est pas amorcée.
  • stage2 - date à laquelle l'utilisateur atteint la deuxième étape. NA si la deuxième étape n'est pas amorcée.
  • stage3 - etc
  • stage4
  • stage5
  • stage6
  • first_win
  • first_bonus
  • first_special_purchase
  • first_purchase_A
  • first_purchase_B
  • first_purchase_C
  • first_purchase_D
  • first_purchase_E
  • first_purchase_F
  • first_purchase_G
  • first_purchase_H
  • first_gift_sent
  • first_gift_received
  • first_gift2_received
  • first_gift_accepted
  • first_collection
  • first_prize_A
  • first_prize_B
  • first_prize_C

Remarques:

  1. Notez que les recettes et les mesures d'engagement ont été remises à l’échelle.
  2. La première étape sera disponible dès que l'utilisateur termine le tutoriel. Cependant, pour toutes les étapes ultérieures, l'utilisateur n'a pas à terminer l'étape précédente – chaque étape devient disponible aussi tôt que la monnaie du jeu a atteint un niveau suffisant. Par exemple, un utilisateur pourrait commencer à jouer la quatrième étape sans avoir commencé la troisième étape.

L'accès aux données

Pour accéder à l'ensemble de données, vous êtes priés de compléter le document de confidentialité (http://s.uken.com/sscdata) et de l'envoyer à Alex Yakubovich (alex.yakubovich@uken.com).

Références

[1] http://www.wired.com/gamelife/2011/06/free-to-play/

[2] http://mobiledevmemo.com/the-average-user-doesnt-exist-in-freemium-gamin/

[3] http://www.youtube.com/watch?v=nnwPn8Ou6Wo&list=PL63BVidWw3h81zRkapJm2DC...