Background
The data are from a social mobile game. Once a user downloads the game from the app store, they go through a tutorial, and then progress through a number of stages. While the game is free, users have the option of making in-app purchases. A user has some chance of winning each round, but even if they don't win they can accrue some in-game currency. Once users acquire enough currency, they can proceed to the next stage. If users connect their game account to Facebook, they can also send/receive gifts amongst their friends.
Measurements
We measure three target variables for each user: revenue, engagement (minutes played), and retention (does the player come back after a certain number of days). We also record when different events occur within the game – for example, when the user makes different in-app purchases, when they send or receive gifts or unlock different achievements with the game (i.e., reach a level or win a prize). Finally, for some users, we have demographic data, such as gender, country, and whether they connect their game account to their Facebook account.
Analysis
There are some interesting aspects to this data. First, you will notice that the distributions of revenue and engagement are very heavy tailed, so it doesn't make sense to talk about an 'average user'. Most users don't become spending players, and most spending players don't make big purchases. However, the outliers make up a large part of the revenue, and in a sense subsidize the game for everyone else.
Second, the game economy is closed - we control how much real currency maps to in-game currency, as well as the number and type of available purchases.
Voici quelques questions pour guider l'analyse :
- Pouvez-vous identifier un bon partitionnement des utilisateurs? Pouvez-vous décrire les caractéristiques communes des utilisateurs dans chaque élément de la partition? Comment l'assignation aux éléments de la partition change-t-elle au fil du temps (par exemple, à quel moment un utilisateur commence-t-il à faire plusieurs achats ou devient-il de plus en plus engagé dans ce jeu?)
- Comment les caractéristiques démographiques des utilisateurs et les actions des utilisateurs affectent les variables réponses (engagement, recettes, rétention)? Quels sont les facteurs prédictifs les plus forts? Quelles interactions sont présentes?
- Pouvez-vous trouver une bonne façon de visualiser ces données, de préférence de manière interactive?
- Quelles autres idées pouvez-vous fournir?
L'ensemble de données consiste en un seul tableau, user_stats.csv, avec un enregistrement pour chaque utilisateur. Il comprend 300,000 lignes et les colonnes suivantes:
install_date - AnnéeMoisJour
user_id - nombre entier qui identifie chaque jouer
num_sessions - nombre de fois qu'un utilisateur ouvre l'application pour plus de quelques secondes à ce jour
country - pays de l'utilisateur (NA si le pays n'est pas connu)
gender - (male, female, NA) . Le genre est connu si et seulement si l'utilisateur se connecte à Facebook.
platform - (ipad, iphone )
num_platforms - le nombre de plateformes sur lesquelles l'utilisateur a téléchargé le jeu
games_played - nombre de matchs joués à ce jour (une séance peut être composée de plusieurs matchs)
fb_connect - date à laquelle l'utilisateur se connecte à son compte de jeu sur Facebook (NA s'ils ne le font jamais)
retention - est-ce que l'utilisateur revient jouer au jeu à la fin the la période d'observation?
engagement - combien de minutes a-t-il joué durant la période d'observation?
revenue - combien d'argent a-t-il dépensé durant la période d'observation?
tutorial_completed - date à laquelle l'utilisateur complète le tutoriel. NA si le tutoriel n'est pas amorcé durant la période observée.
stage1 - date à laquelle l'utilisateur atteint la première étape. NA si la première étape n'est pas amorcée.
stage2 - date à laquelle l'utilisateur atteint la deuxième étape. NA si la deuxième étape n'est pas amorcée.
stage3 - etc
stage4
stage5
stage6
first_win
first_bonus
first_special_purchase
first_purchase_A
first_purchase_B
first_purchase_C
first_purchase_D
first_purchase_E
first_purchase_F
first_purchase_G
first_purchase_H
first_gift_sent
first_gift_received
first_gift2_received
first_gift_accepted
first_collection
first_prize_A
first_prize_B
first_prize_C
Remarques:
- Notez que les recettes et les mesures d'engagement ont été remises à l'échelle.
- La première étape sera disponible dès que l'utilisateur termine le tutoriel. Cependant, pour toutes les étapes ultérieures, l'utilisateur n'a pas à terminer l'étape précédente - chaque étape devient disponible aussi tôt que la monnaie du jeu a atteint un niveau suffisant. Par exemple, un utilisateur pourrait commencer à jouer la quatrième étape sans avoir commencé la troisième étape
.
Pour accéder à l'ensemble de données, vous êtes priés de compléter le document de confidentialité (http://s.uken.com/sscdata) et de l'envoyer à Alex Yakubovich (alex.yakubovich@uken.com).
[1] http://www.wired.com/gamelife/2011/06/free-to-play/
[2] http://mobiledevmemo.com/the-average-user-doesnt-exist-in-freemium-gamin/
[3] http://www.youtube.com/watch?v=nnwPn8Ou6Wo&list=PL63BVidWw3h81zRkapJm2DC...