Aller au contenu principal

Date : samedi 4 juin 2022
Heure : 13h00 - 16h30 (HAE)

Titre : Introduction aux bases de données en industrie : nettoyage des données, interrogation et modélisation à grande échelle

Instructeurs : 

Rodolfo Lourenzutti, University of British Columbia
Arman Seyed-Ahmadi, University of British Columbia
Diego Ardila, Shopify

Description :

Cet atelier a pour but de guider les participants dans le parcours des données, de l'état « brut » à un état « prêt à l'analyse ». À l'aide de R, nous explorerons le flux de base du nettoyage des données et de l'organisation des données brutes de sorte que le résultat soit exempt d'erreurs, cohérent et précis. Les participants seront ensuite initiés aux bases de données relationnelles - option la plus largement utilisée pour stocker des données propres et bien structurées. Nous explorerons comment interagir avec les bases de données relationnelles et en extraire efficacement des données à l'aide du langage d'interrogation puissant et bien connu SQL. Enfin, nous montrerons comment connecter R aux bases de données SQL à des fins de lecture et d'écriture.