Atelier du group de science des données et analytiques 2020

Titre: Analysis of unstructured text data.
Facilitateur: Dave Campbell (Carleton University) and Nathan Taback (University of Toronto).
Durée: journée complète (9h00-16h00).

 

Description de l'atelier:

Dave et Nathan présenteront aux participants des outils pour la collecte, la gestion, le traitement et l’analyse de données textuelles non structurées volumineuses d’une variété de sources.

 

Dans de nombreux domaines, le texte non structuré est une source de données tout naturelle. Les constats d’accidents, les dossiers médicaux, les articles de journaux et les descriptions de produits contiennent tous de grandes quantités de texte. Or s’agissant de la préparation de données textuelles, il n’est pas possible de distinguer le nettoyage et l’analyse du domaine des questions analytiques. En effet, au-delà de l’encodage dans le texte de la présence ou de l’absence de certaines caractéristiques, le texte permet une modélisation de contexte et de sentiment à l’aide de techniques spéciales. Dans cet atelier interactif, nous présentons aux participants des outils tidyverse pour la manipulation, la gestion, le nettoyage et la visualisation de données textuelles. Les participants apprendront à utiliser des outils permettant de suivre un sentiment dans un document, de regrouper des documents textuels en modélisant leurs sujets et d’intégrer des espaces pour le texte.

 

Nathan Taback est professeur agrégé, catégorie enseignement aux Département de sciences statistiques et de science informatique et directeur des programmes de science de données en sciences statistiques à la Université of Toronto.

 

Dave Campbell est professeur à l’École de mathématiques et de statistique de l’Université Carleton et membre associé du Département de statistique et de science actuarielle à la Simon Fraser université.