From ML to ML: Two Disciplines, One Mission — Making Sense of Imperfect Data

This talk explores connections between statistical science and machine learning through the unifying goal of extracting reliable knowledge from imperfect data. While statistical science emphasizes modeling, inference, and uncertainty quantification, machine learning focuses on representation, optimization, and prediction. Despite these differences, both fields often rely on an implicit assumption that data are “perfect”. In practice, however, modern datasets are frequently contaminated by measurement error, noisy labels, and heterogeneous annotation processes. Using examples from diverse application domains, the talk highlights how such imperfections arise and why ignoring them can lead to misleading conclusions. Overall, this talk advocates a future of data science that bridges the two MLs, maximum likelihood and machine learning, by placing data quality, representation, and uncertainty at the center of methodological development.

De la vraisemblance maximale à l'apprentissage automatique : deux disciplines, une seule mission — donner du sens à des données imparfaites

Cette présentation explore les liens entre la science statistique et l'apprentissage automatique à travers l'objectif commun qui consiste à extraire des connaissances fiables de données imparfaites. Alors que la science statistique met l'accent sur la modélisation, l'inférence et la quantification de l'incertitude, l'apprentissage automatique se concentre sur la représentation, l'optimisation et la prédiction. Malgré ces différences, ces deux domaines reposent souvent sur l'hypothèse implicite que les données sont « parfaites ». Dans la pratique, cependant, les ensembles de données modernes sont fréquemment entachés d'erreurs de mesure, de labels bruités et de processus d'annotation hétérogènes. À l'aide d'exemples issus de divers domaines d'application, nous expliquons comment ces imperfections apparaissent et pourquoi les ignorer peut conduire à des conclusions trompeuses. Dans l'ensemble, cette présentation prône un avenir de la science des données qui jette un pont entre la vraisemblance maximale et l'apprentissage automatique, en plaçant la qualité des données, la représentation et l'incertitude au centre du développement méthodologique.

Session

SSC 2025 Gold Medal Address

Date and Time

Tue, 06/02/2026 - 08:30 - Tue, 06/02/2026 - 09:50

Additional Authors and Speakers (not including you)

Language of Oral Presentation

English

Language of Visual Aids

English