ML-Powered Scientific Research: Possibilities and Pitfalls

From applications in structural biology to the analysis of electronic health record data, predictions from machine learning models increasingly complement costly gold-standard data in scientific inquiry. While ML-imputed data enables scientific studies to scale in an unprecedented manner, appropriately accounting for inaccuracies in the predictions is critical to achieving trustworthy conclusions from downstream statistical inference. In this talk, I will explore the methodological and practical impacts of using ML-imputed data across various applications. I will introduce our recently proposed method for bias correction and draw connections with modern methods and classical statistical approaches dating back to the 1960s. I will also discuss ethical challenges of using ML-imputed data, underscoring the need for careful and thoughtful adoption of this practice in scientific research.

Recherche scientifique basée sur l'apprentissage automatique : possibilités et écueils

Des applications en biologie structurale à l'analyse des données des dossiers médicaux électroniques, les prédictions issues des modèles d'apprentissage automatique complètent de plus en plus les données coûteuses de référence dans la recherche scientifique. Si les données imputées par apprentissage automatique permettent aux études scientifiques de prendre une ampleur sans précédent, il est essentiel de tenir compte de manière appropriée des inexactitudes dans les prédictions afin d'obtenir des conclusions fiables à partir de l'inférence statistique en aval.

Dans cette présentation, j'explorerai les impacts méthodologiques et pratiques de l'utilisation des données imputées par l'apprentissage automatique dans diverses applications. Je présenterai notre méthode récemment proposée pour la correction des biais et établirai des liens avec les méthodes modernes et les approches statistiques classiques remontant aux années 1960. J'aborderai également les défis éthiques liés à l'utilisation des données imputées par l'apprentissage automatique, en soulignant la nécessité d'adopter cette pratique avec prudence et réflexion dans la recherche scientifique.

Session

Thèmes communs dans la régression non paramétrique et l'analyse des données fonctionnelles

Date and Time

mar 02/06/2026 - 13:30 - mar 02/06/2026 - 14:00

Langue de la présentation orale

Anglais

Langue des supports visuels

Anglais

Speaker