Towards Trustworthy Post-hoc Explanations of Machine Learning Models via Increased Alignment

The field of eXplainable Artificial Intelligence (XAI) has risen in the past decade under the promise of explaining (and thus validating) complex model decisions. XAI has matured to the point of proposing a myriad of tools available to practitionners. However, the lack of theoretical understanding behind explanability methods implies that we cannot decide which explanation is correct whenever the different methods disagree. In this talk, we take a step back and investigate the root-cause of disagreements between XAI methods. Notably, by framing XAI as a problem of Functional Decomposition (building on seminal work fromn statistics and sensitivity analysis), it is possible to unify all methods under a single framework. This framework highlights the culprit for disagreements: feature interactions. We finally propose two methodologies to get rid of said interactions 1) restricting the explanations to well chosen rule-based regions, 2) adaptively putting input features into group

Vers une explicabilité fiable des modèles d'apprentissage automatique grâce à un meilleur alignement

Le champ de l'IA eXplicable (IAX) a gagné en popularité dans les dernières années sous la promesse de pouvoir expliquer (et ainsi valider) les prévisions de modèles boîte-noires. L'IAX est aujourd'hui un champ mature qui propose une multitude de techniques aux spécialistes. Cependant, le manque de compréhension théorique derrière les méthodes implique que l'on ne peut pas décider quelle explication est la bonne lorsqu'il y a des désaccords.

Dans cette présentation, nous prenons un pas de recul sur les travaux faits en IAX et nous enquêtons sur les origines des désaccords entre les méthodes d'explicabilité. Notamment, en formalisant l'IAX comme un problème de décomposition fonctionnelle (nous permettant de bâtir sur des travaux pionniers en statistique et des analyses de sensibilité), il est possible d'unifier toutes les méthodes sous un même cadre. Cette unification démontre également que les désaccords sont causés par les interactions entre les entrées du modèle. Conséquemment, nous proposons deux méthodologies pour réduire les interactions (et ainsi augmenter la concordance entre les techniques d'explications) 1) restreindre les explications à des régions décrites par des règles interprétables, 2) grouper les composantes d'entrées de manière adaptative.

Session

Explaining the Black Box: Theoretical and Practical Advances in Model Interpretability

Date and Time

Wed, 06/03/2026 - 16:00 - Wed, 06/03/2026 - 16:30

Additional Authors and Speakers (not including you)

Language of Oral Presentation

English

Language of Visual Aids

English