Aller au contenu principal
Understanding Intrinsic Socioeconomic Biases in Large Language Models
Large Language Models (LLMs) are increasingly integrated into critical decision-making processes, such as loan approvals and visa applications, where inherent biases can lead to discriminatory outcomes. In this paper, we examine the nuanced relationship between demographic attributes and socioeconomic biases in LLMs, a crucial yet understudied area of fairness in LLMs. We introduce a novel dataset of one million English sentences to systematically quantify socioeconomic biases across various demographic groups. Our findings reveal pervasive socioeconomic biases in both established models such as GPT-2 and state-of-the-art models like Llama 2 and Falcon. We demonstrate that these biases are significantly amplified when considering intersectionality, with LLMs exhibiting a remarkable capacity to extract multiple demographic attributes from names and then correlate them with specific socioeconomic biases.
Comprendre les biais socio-économiques intrinsèques dans les grands modèles linguistiques
Les grands modèles linguistiques (LLM) sont de plus en plus intégrés dans des processus décisionnels critiques, tels que les approbations de prêts et les demandes de visa, où les biais inhérents peuvent conduire à des résultats discriminatoires. Dans cet article, nous examinons la relation nuancée entre les attributs démographiques et les biais socio-économiques dans les LLM, un domaine crucial mais peu étudié de l'équité dans les LLM. Nous introduisons un nouvel ensemble de données d'un million de phrases en anglais pour quantifier systématiquement les biais socio-économiques dans divers groupes démographiques. Nos résultats révèlent des biais socio-économiques omniprésents dans les modèles établis tels que GPT-2 et les modèles de pointe tels que Llama 2 et Falcon. Nous démontrons que ces biais sont considérablement amplifiés lorsque l'on tient compte de l'intersectionnalité, les LLM présentant une capacité remarquable à extraire de multiples attributs démographiques des noms et à les mettre en corrélation avec des biais socio-économiques spécifiques.
Date and Time
-
Co-auteurs (non y compris vous-même)
Florian Carichon
HEC Montreal
Golnoosh Farnadi
McGill University, Mila - Quebec AI Institute
Langue de la présentation orale
Anglais
Langue des supports visuels
Anglais

Speaker

Edit Name Primary Affiliation
MINA ARZAGHI HEC Montreal, MILA