Dynamics of "Spontaneous" Topic Changes in Next Token Prediction with Self-Attention
Our work examines differences between human cognition and self-attention language models in handling topic shifts. Humans can spontaneously change topics based on emotional or contextual cues, whereas self-attention-based language models rely on structured statistical signals from input tokens. To explore this, we define topic continuity, ambiguous sequences, and change of topic using token priority graphs (TPGs). Using a simplified single-layer self-attention architecture, we analytically show that: (1) the model preserves the priority order of tokens related to the current topic; (2) a topic change occurs only when lower-priority tokens outnumber all higher-priority tokens; and (3) longer contexts and overlapping topics decrease the likelihood of spontaneous redirection. These insights highlight differences between human cognition and self-attention-based models and the challenges in designing conversational AI that handles spontaneous topic shifts as naturally as humans do.
Dynamique des changements de sujets « spontanés » dans la prédiction du prochain jeton textuel avec autoattention
Notre travail examine les différences entre la cognition humaine et les modèles linguistiques basés sur l'autoattention dans la gestion des changements de sujet. Les humains peuvent changer spontanément de sujet en fonction d'indices émotionnels ou contextuels, alors que les modèles de langage basés sur l'autoattention s'appuient sur des signaux statistiques structurés provenant des jetons d'entrée textuels. Pour étudier cette question, nous définissons la continuité du sujet, les séquences ambiguës et le changement de sujet à l'aide de graphes de priorité des jetons textuels (TPG). En utilisant une architecture simplifiée d'autoattention à une couche, nous montrons analytiquement que : (1) le modèle préserve l'ordre de priorité des jetons textuels liés au sujet actuel ; (2) un changement de sujet ne se produit que lorsque les jetons textuels de priorité inférieure sont plus nombreux que tous les jetons textuels de priorité supérieure ; et (3) les contextes plus longs et les sujets qui se chevauchent diminuent la probabilité d'une réorientation spontanée. Ces résultats mettent en évidence les différences entre la cognition humaine et les modèles basés sur l'autoattention, ainsi que les défis liés à la conception d'une IA conversationnelle capable de gérer les changements de sujet spontanés de manière aussi naturelle que les humains.
Date and Time
-
Langue de la présentation orale
Anglais
Langue des supports visuels
Anglais