« Attention sink » : différence entre les versions
(Page créée avec « == en construction == == Définition == xxxxx == Compléments == On peut aussi utiliser le terme pour désigner spécifiquement ce genre de '''segment textuel''', on peut alors l'écrire au pluriel en fonction du contexte. == Français == ''' XXXXXXX''' == Anglais == ''' attention sink''' <!--This term can refer to the phenomenon or to the type of token concerned by the phenomenon. This phenomenon is present in all autoregressive large language models, i... ») |
Aucun résumé des modifications |
||
| Ligne 2 : | Ligne 2 : | ||
== Définition == | == Définition == | ||
Ce terme peut désigner le phénomène ou le type de '''[[segment textuel]]''' concerné par ce phénomène. | |||
Phénomène présent dans tous les '''[[Grand modèle de langues (GML)| grands modèles de langues]]''' '''[[Modèle autorégressif|autorégressifs]]''', dans lesquels les premiers segments textuels représentent une part extrêmement importante du score d'attention, même s'ils ne sont pas importants sur le plan sémantique. | |||
== Compléments == | == Compléments == | ||
Ce phénomène apparaît à la suite d'une optimisation efficace sur une quantité suffisante de '''[[données d'entraînement]]'''. | |||
La raison pour laquelle les segments textuels initiaux sont considérés comme des « segments puits » est intuitive : ils sont visibles par presque tous les segments textuels suivants en raison de la nature autorégressive du modèle, ce qui les entraînent pour être des « puits d'attention ». | |||
== Français == | == Français == | ||
''' | ''' puits d'attention''' | ||
== Anglais == | == Anglais == | ||
Dernière version du 27 janvier 2026 à 17:03
en construction
Définition
Ce terme peut désigner le phénomène ou le type de segment textuel concerné par ce phénomène.
Phénomène présent dans tous les grands modèles de langues autorégressifs, dans lesquels les premiers segments textuels représentent une part extrêmement importante du score d'attention, même s'ils ne sont pas importants sur le plan sémantique.
Compléments
Ce phénomène apparaît à la suite d'une optimisation efficace sur une quantité suffisante de données d'entraînement.
La raison pour laquelle les segments textuels initiaux sont considérés comme des « segments puits » est intuitive : ils sont visibles par presque tous les segments textuels suivants en raison de la nature autorégressive du modèle, ce qui les entraînent pour être des « puits d'attention ».
Français
puits d'attention
Anglais
attention sink
Sources
Contributeurs: Arianne Arel





