« Puits d'attention » : différence entre les versions

Version du 19 mars 2026 à 14:49

en construction

Définition

Ce terme peut désigner le phénomène ou le type de segment textuel concerné par le phénomène.

Phénomène présent dans tous les grands modèles de langues autorégressifs, dans lesquels les premiers segments textuels représentent une part extrêmement importante du score d'attention, même s'ils ne sont pas importants sur le plan sémantique.

Compléments

Ce phénomène apparaît à la suite d'une optimisation efficace sur une quantité suffisante de données d'entraînement.

La raison pour laquelle les segments textuels initiaux sont considérés comme des « segments puits » est intuitive : ils sont visibles par presque tous les segments textuels suivants en raison de la nature autorégressive du modèle, ce qui les rend plus aptes à servir de « puits d'attention ».

Français

puits d'attention

Anglais

attention sink

This term can refer to the phenomenon or to the type of token concerned by the phenomenon. This phenomenon is present in all autoregressive large language models, in which the first few tokens make up for a shockingly large amount of the attention score, even if the tokens are not semantically important. It emerges after effective optimization on sufficient training data.

The reason behind initial tokens as “sink tokens” is intuitive: initial tokens are visible to almost all subsequent tokens because of the autoregressive language modeling nature, making them more readily trained to serve as “attention sinks”.

This phenomenon has been widely adopted in applications such as streaming/long context generation, KV cache optimization, inference acceleration, model quantization, and others.

Sources

Source : arxiv

Source : Hugging Face Blog

@@ Ligne 2 : / Ligne 2 : @@
 == Définition ==
-Ce terme peut désigner le phénomène ou le type de '''[[segment textuel]]''' concerné par ce phénomène.
+Ce terme peut désigner le phénomène ou le type de '''[[segment textuel]]''' concerné par le phénomène.
 Phénomène présent dans tous les '''[[Grand modèle de langues (GML)| grands modèles de langues]]''' '''[[Modèle autorégressif|autorégressifs]]''', dans lesquels les premiers segments textuels représentent une part extrêmement importante du score d'attention, même s'ils ne sont pas importants sur le plan sémantique.
@@ Ligne 9 : / Ligne 9 : @@
 Ce phénomène apparaît à la suite d'une optimisation efficace sur une quantité suffisante de '''[[données d'entraînement]]'''.
-La raison pour laquelle les segments textuels initiaux sont considérés comme des « segments puits » est intuitive : ils sont visibles par presque tous les segments textuels suivants en raison de la nature autorégressive du modèle, ce qui les entraînent pour être des « puits d'attention ».
+La raison pour laquelle les segments textuels initiaux sont considérés comme des « segments puits » est intuitive : ils sont visibles par presque tous les segments textuels suivants en raison de la nature autorégressive du modèle, ce qui les rend plus aptes à servir de « puits d'attention ».
 == Français ==
@@ Ligne 17 : / Ligne 17 : @@
 ''' attention sink'''
-<!--This term can refer to the phenomenon or to the type of token concerned by the phenomenon. This phenomenon is present in all autoregressive large language models, in which the first few tokens make up for a shockingly large amount of the attention score, even if the tokens are not semantically important. It emerges after effective optimization on sufficient training data. The reason behind initial tokens as “sink tokens” is intuitive: initial tokens are visible to almost all subsequent tokens because of the autoregressive language modeling nature, making them more readily trained to serve as “attention sinks”.
+''This term can refer to the phenomenon or to the type of token concerned by the phenomenon. This phenomenon is present in all autoregressive large language models, in which the first few tokens make up for a shockingly large amount of the attention score, even if the tokens are not semantically important. It emerges after effective optimization on sufficient training data. ''
-This phenomenon has been widely adopted in applications such as streaming/long context generation, KV cache optimization, inference acceleration, model quantization, and others. -->
+''The reason behind initial tokens as “sink tokens” is intuitive: initial tokens are visible to almost all subsequent tokens because of the autoregressive language modeling nature, making them more readily trained to serve as “attention sinks”.''
+''This phenomenon has been widely adopted in applications such as streaming/long context generation, KV cache optimization, inference acceleration, model quantization, and others.''
 == Sources ==
@@ Ligne 28 : / Ligne 30 : @@
 [https://huggingface.co/blog/tomaarsen/attention-sinks   Source : Hugging Face Blog]
-[[Catégorie:vocabulary]]
+[[Catégorie:publication]]

« Puits d'attention » : différence entre les versions