« Attention éclair » : différence entre les versions


Aucun résumé des modifications
Aucun résumé des modifications
 
(2 versions intermédiaires par un autre utilisateur non affichées)
Ligne 1 : Ligne 1 :
==Définition==
==Définition==
Pour économiser de la mémoire, l'attention éclair consiste à reprendre des étapes du calcul de la fonction [[softmax]] en utilisant des astuces mathématiques au lieu de les mémoriser.
 
Ce concept regroupe différentes approches algorithmiques pour augmenter la performance en temps d'exécution et/ou en mémoire du [[mécanisme d'attention]] original.
 
Sur le plan technique, il existe différentes implémentations qui dépendent entre autres de l'organisation matérielle des processeurs graphiques, souvent pour un fabricant de puces en particulier.


== Compléments ==
== Compléments ==
Les [[Réseau autoattentif|couches d'auto-attention]] permettent de comprendre les relations contextuelles entre les données d'entrée. Cependant, la consommation maximale de mémoire GPU pour les [[Réseau autoattentif|couches d'auto-attention]] augmente quadratiquement avec la longueur de la séquence d’entrée. Ainsi, l'[[Réseau autoattentif|algorithme d'auto-attention classique]] devient rapidement prohibitif en termes de mémoire pour les longs contextes d'entrée.


Afin de résoudre ce problème, Tri Dao et al. ont inventé en 2022 l'algorithme d'attention éclair dont le coût en mémoire n'augmente que linéairement avec la longueur de la séquence d'entrée. Évidemment, l’algorithme d’attention éclair est un peu plus lent. Cependant,  l'attention-éclair est plus rapide en inférence que l'attention classique car elle réduit considérablement les accès mémoires plus lents du processeur graphique en se concentrant plutôt sur la mémoire vive statique (SRAM) qui est plus rapide.
Les [[Réseau autoattentif|couches d'auto-attention]] permettent de comprendre les relations contextuelles entre les données d'entrée. Cependant, la consommation maximale de mémoire des [[processeur graphique|processeurs graphiques]] pour les [[Réseau autoattentif|couches d'auto-attention]] augmente de manière quadratique avec la longueur de la séquence d’entrée. Ainsi, l'[[Réseau autoattentif|algorithme d'auto-attention classique]] devient rapidement prohibitif en termes de mémoire pour les longs contextes d'entrée.
 
Afin de résoudre ce problème, Tri Dao et al. ont inventé en 2022 l'algorithme d'attention éclair (FlashAttention) dont le coût en mémoire n'augmente que linéairement avec la longueur de la séquence d'entrée. Évidemment, l’algorithme d’attention éclair est un peu plus lent. En contrepartie,  l'attention-éclair est plus rapide en inférence que l'attention classique car elle réduit considérablement les accès mémoires plus lents du processeur graphique en se concentrant plutôt sur la mémoire vive statique (SRAM) qui est plus rapide.
 
Le mécanisme d'attention éclair proposé par Qin & al. en 2023, appelé '''lightning attention''', fait appel à une approximation qui s'exécute en temps linéaire alors que le mécanisme d'attention original s'exécute en temps quadratique. Cette amélioration est basée sur la [[normalisation du gradient]] pour lutter contre l'[[explosion du gradient]] et l'utilisation privilégiée de la diagonale de la matrice d'attention c.-à-d. les [[segment textuel|segments textuels]] voisins pour lutter contre l'[[évanescence du  gradient]].


==Français==
==Français==
'''attention éclair'''
'''attention éclair'''


'''attention flash''' <small>'' Calque de l'anglais''</small>
'''attention flash''' <small>''Calque de l'anglais''</small>


==Anglais==
==Anglais==
'''FlashAttention''' <small>'' Proposition originale de Tri Dao et al. (2022)''</small>
'''flash attention'''
'''flash attention'''


'''FlashAttention''' <small>'' Proposition originale de Tri Dao et al. (2022)''</small>
'''lightning attention'''


==Sources==
==Sources==
[https://arxiv.org/abs/2205.14135  Source : Tri Dao et al. (2022)]
 
[https://arxiv.org/pdf/2307.14995v1 - arxiv - Qin & al. 2023 - Lightning Attention]
 
[https://arxiv.org/abs/2205.14135  - arxiv - Tri Dao et al. (2022) - FlashAttention]


[https://gordicaleksa.medium.com/eli5-flash-attention-5c44017022ad Source: Medium]
[https://gordicaleksa.medium.com/eli5-flash-attention-5c44017022ad Source: Medium]


[[Catégorie:GRAND LEXIQUE FRANÇAIS]]
[[Catégorie:GRAND LEXIQUE FRANÇAIS]]

Dernière version du 18 août 2025 à 21:51

Définition

Ce concept regroupe différentes approches algorithmiques pour augmenter la performance en temps d'exécution et/ou en mémoire du mécanisme d'attention original.

Sur le plan technique, il existe différentes implémentations qui dépendent entre autres de l'organisation matérielle des processeurs graphiques, souvent pour un fabricant de puces en particulier.

Compléments

Les couches d'auto-attention permettent de comprendre les relations contextuelles entre les données d'entrée. Cependant, la consommation maximale de mémoire des processeurs graphiques pour les couches d'auto-attention augmente de manière quadratique avec la longueur de la séquence d’entrée. Ainsi, l'algorithme d'auto-attention classique devient rapidement prohibitif en termes de mémoire pour les longs contextes d'entrée.

Afin de résoudre ce problème, Tri Dao et al. ont inventé en 2022 l'algorithme d'attention éclair (FlashAttention) dont le coût en mémoire n'augmente que linéairement avec la longueur de la séquence d'entrée. Évidemment, l’algorithme d’attention éclair est un peu plus lent. En contrepartie, l'attention-éclair est plus rapide en inférence que l'attention classique car elle réduit considérablement les accès mémoires plus lents du processeur graphique en se concentrant plutôt sur la mémoire vive statique (SRAM) qui est plus rapide.

Le mécanisme d'attention éclair proposé par Qin & al. en 2023, appelé lightning attention, fait appel à une approximation qui s'exécute en temps linéaire alors que le mécanisme d'attention original s'exécute en temps quadratique. Cette amélioration est basée sur la normalisation du gradient pour lutter contre l'explosion du gradient et l'utilisation privilégiée de la diagonale de la matrice d'attention c.-à-d. les segments textuels voisins pour lutter contre l'évanescence du gradient.

Français

attention éclair

attention flash Calque de l'anglais

Anglais

FlashAttention Proposition originale de Tri Dao et al. (2022)

flash attention

lightning attention

Sources

- arxiv - Qin & al. 2023 - Lightning Attention

- arxiv - Tri Dao et al. (2022) - FlashAttention

Source: Medium