« Multi-Token Projection » : différence entre les versions

Dernière version du 26 juin 2025 à 12:27

en construction

Définition

Technique qui permet au modèle de prédire plusieurs segments textuels en un seul passage. Elle permet aussi de planifier et de générer stratégiquement des représentations qui facilitent une prédiction plus précise et potentiellement plus rapide des futurs segments textuels. Elle est utilisée dans les modèles DeepSeek et fonctionne en ajoutant des modules spécialisés qui prédisent non seulement le segment textuel de base, mais aussi plusieurs segments textuels à venir dans la séquence.

Compléments

Cette technique est utilisée entre autres par ChatGPT-4, Claude 3, LLaMA 3, BERT.

Les applications de la projection de segments textuels multiple sont nombreuses. On la retrouve dans les robots conversationnels, les assistants virtuels ainsi qu'en traduction automatique neuronale.

Cette technique se repose aussi sur de nombreuses avancées clés, telles que les réseaux autoattentifs, les modèles autorégressifs, les modèles bidirectionnels, le peaufinage et l'apprentissage par renforcement avec rétroaction humaine.

Français

XXXXXX

Anglais

Multi-Token Projection

Multiple-Token Projection

MTP

Sources

Source : arxiv

Source : DataScientest

Source : DeepWiki

Source : Medium

@@ Ligne 2 : / Ligne 2 : @@
 == Définition ==
-xxxxxxx
+Technique qui permet au modèle de prédire plusieurs '''[[Segment textuel|segments textuels]]''' en un seul passage. Elle permet aussi de planifier et de générer stratégiquement des représentations qui facilitent une prédiction plus précise et potentiellement plus rapide des futurs segments textuels. Elle est utilisée dans les modèles '''[[DeepSeek]]''' et fonctionne en ajoutant des modules spécialisés qui prédisent non seulement le segment textuel de base, mais aussi plusieurs segments textuels à venir dans la séquence.
-Voir aussi '''[[apprentissage par renforcement avec rétroaction humaine]]''' et '''[[réseau autoattentif]]'''
 == Compléments ==
-''à faire''
+Cette technique est utilisée entre autres par '''[[ChatGPT]]'''-4, '''[[Claude]]''' 3, '''[[LLaMA]]''' 3, '''[[BERT]]'''.
+<hr/>
+Les applications de la projection de segments textuels multiple sont nombreuses. On la retrouve dans les '''[[Robot conversationnel|robots conversationnels]]''', les '''[[Assistant virtuel|assistants virtuels]]''' ainsi qu'en '''[[traduction automatique neuronale]]'''.
+<hr/>
+Cette technique se repose aussi sur de nombreuses avancées clés, telles que les '''[[Réseau autoattentif|réseaux autoattentifs]]''', les '''[[Modèle autorégressif|modèles autorégressifs]]''', les '''modèles bidirectionnels''', le '''[[peaufinage]]''' et l''''[[apprentissage par renforcement avec rétroaction humaine]]'''.
 == Français ==
@@ Ligne 18 : / Ligne 20 : @@
 ''' MTP'''
-<!--Technique that enables the model to predict multiple token un a single forward pass and to strategically pre-plan and generate representations that facilitate more accurate and potentially faster prediction of future tokens. It is used in DeepSeek models and it works by adding specialized moules that predict not only the nest token but also several tokens ahead in the sequence.-->
+<!--Technique that enables the model to predict multiple token un a single forward pass and to strategically pre-plan and generate representations that facilitate more accurate and potentially faster prediction of future tokens. It is used in DeepSeek models and it works by adding specialized modules that predict not only the nest token but also several tokens ahead in the sequence.-->
 == Sources ==

« Multi-Token Projection » : différence entre les versions