« Multi-Token Projection » : différence entre les versions
(Page créée avec « == en construction == == Définition == xxxxxxx Voir aussi '''apprentissage par renforcement avec rétroaction humaine''' et '''réseau autoattentif''' == Compléments == ''à faire'' == Français == ''' XXXXXX''' == Anglais == ''' Multi-Token Projection''' ''' Multiple-Token Projection''' ''' MTP''' == Sources == [https://arxiv.org/html/2505.07608v1 Source : arxiv] [https://datascientest.com/multi-token-prediction-tout-savoir Source : DataSc... ») |
Aucun résumé des modifications |
||
Ligne 18 : | Ligne 18 : | ||
''' MTP''' | ''' MTP''' | ||
<!--Technique that enables the model to predict multiple token un a single forward pass and to strategically pre-plan and generate representations that facilitate more accurate and potentially faster prediction of future tokens. It is used in DeepSeek models and it works by adding specialized moules that predict not only the nest token but also several tokens ahead in the sequence.--> | |||
== Sources == | == Sources == |
Version du 25 juin 2025 à 15:00
en construction
Définition
xxxxxxx
Voir aussi apprentissage par renforcement avec rétroaction humaine et réseau autoattentif
Compléments
à faire
Français
XXXXXX
Anglais
Multi-Token Projection
Multiple-Token Projection
MTP
Sources
Contributeurs: Arianne
