« Multi-Token Projection » : différence entre les versions


(Page créée avec « == en construction == == Définition == xxxxxxx Voir aussi '''apprentissage par renforcement avec rétroaction humaine''' et '''réseau autoattentif''' == Compléments == ''à faire'' == Français == ''' XXXXXX''' == Anglais == ''' Multi-Token Projection''' ''' Multiple-Token Projection''' ''' MTP''' == Sources == [https://arxiv.org/html/2505.07608v1 Source : arxiv] [https://datascientest.com/multi-token-prediction-tout-savoir Source : DataSc... »)
 
Aucun résumé des modifications
Ligne 18 : Ligne 18 :


''' MTP'''
''' MTP'''
<!--Technique that enables the model to predict multiple token un a single forward pass and to strategically pre-plan and generate representations that facilitate more accurate and potentially faster prediction of future tokens. It is used in DeepSeek models and it works by adding specialized moules that predict not only the nest token but also several tokens ahead in the sequence.-->


== Sources ==
== Sources ==

Version du 25 juin 2025 à 15:00

en construction

Définition

xxxxxxx

Voir aussi apprentissage par renforcement avec rétroaction humaine et réseau autoattentif

Compléments

à faire

Français

XXXXXX

Anglais

Multi-Token Projection

Multiple-Token Projection

MTP

Sources

Source : arxiv

Source : DataScientest

Source : DeepWiki

Source : Medium

Contributeurs: Arianne