« Masquage de jeton textuel » : différence entre les versions
Aucun résumé des modifications |
Aucun résumé des modifications |
||
| (6 versions intermédiaires par 3 utilisateurs non affichées) | |||
| Ligne 1 : | Ligne 1 : | ||
== Définition == | == Définition == | ||
Technique d''''[[apprentissage auto-supervisé]]''' pour le '''[[préentraînement]]''' d’un '''[[grand modèle de langues]]''' où les '''[[ | Technique d''''[[apprentissage auto-supervisé]]''' pour le '''[[préentraînement]]''' d’un '''[[grand modèle de langues]]''' où les '''[[jeton textuel|jetons textuels]]''' ou segments textuels sont masqués de manière aléatoire par un symbole ou [masque], afin de prédire le jeton textuel masqué en fonction de son contexte. | ||
Voir aussi '''[[segmentation]]''' et '''[[ | Voir aussi '''[[segmentation]]''' et '''[[insertion de jeton textuel]]''' | ||
== Compléments == | == Compléments == | ||
Le masquage de | Le masquage de jetons textuels est une stratégie appartenant à un groupe plus large de techniques de modification de textes (en anglais, ''text corruption'') pour l''''[[apprentissage auto-supervisé]]''' qui comprend la '''[[permutation de phrases]]''' (en anglais, ''sentence permutation''), la '''[[rotation de phrases]]''' (en anglais, ''document rotation''), l''''[[insertion de jeton textuel]]''' (en anglais, ''text infilling'') et la '''[[suppression de jeton textuel]]''' (en anglais, ''token deletion''). | ||
<hr/> | <hr/> | ||
En 2018, '''[[BERT]]''' de Google fut le premier '''[[modèle d'apprentissage]]''' à utiliser le masquage de | En 2018, '''[[BERT]]''' de Google fut le premier '''[[modèle d'apprentissage]]''' à utiliser le masquage de jeton textuel et l''''[[entraînement autosupervisé]]''' pour préentraîner un '''[[modèle de langue]]'''. | ||
== Français == | == Français == | ||
''' | '''masquage de jeton(s) textuel(s)''' | ||
'''masquage de jeton(s)''' | |||
'''masquage de segment(s) textuel(s)''' | |||
'''masquage de segment(s)''' | |||
== Anglais == | == Anglais == | ||
''' | '''token masking''' | ||
''' | '''text corruption''' | ||
== Sources == | == Sources == | ||
| Ligne 26 : | Ligne 29 : | ||
[https://towardsai.net/p/l/token-masking-strategies-for-llms Source: TowardsAI] | [https://towardsai.net/p/l/token-masking-strategies-for-llms Source: TowardsAI] | ||
[[Catégorie: | [[Catégorie:GRAND_LEXIQUE_FRANÇAIS]] | ||
Dernière version du 9 juin 2026 à 14:45
Définition
Technique d'apprentissage auto-supervisé pour le préentraînement d’un grand modèle de langues où les jetons textuels ou segments textuels sont masqués de manière aléatoire par un symbole ou [masque], afin de prédire le jeton textuel masqué en fonction de son contexte.
Voir aussi segmentation et insertion de jeton textuel
Compléments
Le masquage de jetons textuels est une stratégie appartenant à un groupe plus large de techniques de modification de textes (en anglais, text corruption) pour l'apprentissage auto-supervisé qui comprend la permutation de phrases (en anglais, sentence permutation), la rotation de phrases (en anglais, document rotation), l'insertion de jeton textuel (en anglais, text infilling) et la suppression de jeton textuel (en anglais, token deletion).
En 2018, BERT de Google fut le premier modèle d'apprentissage à utiliser le masquage de jeton textuel et l'entraînement autosupervisé pour préentraîner un modèle de langue.
Français
masquage de jeton(s) textuel(s)
masquage de jeton(s)
masquage de segment(s) textuel(s)
masquage de segment(s)
Anglais
token masking
text corruption
Sources
Contributeurs: Arianne Arel, Claude Coulombe, wiki





