« Masquage de segment textuel » : différence entre les versions
Aucun résumé des modifications |
Aucun résumé des modifications |
||
Ligne 2 : | Ligne 2 : | ||
== Définition == | == Définition == | ||
Technique | Technique d''''[[apprentissage auto-supervisé]]''' pour le '''[[préentraînement]]''' d’un '''[[grand modèle de langues]]''' où les '''[[segment textuel|segments textuels]]''' sont masqués de manière aléatoire par un symbole ou [masque], afin de prédire le segment textuel masqué en fonction de son contexte. | ||
Voir aussi | Voir aussi '''[[segmentation]]''' et '''[[Text Infilling]]''' | ||
== Compléments == | == Compléments == | ||
Le masquage de segments textuels est une stratégie appartenant à un groupe plus large de techniques de modification de textes (en anglais, ''text corruption'') pour l''''[[apprentissage auto-supervisé]]''' qui comprend la '''permutation de phrases''' (en anglais, sentence permutation), la '''rotation de phrases''' (en anglais, document rotation), l''''insertion de segment textuel''' (en anglais, text infilling) et la '''suppression de segment textuel''' (en anglais, token deletion). | |||
<hr/> | |||
En 2018, '''[[BERT]]''' de Google fut le premier '''[[modèle d'apprentissage]]''' à utiliser le masquage de segment textuel et l''''[['entraînement autosupervisé]]''' pour préentraîner un '''[[modèle de langue]]'''. | |||
== Français == | == Français == | ||
Ligne 15 : | Ligne 17 : | ||
== Anglais == | == Anglais == | ||
''' Token | '''Token masking''' | ||
'''Text | '''Text corruption''' | ||
== Sources == | == Sources == | ||
[https://arxiv.org/html/2309.08628v3 Source: Arxiv] | [https://arxiv.org/html/2309.08628v3 Source: Arxiv] | ||
Version du 10 juin 2025 à 15:06
en construction
Définition
Technique d'apprentissage auto-supervisé pour le préentraînement d’un grand modèle de langues où les segments textuels sont masqués de manière aléatoire par un symbole ou [masque], afin de prédire le segment textuel masqué en fonction de son contexte.
Voir aussi segmentation et Text Infilling
Compléments
Le masquage de segments textuels est une stratégie appartenant à un groupe plus large de techniques de modification de textes (en anglais, text corruption) pour l'apprentissage auto-supervisé qui comprend la permutation de phrases (en anglais, sentence permutation), la rotation de phrases (en anglais, document rotation), l'insertion de segment textuel (en anglais, text infilling) et la suppression de segment textuel (en anglais, token deletion).
En 2018, BERT de Google fut le premier modèle d'apprentissage à utiliser le masquage de segment textuel et l''entraînement autosupervisé pour préentraîner un modèle de langue.
Français
Masquage de segment(s) textuel(s)
Masquage de segment(s)
Anglais
Token masking
Text corruption
Sources
Contributeurs: Arianne , Claude Coulombe
