« Masquage de segment textuel » : différence entre les versions

Version du 10 juin 2025 à 15:28

Technique d'apprentissage auto-supervisé pour le préentraînement d’un grand modèle de langues où les segments textuels sont masqués de manière aléatoire par un symbole ou [masque], afin de prédire le segment textuel masqué en fonction de son contexte.

Le masquage de segments textuels est une stratégie appartenant à un groupe plus large de techniques de modification de textes (en anglais, text corruption) pour l'apprentissage auto-supervisé qui comprend la permutation de phrases (en anglais, sentence permutation), la rotation de phrases (en anglais, document rotation), l'insertion de segment textuel (en anglais, text infilling) et la suppression de segment textuel (en anglais, token deletion).

En 2018, BERT de Google fut le premier modèle d'apprentissage à utiliser le masquage de segment textuel et l''entraînement autosupervisé pour préentraîner un modèle de langue.

masquage de segment(s) textuel(s)

masquage de segment(s)

token masking

text corruption

Version du 10 juin 2025 à 15:26 (voir la source) Arianne (discussion \| contributions) Aucun résumé des modifications ← Modification précédente	Version du 10 juin 2025 à 15:28 (voir la source) Arianne (discussion \| contributions) m (Arianne a déplacé la page Token Masking vers Masquage de segment textuel) Modification suivante →
(Aucune différence)