« Segment textuel » : différence entre les versions
Aucun résumé des modifications |
Aucun résumé des modifications |
||
(9 versions intermédiaires par 3 utilisateurs non affichées) | |||
Ligne 1 : | Ligne 1 : | ||
==Définition== | ==Définition== | ||
En '''[[traitement automatique de la langue naturelle]]''', le segment est l'unité de base pour l'analyse de textes produite par un [[segmenteur]] (en anglais ''tokenizer''). | En '''[[traitement automatique de la langue naturelle]]''', le segment est l'unité de base pour l'analyse de textes produite par un [[segmenteur]] (en anglais ''tokenizer''). | ||
voir aussi '''[[segmenteur]]''' | |||
==Compléments== | ==Compléments== | ||
Ligne 10 : | Ligne 12 : | ||
On appelle aussi les unités résultant de la segmentation des '''jetons''', mais le terme '''jeton''' est plutôt réservé à la cybersécurité et les réseaux de communication. | On appelle aussi les unités résultant de la segmentation des '''jetons''', mais le terme '''jeton''' est plutôt réservé à la cybersécurité et les réseaux de communication. | ||
<hr/> | |||
Pour la suite du traitement, le segment résultant est souvent converti en un nombre entier. On dit alors que le segment est encodé. Le processus inverse, le décodage part de la représentation par un nombre entier vers un segment de texte. | |||
==Français== | ==Français== | ||
'''segment''' | '''segment textuel''' | ||
'''jeton textuel''' | |||
'''symbole''' | '''symbole''' | ||
Ligne 23 : | Ligne 31 : | ||
==Anglais== | ==Anglais== | ||
''' | '''token''' | ||
==Sources== | ==Sources== | ||
[https://www.btb.termiumplus.gc.ca/tpv2alpha/alpha-fra.html?lang=fra&i=1&srchtxt=tokenizer&index=alt&codom2nd_wet=1#resultrecs ''Termium''] | [https://www.btb.termiumplus.gc.ca/tpv2alpha/alpha-fra.html?lang=fra&i=1&srchtxt=tokenizer&index=alt&codom2nd_wet=1#resultrecs ''Termium - Tokenizer''] | ||
[https://www.culture.gouv.fr/content/download/365680/pdf_file/50_termes_cl%C3%A9s_de_l%27IA-2025.pdf?inLanguage=fre-FR&version=2 ''50 termes clés de l'intelligence artificielle'', Ministère de la culture, Commission d'enrichissement de la langue française (2025). - Jeton textuel] | |||
[https://fr.wikipedia.org/wiki/Analyse_lexicale Wikipedia - ''Analyse lexicale''] | [https://fr.wikipedia.org/wiki/Analyse_lexicale Wikipedia - ''Analyse lexicale''] | ||
Ligne 38 : | Ligne 48 : | ||
[[Catégorie: | |||
[[Catégorie:GRAND LEXIQUE FRANÇAIS]] |
Dernière version du 1 avril 2025 à 14:57
Définition
En traitement automatique de la langue naturelle, le segment est l'unité de base pour l'analyse de textes produite par un segmenteur (en anglais tokenizer).
voir aussi segmenteur
Compléments
Un segment peut correspondre à un mot, à une partie de mot (ou symbole) ou encore une suite de caractères.
Traditionnellement, en TALN, les algorithmes travaillaient au niveau du mot ou des unités lexicales, mais depuis l'arrivée des techniques d'apprentissage profond, la segmentation s'effectue plutôt au niveau sous-lexical. Un atout important du traitement sous-lexical est d'éviter les mots hors-vocabulaire, puisqu'on peut plus facilement créer de nouvelles unités lexicales à partir d'éléments sous-lexicaux.
On appelle aussi les unités résultant de la segmentation des jetons, mais le terme jeton est plutôt réservé à la cybersécurité et les réseaux de communication.
Pour la suite du traitement, le segment résultant est souvent converti en un nombre entier. On dit alors que le segment est encodé. Le processus inverse, le décodage part de la représentation par un nombre entier vers un segment de texte.
Français
segment textuel
jeton textuel
symbole
unité sous-lexicale
unité lexicale
partie de mot
Anglais
token
Sources
Overview of Character-Based Models for Natural Language Processing, Adel et al. 2018
Contributeurs: Claude Coulombe, Patrick Drouin, wiki
