« Vecteur-mot » : différence entre les versions
Aucun résumé des modifications |
Aucun résumé des modifications |
||
Ligne 42 : | Ligne 42 : | ||
''Un vector de palabras se obtiene mediante aprendizaje automático o mediante análisis de co-ocurrencia o vecindad de los datos.'' | ''Un vector de palabras se obtiene mediante aprendizaje automático o mediante análisis de co-ocurrencia o vecindad de los datos.'' | ||
==Sources== | ==Sources== |
Dernière version du 21 juillet 2025 à 16:36
Définition
Un vecteur-mot est une représentation distribuée et dense d'un mot sous la forme de nombres réels ou vecteur sémantique distributionnel compact. La modélisation par vecteur-mot, bien que souvent appliquée aux mots, ne se limite pas à ces derniers et peut être appliquée à des phrases, des paragraphes, des documents, etc. On parle aussi de plongement lexical, c'est-à-dire de vecteur contextuel.
La représentation par vecteur-mot a comme propriété que les mots apparaissant dans des contextes similaires possèdent des vecteurs qui sont relativement proches. Il en découle que la distance entre des vecteurs-mots de concepts similaires tels que bouteille et gobelet est plus faible que celle mesurée entre des concepts sémantiquement éloignés tels que bouteille et moucheron.
Un vecteur-mot est obtenu par apprentissage automatique ou analyse de cooccurrence ou de voisinage de données.
Compléments
Détail technique, on part typiquement d’un corpus représenté par un lexique parcimonieux de plusieurs milliers d'attributs vers une représentation compacte de quelques centaines d’attributs. Voir Parcimonie des données
Des représentations par vecteur-mot populaires sont word2vec, GloVe, FastText.
Le problème le plus important avec l'emploi de vecteurs-mots est la polysémie. Les algorithmes d’extraction de vecteurs-mots comme Word2Vec produisent des vecteurs-mots polysémiques qui mélangent leurs multiples sens. En fait, les techniques de génération de vecteurs-mots opèrent sur un mot sans considérer qu’il peut être ambigu ou polysémique. Par exemple, toute l’information pour le mot «java» se retrouvera condensée dans un unique vecteur-mot associé à «java» que ce soit le lieu géographique, le café ou le langage de programmation.
Français
vecteur-mot
vecteur-mot sémantique compact
vecteur-mot sémantique
vecteur-mot contextuel compact
plongement lexical
plongement de mot
Anglais
word embedding
word vector
Español
encaje léxico
Un vector de palabras es una representación distribuida y densa de una palabra en forma de números reales o un vector semántico distribuido compacto. La modelización de vectores de palabras, aunque suele aplicarse a las palabras, no se limita a ellas y puede aplicarse a frases, párrafos, documentos y mucho más. También se conoce como encaje o inmersión léxica o vector de contexto.
La representación vectorial de palabras tiene la propiedad de que las palabras que aparecen en contextos similares tienen vectores relativamente próximos. Por eso, la distancia entre vectores de palabras de conceptos similares, como botella y copa, es menor que entre conceptos semánticamente distantes, como botella y mosquito.
Un vector de palabras se obtiene mediante aprendizaje automático o mediante análisis de co-ocurrencia o vecindad de los datos.
Sources
Source: Wiktionnaire, Plongement lexical
Source: Turenne, Nicolas (2016). Analyse de données textuelles sous R, Londres, Éditions ISTE, 318 pages.
Source: Nagoudi, El Moatez Billah; Jérémy Ferrero et Didier SchwabDidier Schwab (2017). Amélioration de la similarité sémantique vectorielle par méthodes non-supervisées, Actes de la24e conférence sur le Traitement Automatique des Langues Naturelles (TALN 2017), Orléans, France, 9 pages.
Source: Bernier Colborne, Gabriel (2016). Aide à l'identification de relations lexicales au moyen de la sémantique distributionnelle et son application à un corpus bilingue du domaine de l'environnement, thèse de doctorat, Université de Montréal, 265 pages.
101 MOTS DE L' IA
Ce terme est sélectionné pour le livre « Les 101 mots de l'intelligence artificielle »
Contributeurs: Arianne , Claude Coulombe, Espanol: Jean-Sébastien Zavalone, Patrick Drouin, wiki
