« Modèle multimodal » : différence entre les versions

Dernière version du 22 juillet 2025 à 11:34

Définition

Modèle d'apprentissage qui admet plusieurs modalités de représentation des données (texte, son, image, vidéo, données issues de capteurs, etc.) en entrée et en sortie.

En d'autres mots, un modèle multimodal peut traiter et générer différents types de données, tels que du texte, des images, de l'audio et de la vidéo. Cela contrairement à un modèle non multimodal ou unimodal, qui ne traite que des données d'une seule modalité, comme uniquement du texte.

Compléments

La frontière entre multimodal et multimédia est floue. On parle davantage de mutimodal quand il est question de communication, d'interaction, de transmission de renseignement. Le terme multimédia est plutôt utilisé pour décrire l'aspect statique de l'information (image, vidéo, son, texte).

En IA, la tendance est plutôt d'utiliser l'adjectif multimodal que multimedia. On utilise grand modèle de langues multimodal quand le modèle de langues est la partie prépondérante du système d'IA. Le cas échéant, on parle plutôt de grand modèle multimodal.

Français

modèle multimodal

Anglais

multimodal model

Basically, multimodal LLMs combine text with other kinds of information, such as images, videos, audio, and other sensory data. Multimodality can solve some of the problems of the current generation of LLMs. Multimodal language models will also unlock new applications that were impossible with text-only models.

Español

modelo multimodal

Modelo de aprendizaje que acepta varios modos de representación de datos (texto, sonido, imagen, vídeo, datos de sensores, etc.) como entrada y salida.

En otras palabras, un modelo multimodal puede procesar y generar distintos tipos de datos, como texto, imágenes, audio y vídeo. Esto contrasta con un modelo no multimodal o unimodal, que sólo procesa datos de una única modalidad, como el texto.

Sources

Source : bdtechtalks

Source : Huang et al. (2023)

Source: Developpez.com

Source: Le Monde Informatique

Source: ActuIA

101 MOTS DE L' IA
Ce terme est sélectionné pour le livre « Les 101 mots de l'intelligence artificielle »

@@ Ligne 1 : / Ligne 1 : @@
 == Définition ==
-[[Modèle d'apprentissage]] qui admet plusieurs modalités de représentation des données (texte, son, image, vidéo, données issues de capteurs, etc.) en entrée et en sortie.
+[[Modèle d'apprentissage]] qui admet plusieurs modalités de représentation des [[données]] (texte, son, image, vidéo, données issues de capteurs, etc.) en entrée et en sortie.
+En d'autres mots, un modèle multimodal peut traiter et générer différents types de données, tels que du texte, des images, de l'audio et de la vidéo. Cela contrairement à un modèle non multimodal ou unimodal, qui ne traite que des données d'une seule modalité, comme uniquement du texte.
 == Compléments ==
 La frontière entre multimodal et multimédia est floue. On parle davantage de ''mutimodal'' quand il est question de communication, d'interaction, de transmission de renseignement. Le terme ''multimédia'' est plutôt utilisé pour décrire l'aspect statique de l'information (image, vidéo, son, texte).
-En IA, la tendance est plutôt d'utiliser l'adjectif ''multimodal'' que ''multimedia''. On utilise '[[Grand modèle de langues multimodal|grand modèle de langues multimodal]]' quand le [[modèle de langue|modèle de langues]] est la partie prépondérante du système d'IA. Le cas échéant, on parle plutôt de ''grand modèle multimodal''.
+En IA, la tendance est plutôt d'utiliser l'adjectif ''multimodal'' que ''multimedia''. On utilise [[Grand modèle de langues multimodal|grand modèle de langues multimodal]] quand le [[modèle de langue|modèle de langues]] est la partie prépondérante du système d'IA. Le cas échéant, on parle plutôt de ''grand modèle multimodal''.
 == Français ==
@@ Ligne 13 : / Ligne 15 : @@
 ''' multimodal model'''
-<!--  Basically, multimodal LLMs combine text with other kinds of information, such as images, videos, audio, and other sensory data. Multimodality can solve some of the problems of the current generation of LLMs. Multimodal language models will also unlock new applications that were impossible with text-only models. -->
+Basically, multimodal LLMs combine text with other kinds of information, such as images, videos, audio, and other sensory data. Multimodality can solve some of the problems of the current generation of LLMs. Multimodal language models will also unlock new applications that were impossible with text-only models.
+==Español==
-<small>
+''''' modelo multimodal '''''
+''Modelo de aprendizaje que acepta varios modos de representación de datos (texto, sonido, imagen, vídeo, datos de sensores, etc.) como entrada y salida.''
+''En otras palabras, un modelo multimodal puede procesar y generar distintos tipos de datos, como texto, imágenes, audio y vídeo. Esto contrasta con un modelo no multimodal o unimodal, que sólo procesa datos de una única modalidad, como el texto.''
+==Sources==
 [https://bdtechtalks.com/2023/03/13/multimodal-large-language-models/   Source : bdtechtalks]
 [https://arxiv.org/abs/2302.14045arXiv Source :  Huang et al. (2023)]
 [https://microsoft.developpez.com/actu/342095/Microsoft-presente-le-grand-modele-de-langage-multimodal-Kosmos-1-les-chercheurs-montrent-que-le-passage-des-LLM-aux-MLLM-offre-de-nouvelles-capacites  Source: Developpez.com]
@@ Ligne 30 : / Ligne 37 : @@
 [https://www.actuia.com/actualite/meta-devoile-seamlessm4t-un-modele-de-base-multilingue-et-multimodal-open-source/  Source: ActuIA]
+{{Modèle:101}}
 [[Catégorie:GRAND LEXIQUE FRANÇAIS]]
-[[Catégorie: Publication]]
+[[Catégorie:101]]

« Modèle multimodal » : différence entre les versions