« Matryoshka Multimodal Models » : différence entre les versions
Aucun résumé des modifications |
Aucun résumé des modifications |
||
Ligne 2 : | Ligne 2 : | ||
== Définition == | == Définition == | ||
Approche qui représente le contenu visuel sous forme d'ensembles imbriqués de segments (''tokens'') visuels capturant des informations à plusieurs degrés de précision. Les '''[[Grand modèle de langues|grands modèles de langues]]''' équipés de M3 ont un contrôle explicite sur la précision visuelle par instance de test pendant l''''[[inférence]]''', ce qui permet d'ajuster le nombre de segments en fonction de la complexité ou de la simplicité du contenu. | |||
Par exemple, une image avec des détails denses peut être représentée avec plus de segments, tandis que des images plus simples peuvent en utiliser moins. | |||
Voir aussi '''[[Large Language and Vision Assistant|LLaVa]]''' | |||
== Français == | == Français == | ||
''' Modèles multimodaux de Matryoshka ''' | ''' Modèles multimodaux de Matryoshka ''' | ||
''' M3''' | |||
== Anglais == | == Anglais == | ||
Ligne 12 : | Ligne 18 : | ||
''' M3''' | ''' M3''' | ||
''Approach that represents visual content as nested sets of visual tokens that capture information across multiple granularities. LMMs equipped with M3 afford explicit control over the visual granularity per test instance during inference, enabling the adjustment of the number of tokens based on the anticipated complexity or simplicity of the content. For example, an image with dense details can be represented with more tokens, while simpler images can use fewer tokens.'' | |||
== Source == | == Source == |
Dernière version du 7 octobre 2025 à 14:38
en construction
Définition
Approche qui représente le contenu visuel sous forme d'ensembles imbriqués de segments (tokens) visuels capturant des informations à plusieurs degrés de précision. Les grands modèles de langues équipés de M3 ont un contrôle explicite sur la précision visuelle par instance de test pendant l'inférence, ce qui permet d'ajuster le nombre de segments en fonction de la complexité ou de la simplicité du contenu.
Par exemple, une image avec des détails denses peut être représentée avec plus de segments, tandis que des images plus simples peuvent en utiliser moins.
Voir aussi LLaVa
Français
Modèles multimodaux de Matryoshka
M3
Anglais
Matryoshka Multimodal Models
M3
Approach that represents visual content as nested sets of visual tokens that capture information across multiple granularities. LMMs equipped with M3 afford explicit control over the visual granularity per test instance during inference, enabling the adjustment of the number of tokens based on the anticipated complexity or simplicity of the content. For example, an image with dense details can be represented with more tokens, while simpler images can use fewer tokens.
Source
Contributeurs: Arianne Arel, wiki
