« Voxtral » : différence entre les versions


(Page créée avec « ==en construction== == Définition == XXXXXXXXX == Français == ''' Voxtral''' == Anglais == '''Voxtral''' Voxtral Mini and Voxtral Small are multimodal audio chat models that excel in understanding spoken audio and text, with a 32K context window for handling long audio files and conversations. == Source == [https://huggingface.co/papers/2507.13264 Source : huggingface] Catégorie:vocabulary »)
 
Aucun résumé des modifications
 
Ligne 2 : Ligne 2 :


== Définition ==
== Définition ==
XXXXXXXXX
Voxtral est un '''[[modèle]]''' libre d'accès basé sur l''''[[intelligence artificielle]]''' conçu pour offrir une reconnaissance vocale plus intelligente, une transcription multilingue précise et une analyse audio approfondie.
 
Voir aussi '''[[modèle acoustique]]''', '''[[reconnaissance automatique des sons]]''' et '''[[transcription automatique de la parole]]'''


== Français ==
== Français ==
Ligne 10 : Ligne 12 :
'''Voxtral'''
'''Voxtral'''


Voxtral Mini and Voxtral Small are multimodal audio chat models that excel in understanding spoken audio and text, with a 32K context window for handling long audio files and conversations.
''Voxtral is an open-source AI audio model designed to deliver smarter voice recognition, accurate multilingual transcription, and deep audio insight. It is presented as an ideal for real-world interactions and downstream actions, such as summaries, answers, analysis, and insights, you can function-calling straight from voice.''


== Source ==
== Source ==

Dernière version du 9 octobre 2025 à 16:39

en construction

Définition

Voxtral est un modèle libre d'accès basé sur l'intelligence artificielle conçu pour offrir une reconnaissance vocale plus intelligente, une transcription multilingue précise et une analyse audio approfondie.

Voir aussi modèle acoustique, reconnaissance automatique des sons et transcription automatique de la parole

Français

Voxtral

Anglais

Voxtral

Voxtral is an open-source AI audio model designed to deliver smarter voice recognition, accurate multilingual transcription, and deep audio insight. It is presented as an ideal for real-world interactions and downstream actions, such as summaries, answers, analysis, and insights, you can function-calling straight from voice.

Source

Source : huggingface

Contributeurs: Arianne Arel, wiki