« Génération automatique d'audio » : différence entre les versions


Aucun résumé des modifications
m (Remplacement de texte : « ==Español== » par « ==Español== Catégorie:es »)
 
Ligne 42 : Ligne 42 :


==Español==
==Español==
[[Catégorie:es]]


''''' generación automática de audio '''''  
''''' generación automática de audio '''''  

Dernière version du 23 septembre 2025 à 20:55

Définition

Branche de l'intelligence artificielle dont le but est de produire de l'audio, comme du son, de la musique ou une voix, à partir de représentations informatisées symboliques, apprises (et résultant d'un apprentissage automatique), ou encore hybrides.

Dans le cas particulier d'un dialogue ou d'une conversation entre une personne et un ordinateur, l'opération consiste à produire ou à modifier des contenus audio, en réponse à une requête générative faite à un grand modèle de langues dit modèle multimodal.

Voir aussi synthèse de la parole

Compléments

En gros, il existe deux approches pour la génération automatique d'audio : 1) l'approche symbolique à base de règles et de gabarits, et 2) une approche statistique ou par apprentissage automatique où la technologie dominante utilise des modèles de langue dits multimodaux qui sont entraînés sur de vastes corpus audio. Il existe également des générateurs d'audio à technologie hybride qui utilisent les deux approches.

Les modèles multimodaux, associés aux robots conversationnels génératifs comme: ChatGPT, Claude ou Gemini, sont capables de générer à la fois des textes, des images ou de l'audio (voix et éventuellement de la musique).

Français

génération / générateur automatique d'audio

génération / générateur d'audio

synthèse texte-audio

Anglais

automatic audio generation / generator

audio generation / generator

AI audio generation / generator

Español

generación automática de audio

Una rama de la inteligencia artificial cuyo objetivo es producir audio, como sonido, música o voz, a partir de representaciones simbólicas computarizadas, aprendidas (y resultantes del aprendizaje automático), o incluso representaciones híbridas.

En el caso específico de un diálogo o conversación entre una persona y una computadora, la operación consiste en producir o modificar contenido de audio en respuesta a una consulta generativa realizada a un modelo lingüístico amplio conocido como modelo multimodal. Véase también: síntesis de voz.


Sources

Source : Université Paris Diderot

Source : Légifrance

Source : journaldugeek

101 MOTS DE L' IA
Ce terme est sélectionné pour le livre « Les 101 mots de l'intelligence artificielle » Ligne bleue2.jpg