« Qwen » : différence entre les versions


Aucun résumé des modifications
Aucun résumé des modifications
 
(Une version intermédiaire par le même utilisateur non affichée)
Ligne 2 : Ligne 2 :


== Définition ==
== Définition ==
XXXXXXXXX
Qwen (prononcé « chüen ») est une famille de grands modèles de langage développés par Alibaba Cloud et basés sur l'architecture '''[[Llama]]''' de Meta AI. Plus précisément, il se compose de trois principaux types de modèles : le modèle linguistique de base (Qwen), les modèles optimisés pour les conversations (Qwen-Chat) et les variantes quantifiées des modèles de conversation.
 
Voir aussi '''[[grand modèle de langues]]''', '''[[modèle fondateur]]''' et '''[[réseau autoattentif]]'''
 
== Compléments ==
Qwen utilise un '''[[segmenteur]]''' personnalisé basé sur la bibliothèque tiktoken avec un vocabulaire de 151 851 '''[[segment textuel]]'''. Ce '''[[segmenteur]]''' est optimisé pour un encodage efficace des données chinoises, anglaises et codées, tout en prenant en charge le contenu multilingue. La famille de modèles Qwen 3 comprend à la fois des modèles denses ou non.
 
 
Aussi appelé ''Tongyi Qianwen''.


== Français ==
== Français ==
Ligne 9 : Ligne 17 :
== Anglais ==
== Anglais ==
'''Qwen'''
'''Qwen'''
<!--Qwen (pronounced "chüen") is a family of large language models developed by Alibaba Cloud and was based on the Llama architecture of Meta AI. More precisely, it consists of three main types of models: base language model (Qwen), conversation-optimized models (Qwen-Chat), and quantized variants of the chat models. Qwen uses a custom tokenizer based on the tiktoken library with a vocabulary of 151,851 tokens. This tokenizer is optimized for efficient encoding of Chinese, English, and code data, while also supporting multilingual content. The Qwen 3 model family includes both dense and sparse models.-->


  The latest version of the Qwen model family. Qwen3 comprises a series of large language models (LLMs) designed to advance performance, efficiency, and multilingual capabilities. The Qwen3 series includes models of both dense and Mixture-of-Expert (MoE) architectures, with parameter scales ranging from 0.6 to 235 billion. A key innovation in Qwen3 is the integration of thinking mode (for complex, multi-step reasoning) and non-thinking mode (for rapid, context-driven responses) into a unified framework. This eliminates the need to switch between different models--such as chat-optimized models (e.g., GPT-4o) and dedicated reasoning models (e.g., QwQ-32B)--and enables dynamic mode switching based on user queries or chat templates. Meanwhile, Qwen3 introduces a thinking budget mechanism, allowing users to allocate computational resources adaptively during inference, thereby balancing latency and performance based on task complexity. Moreover, by leveraging the knowledge from the flagship models, we significantly reduce the computational resources required to build smaller-scale models, while ensuring their highly competitive performance. Empirical evaluations demonstrate that Qwen3 achieves state-of-the-art results across diverse benchmarks, including tasks in code generation, mathematical reasoning, agent tasks, etc., competitive against larger MoE models and proprietary models. Compared to its predecessor Qwen2.5, Qwen3 expands multilingual support from 29 to 119 languages and dialects, enhancing global accessibility through improved cross-lingual understanding and generation capabilities. 
== Sources ==
[https://en.wikipedia.org/wiki/Qwen  Source : Wikipedia]


== Sources ==
[https://deepwiki.com/QwenLM/Qwen/2-model-family  Source : DeepWiki]
[https://arxiv.org/abs/2505.09388    Source : arxiv ]




[[Catégorie:vocabulary]]
[[Catégorie:vocabulary]]

Dernière version du 13 juin 2025 à 17:34

en construction

Définition

Qwen (prononcé « chüen ») est une famille de grands modèles de langage développés par Alibaba Cloud et basés sur l'architecture Llama de Meta AI. Plus précisément, il se compose de trois principaux types de modèles : le modèle linguistique de base (Qwen), les modèles optimisés pour les conversations (Qwen-Chat) et les variantes quantifiées des modèles de conversation.

Voir aussi grand modèle de langues, modèle fondateur et réseau autoattentif

Compléments

Qwen utilise un segmenteur personnalisé basé sur la bibliothèque tiktoken avec un vocabulaire de 151 851 segment textuel. Ce segmenteur est optimisé pour un encodage efficace des données chinoises, anglaises et codées, tout en prenant en charge le contenu multilingue. La famille de modèles Qwen 3 comprend à la fois des modèles denses ou non.


Aussi appelé Tongyi Qianwen.

Français

Qwen

Anglais

Qwen

Sources

Source : Wikipedia

Source : DeepWiki

Contributeurs: Arianne , wiki