« Distillation de modèles » : différence entre les versions


Aucun résumé des modifications
Aucun résumé des modifications
Balise : Révocation manuelle
 
(Une version intermédiaire par un autre utilisateur non affichée)
(Aucune différence)

Dernière version du 20 juillet 2025 à 19:40

Définition

La distillation de modèles aussi appelée distillation de connaissances est le processus qui permet de transférer les connaissances d'un grand modèle d'apprentissage à un modèle plus petit sans perte de validité et en conservant la précision lors de la compression du modèle.

Compléments

Cette technique permet d’utiliser un modèle d'apprentissage « enseignant » volumineux et coûteux pour entraîner un modèle d'apprentissage « étudiant » plus petit et à moindre coût.


Beaucoup de commentaires et accusations concernant le lancement en 2025 des modèles DeepSeek et R1 par une entreprise chinoise portaient sur l'emploi de la technique de distillation. Or la distillation est un sujet de recherche en informatique depuis une décennie et un outil largement utilisé par les entreprises technologiques comme DeepMind et OpenAI pour leurs propres modèles.

Français

distillation de / des modèles

distillation de / des connaissances

Anglais

model distillation

knowledge distillation


Sources

Quanta magazine , How Distillation Makes AI Models Smaller and Cheaper

Wikipedia - distillation de modèles, distillation des connaissances

NeurIPS Proceedings 2017 - Knowledge Distillation ]

Paper with code - Knowledge Distillation

Contributeurs: Arianne , Claude Coulombe, wiki