« Mini-modèle récurrent » : différence entre les versions


Aucun résumé des modifications
Aucun résumé des modifications
 
(3 versions intermédiaires par le même utilisateur non affichées)
Ligne 1 : Ligne 1 :
== En construction ==
== Définition ==
== Définition ==
Modèle minuscule comparativement aux [[grand modèle de langues|grands modèles de langues]]  génératifs (GML) basé sur des [[Réseau récurrent|réseaux de neurones récurrents]] qui comporte très peu de paramètres et qui est conçu pour résoudre des problèmes complexes par raffinement progressif (Sudokus, labyrinthes, banc d'essai ARC-AGI, etc.) et dont les performances dépassent les GML.  
Modèle minuscule comparativement aux [[grand modèle de langues|grands modèles de langues]]  génératifs (GML) basé sur des [[Réseau récurrent|réseaux de neurones récurrents]] qui comporte très peu de paramètres et qui est conçu pour résoudre des problèmes complexes par raffinement progressif (Sudokus, labyrinthes, banc d'essai ARC-AGI, etc.) et dont les performances dépassent les GML.


== Compléments ==
== Compléments ==
Dans la foulée de l'architectures de réseau neuronal appelée [[Modèle_de_résolution_hiérarchique|modèle de résolution hiérarchique]] ou MRH, (en anglais, Hierarchical Reasoning Models, HRM), Alexia Jolicoeur-Martineau du laboratoire Samsung SAIL de Montréal a proposé une nouvelle architecture appelée mini-modèle récurrent ou MMR (en anglais, Tiny Recursive Model, TRM). Cette architecture atteint une généralisation élevée sur des tâches complexes grâce à un petit réseau neuronal à deux couches avec un nombre réduit de paramètres, surpassant ainsi les grands modèles de langues (GML) en termes de performance. De plus, les MMR nécessitent beaucoup moins de données d'entraînement et de calculs.
Dans la foulée de l'architectures de réseau neuronal appelée [[Modèle_de_résolution_hiérarchique|modèle de résolution hiérarchique]] ou MRH, (en anglais, Hierarchical Reasoning Models, HRM), Alexia Jolicoeur-Martineau du laboratoire Samsung SAIL de Montréal a proposé une nouvelle architecture appelée mini-modèle récurrent ou MMR (en anglais, Tiny Recursive Model, TRM). Cette architecture atteint une [[généralisation]] élevée sur des tâches complexes grâce à un petit réseau neuronal à deux couches avec un nombre réduit de paramètres, surpassant ainsi les grands modèles de langues (GML) en termes de performance. De plus, les MMR nécessitent beaucoup moins de données d'entraînement et de calculs.  
 
<hr/>
Nous recommandons le terme « résolution de problèmes » ou plus simplement « résolution » plutôt que « raisonnement » pour éviter l'anthropomorphisme.
Nous recommandons le terme « récurrent » plutôt que « récursif » par souci d'uniformité de la terminologie et parce que techniquement le modèle est récurrent même si ce n'est pas simplement un mini-[[réseau de neurones récurrent]] (RNN).  
<br/>
<hr/>
Intuitivement, on peut dire qu'un MMR bat des grands modèles de langues (GPT, Gemini ou Claude) sur des tâches de résolution de problèmes, prouvant que la "profondeur" peut être remplacée par la "récursivité" (le temps de réflexion).
Intuitivement, on peut dire qu'un MMR bat des grands modèles de langues (GPT, Gemini ou Claude) sur des tâches de résolution de problèmes, prouvant que la "profondeur" peut être remplacée par la "récursivité" (le temps de réflexion). Un mini-modèle récurrent résout un problème en mettant à jour sa réponse dans un cycle d'améliorations successives.
<br/>
<hr/>
Notez qu'un MMR n'est pas un modèle généraliste capable de résoudre n'importe quel problème, mais un petit modèle spécialisé à certaines tâches spécifiques et très performant.  
Attention! Notez qu'un MMR n'est pas simplement un mini-[[réseau de neurones récurrent]] (RNN), ni un modèle généraliste capable de résoudre n'importe quel problème, mais un petit modèle spécialisé pour certaines tâches et très performant.  


== Français ==
== Français ==

Dernière version du 21 décembre 2025 à 02:41

Définition

Modèle minuscule comparativement aux grands modèles de langues génératifs (GML) basé sur des réseaux de neurones récurrents qui comporte très peu de paramètres et qui est conçu pour résoudre des problèmes complexes par raffinement progressif (Sudokus, labyrinthes, banc d'essai ARC-AGI, etc.) et dont les performances dépassent les GML.

Compléments

Dans la foulée de l'architectures de réseau neuronal appelée modèle de résolution hiérarchique ou MRH, (en anglais, Hierarchical Reasoning Models, HRM), Alexia Jolicoeur-Martineau du laboratoire Samsung SAIL de Montréal a proposé une nouvelle architecture appelée mini-modèle récurrent ou MMR (en anglais, Tiny Recursive Model, TRM). Cette architecture atteint une généralisation élevée sur des tâches complexes grâce à un petit réseau neuronal à deux couches avec un nombre réduit de paramètres, surpassant ainsi les grands modèles de langues (GML) en termes de performance. De plus, les MMR nécessitent beaucoup moins de données d'entraînement et de calculs.


Nous recommandons le terme « récurrent » plutôt que « récursif » par souci d'uniformité de la terminologie et parce que techniquement le modèle est récurrent même si ce n'est pas simplement un mini-réseau de neurones récurrent (RNN).


Intuitivement, on peut dire qu'un MMR bat des grands modèles de langues (GPT, Gemini ou Claude) sur des tâches de résolution de problèmes, prouvant que la "profondeur" peut être remplacée par la "récursivité" (le temps de réflexion). Un mini-modèle récurrent résout un problème en mettant à jour sa réponse dans un cycle d'améliorations successives.


Attention! Notez qu'un MMR n'est pas simplement un mini-réseau de neurones récurrent (RNN), ni un modèle généraliste capable de résoudre n'importe quel problème, mais un petit modèle spécialisé pour certaines tâches et très performant.

Français

mini-modèle récurrent

mini-modèle récursif

MMR

mini-réseau de neurones récurrent

mini-réseau de neurones récursif

'MRNR

Anglais

tiny recursive model

TRM

Sources

Le grand continent - Tiny Recursive Model

arXiv - Tiny Recursive Model

Medium - Tiny Recursive Model