« SPIRAL » : différence entre les versions
Aucun résumé des modifications |
Aucun résumé des modifications |
||
| (Une version intermédiaire par un autre utilisateur non affichée) | |||
| Ligne 1 : | Ligne 1 : | ||
== Définition == | == Définition == | ||
Architecture dans laquelle les '''[[Modèle|modèles]]''' apprennent en jouant à des jeux à plusieurs tours et à somme nulle contre des versions d'eux-mêmes en constante amélioration, éliminant ainsi le besoin de supervision humaine. | Architecture dans laquelle les '''[[Modèle|modèles]]''' apprennent en jouant à des jeux à plusieurs tours et à somme nulle contre des versions d'eux-mêmes en constante amélioration, éliminant ainsi le besoin de supervision humaine. | ||
| Ligne 20 : | Ligne 18 : | ||
[[Catégorie: | [[Catégorie:GRAND LEXIQUE FRANÇAIS]] | ||
Dernière version du 3 mars 2026 à 18:31
Définition
Architecture dans laquelle les modèles apprennent en jouant à des jeux à plusieurs tours et à somme nulle contre des versions d'eux-mêmes en constante amélioration, éliminant ainsi le besoin de supervision humaine.
Voir aussi apprentissage par renforcement avec rétroaction humaine
Français
SPIRAL
Anglais
SPIRAL
A self-play framework where the models learn by playing multi-turn, zero-sum games against continuously improving versions of themselves, eliminating the need for human supervision.
Sources
Contributeurs: Arianne Arel, wiki





