« Modèle de récompense de processus » : différence entre les versions
Aucun résumé des modifications |
Aucun résumé des modifications |
||
(2 versions intermédiaires par un autre utilisateur non affichées) | |||
Ligne 1 : | Ligne 1 : | ||
== Définition == | == Définition == | ||
Modèle de récompense spécialisé dans la validation d'un processus de résolution de problèmes. Il ne se contente pas de récompenser le résultat final, il analyse le processus et le récompense étape par étape. Autrement dit, il s'agit d'un modèle de récompense (de processus) incluant les étapes intermédiaires. | Modèle de récompense spécialisé dans la validation d'un processus de résolution de problèmes. Il ne se contente pas de récompenser le résultat final, il analyse le processus et le récompense étape par étape. Autrement dit, il s'agit d'un modèle de récompense (''de processus'') incluant les étapes intermédiaires. | ||
Voir aussi '''[[modèle de récompense]]''' | Voir aussi '''[[modèle de récompense]]''' | ||
== Français == | == Français == | ||
''' | ''' modèle de récompense de processus''' | ||
== Anglais == | == Anglais == | ||
''' | ''' process reward model''' | ||
''' PRM''' | ''' PRM''' | ||
Ligne 19 : | Ligne 17 : | ||
[https://github.com/sdiehl/prm Source : GitHub] | [https://github.com/sdiehl/prm Source : GitHub] | ||
[[Catégorie: | [[Catégorie:GRAND_LEXIQUE_FRANÇAIS]] |
Dernière version du 20 août 2025 à 16:33
Définition
Modèle de récompense spécialisé dans la validation d'un processus de résolution de problèmes. Il ne se contente pas de récompenser le résultat final, il analyse le processus et le récompense étape par étape. Autrement dit, il s'agit d'un modèle de récompense (de processus) incluant les étapes intermédiaires.
Voir aussi modèle de récompense
Français
modèle de récompense de processus
Anglais
process reward model
PRM
Sources
Contributeurs: Arianne Arel, wiki
