« Modèle de récompense de processus » : différence entre les versions


(Page créée avec « == en construction == == Définition == xxxxxxx == Français == ''' XXXXXX''' == Anglais == ''' Process Reward Model''' ''' PRM''' == Sources == [https://arxiv.org/abs/2501.07301 Source : arxiv] [https://github.com/sdiehl/prm Source : GitHub] Catégorie:vocabulary »)
 
Aucun résumé des modifications
 
(2 versions intermédiaires par 2 utilisateurs non affichées)
Ligne 1 : Ligne 1 :
== en construction ==
== Définition ==
Modèle de récompense spécialisé dans la validation d'un processus de résolution de problèmes. Il ne se contente pas de récompenser le résultat final, il analyse le processus et le récompense étape par étape. Autrement dit, il s'agit d'un modèle de récompense (de processus) incluant les étapes intermédiaires.


== Définition ==
Voir aussi '''[[modèle de récompense]]'''
xxxxxxx


== Français ==
== Français ==
''' XXXXXX'''
''' Modèle de récompense de processus'''


== Anglais ==
== Anglais ==
Ligne 17 : Ligne 17 :
[https://github.com/sdiehl/prm  Source : GitHub]
[https://github.com/sdiehl/prm  Source : GitHub]


[[Catégorie:vocabulary]]
[[Catégorie:GRAND_LEXIQUE_FRANÇAIS]]

Dernière version du 5 août 2025 à 10:11

Définition

Modèle de récompense spécialisé dans la validation d'un processus de résolution de problèmes. Il ne se contente pas de récompenser le résultat final, il analyse le processus et le récompense étape par étape. Autrement dit, il s'agit d'un modèle de récompense (de processus) incluant les étapes intermédiaires.

Voir aussi modèle de récompense

Français

Modèle de récompense de processus

Anglais

Process Reward Model

PRM

Sources

Source : arxiv

Source : GitHub

Contributeurs: Arianne Arel, wiki