« WEB-SHEPHERD » : différence entre les versions


Aucun résumé des modifications
Aucun résumé des modifications
 
Ligne 2 : Ligne 2 :


== Définition ==
== Définition ==
XXXXXXXXX
Il s'agit du premier modèle de récompenses de processus formé spécifiquement pour évaluer les trajectoires de navigation sur le web. Il utilise une liste de contrôle structurée qui décompose explicitement les instructions de haut niveau de l'utilisateur en sous-objectifs clairs et interprétables en se référant à cette liste de contrôle comme critère d'évaluation.
 
Voir aussi '''[[grand modèle de langues multimodal]]''' et '''[[agent]]'''
 
== Compléments ==
Les '''[[Étude d'ablation|études d'ablation]]''' soulignent l'importance des listes de contrôle et, en leur absence, les mécanismes de retour d'information ont démontré une baisse significative de performance.


== Français ==
== Français ==
''' XXXXXXXXX '''
''' XXXXXXXX '''


== Anglais ==
== Anglais ==
'''WEB-SHEPHERD'''
'''WEB-SHEPHERD'''
 
<!--The first process reward model trained specifically for evaluating trajectories of web navigation. It employs a structured checklist that explicitly decomposes high-level user instructions into clear and interpretable subgoals by referencing this checklist as an evaluation criteria.
The first process reward model (PRM) specifically designed for web navigation tasks. It addresses the challenges of evaluating web agent trajectories at a step-by-step level, which is crucial for improving agent performance in long-horizon web tasks.
Ablation studies highlight the importance of the checklists and by their absence, the feedback mecanisms led to a significant performance drops.-->
WEB-SHEPHERD is designed as a process reward model that evaluates web navigation trajectories at each step. The method works in two main stages: checklist generation and reward modeling with the checklist.
   
   
== Sources ==
== Sources ==

Dernière version du 15 juin 2025 à 11:34

en construction

Définition

Il s'agit du premier modèle de récompenses de processus formé spécifiquement pour évaluer les trajectoires de navigation sur le web. Il utilise une liste de contrôle structurée qui décompose explicitement les instructions de haut niveau de l'utilisateur en sous-objectifs clairs et interprétables en se référant à cette liste de contrôle comme critère d'évaluation.

Voir aussi grand modèle de langues multimodal et agent

Compléments

Les études d'ablation soulignent l'importance des listes de contrôle et, en leur absence, les mécanismes de retour d'information ont démontré une baisse significative de performance.

Français

XXXXXXXX

Anglais

WEB-SHEPHERD

Sources

Source : arxiv

Source : Chapin Industries

Contributeurs: Arianne , wiki