« WEB-SHEPHERD » : différence entre les versions
(Page créée avec « ==en construction== == Définition == XXXXXXXXX == Français == ''' XXXXXXXXX ''' == Anglais == '''WEB-SHEPHERD''' he first process reward model (PRM) specifically designed for web navigation tasks. It addresses the challenges of evaluating web agent trajectories at a step-by-step level, which is crucial for improving agent performance in long-horizon web tasks. WEB-SHEPHERD is designed as a process reward model that evaluates web navigation trajectories at... ») |
Aucun résumé des modifications |
||
(3 versions intermédiaires par 2 utilisateurs non affichées) | |||
Ligne 2 : | Ligne 2 : | ||
== Définition == | == Définition == | ||
Il s'agit du premier modèle de récompenses de processus formé spécifiquement pour évaluer les trajectoires de navigation sur le web. Il utilise une liste de contrôle structurée qui décompose explicitement les instructions de haut niveau de l'utilisateur en sous-objectifs clairs et interprétables en se référant à cette liste de contrôle comme critère d'évaluation. | |||
Voir aussi '''[[grand modèle de langues multimodal]]''' et '''[[agent]]''' | |||
== Compléments == | |||
Les '''[[Étude d'ablation|études d'ablation]]''' soulignent l'importance des listes de contrôle et, en leur absence, les mécanismes de retour d'information ont démontré une baisse significative de performance. | |||
== Français == | == Français == | ||
''' | ''' XXXXXXXX ''' | ||
== Anglais == | == Anglais == | ||
'''WEB-SHEPHERD''' | '''WEB-SHEPHERD''' | ||
<!--The first process reward model trained specifically for evaluating trajectories of web navigation. It employs a structured checklist that explicitly decomposes high-level user instructions into clear and interpretable subgoals by referencing this checklist as an evaluation criteria. | |||
Ablation studies highlight the importance of the checklists and by their absence, the feedback mecanisms led to a significant performance drops.--> | |||
== Sources == | |||
[https://arxiv.org/abs/2505.15277 Source : arxiv] | |||
[https://chapinindustries.com/2025/05/31/this-ai-paper-introduces-web-shepherd-a-process-reward-model-for-web-agents-with-40k-dataset-and-10x-cost-efficiency/ Source : Chapin Industries] | |||
[https:// | |||
[[Catégorie:vocabulary]] | [[Catégorie:vocabulary]] |
Dernière version du 15 juin 2025 à 11:34
en construction
Définition
Il s'agit du premier modèle de récompenses de processus formé spécifiquement pour évaluer les trajectoires de navigation sur le web. Il utilise une liste de contrôle structurée qui décompose explicitement les instructions de haut niveau de l'utilisateur en sous-objectifs clairs et interprétables en se référant à cette liste de contrôle comme critère d'évaluation.
Voir aussi grand modèle de langues multimodal et agent
Compléments
Les études d'ablation soulignent l'importance des listes de contrôle et, en leur absence, les mécanismes de retour d'information ont démontré une baisse significative de performance.
Français
XXXXXXXX
Anglais
WEB-SHEPHERD
Sources
