WEB-SHEPHERD
en construction
Définition
Il s'agit du premier modèle de récompenses de processus formé spécifiquement pour évaluer les trajectoires de navigation sur le web. Il utilise une liste de contrôle structurée qui décompose explicitement les instructions de haut niveau de l'utilisateur en sous-objectifs clairs et interprétables en se référant à cette liste de contrôle comme critère d'évaluation.
Voir aussi grand modèle de langues multimodal et agent
Compléments
Les études d'ablation soulignent l'importance des listes de contrôle et, en leur absence, les mécanismes de retour d'information ont démontré une baisse significative de performance.
Français
XXXXXXXX
Anglais
WEB-SHEPHERD
Sources
