WEB-SHEPHERD


en construction

Définition

Il s'agit du premier modèle de récompenses de processus formé spécifiquement pour évaluer les trajectoires de navigation sur le web. Il utilise une liste de contrôle structurée qui décompose explicitement les instructions de haut niveau de l'utilisateur en sous-objectifs clairs et interprétables en se référant à cette liste de contrôle comme critère d'évaluation.

Voir aussi grand modèle de langues multimodal et agent

Compléments

Les études d'ablation soulignent l'importance des listes de contrôle et, en leur absence, les mécanismes de retour d'information ont démontré une baisse significative de performance.

Français

XXXXXXXX

Anglais

WEB-SHEPHERD

Sources

Source : arxiv

Source : Chapin Industries

Contributeurs: Arianne , wiki