WebWatcher

en construction

Définition

Agent multimodal conçu pour la recherche approfondie utilisant un raisonnement visuel et textuel amélioré ainsi qu'un ensemble d'interactions avec d'autres outils.

Voir aussi agent, génération image-à-texte et grand modèle de langues multimodal

Français

WebWatcher

Anglais

WebWatcher

A multimodal agent designed for deep research with enhanced visual-language reasoning, combines complex vision-language reasoning and multi-tool interaction.

Sources

Source : arxiv

Source : huggingface