WebWatcher


Révision datée du 12 octobre 2025 à 11:38 par Arianne (discussion | contributions)
(diff) ← Version précédente | Voir la version actuelle (diff) | Version suivante → (diff)

en construction

Définition

Agent multimodal conçu pour la recherche approfondie utilisant un raisonnement visuel et textuel amélioré ainsi qu'un ensemble d'interactions avec d'autres outils.

Voir aussi agent, génération image-à-texte et grand modèle de langues multimodal

Français

WebWatcher

Anglais

WebWatcher

A multimodal agent designed for deep research with enhanced visual-language reasoning, combines complex vision-language reasoning and multi-tool interaction.

Sources

Source : arxiv

Source : huggingface

Contributeurs: Arianne Arel, wiki