« WebWatcher » : différence entre les versions
(Page créée avec « ==en construction== == Définition == XXXXXXXXX == Français == ''' XXXXXXXXX ''' == Anglais == '''WebWatcher''' A multimodal AI agent designed for deep research tasks that handles both visual and textual understanding. While existing web agents excel at text-based research, they struggle with real-world scenarios that involve visual information like scientific diagrams, charts, or visually rich web interfaces. == Source == [https://huggingface.co/papers/2... ») |
Aucun résumé des modifications |
||
Ligne 2 : | Ligne 2 : | ||
== Définition == | == Définition == | ||
Agent multimodal conçu pour la '''recherche approfondie''' utilisant un raisonnement visuel et textuel amélioré ainsi qu'un ensemble d'interactions avec d'autres outils. | |||
Voir aussi '''[[agent]]''', '''[[génération image-à-texte]]''' et '''[[grand modèle de langues multimodal]]''' | |||
== Français == | == Français == | ||
''' | ''' WebWatcher ''' | ||
== Anglais == | == Anglais == | ||
'''WebWatcher''' | '''WebWatcher''' | ||
''A multimodal agent designed for deep research with enhanced visual-language reasoning, combines complex vision-language reasoning and multi-tool interaction.'' | |||
== | == Sources == | ||
[https://arxiv.org/abs/2508.05748 Source : arxiv] | |||
[https://huggingface.co/papers/2508.05748 Source : huggingface] | [https://huggingface.co/papers/2508.05748 Source : huggingface] |
Dernière version du 12 octobre 2025 à 11:38
en construction
Définition
Agent multimodal conçu pour la recherche approfondie utilisant un raisonnement visuel et textuel amélioré ainsi qu'un ensemble d'interactions avec d'autres outils.
Voir aussi agent, génération image-à-texte et grand modèle de langues multimodal
Français
WebWatcher
Anglais
WebWatcher
A multimodal agent designed for deep research with enhanced visual-language reasoning, combines complex vision-language reasoning and multi-tool interaction.
Sources
Contributeurs: Arianne Arel, wiki
