Nouvelles pages

Espace de noms :

Inverser la sélection

Espace de noms associé

Filtrer les balises :

Nom d’utilisateur :

Masquer utilisateur(s) inscrit(s) | Masquer robot(s) | Afficher redirections(s)

2 juillet 2025 à 15:41 ‎Ovis-U1 (hist | modifier) ‎[399 octets] ‎Pitpitt (discussion | contributions) (Page créée avec « ==en construction== == Définition == XXXXXXXXX == Français == ''' Ovis-U1''' == Anglais == '''Ovis-U1''' Ovis-U1, a 3-billion-parameter model, combines multimodal understanding, text-to-image generation, and image editing, achieving state-of-the-art performance in various benchmarks. == Source == [https://huggingface.co/papers/2506.23044 Source : huggingface] Catégorie:vocabulary »)
2 juillet 2025 à 15:40 ‎Matryoshka Multimodal Models (hist | modifier) ‎[1 151 octets] ‎Pitpitt (discussion | contributions) (Page créée avec « ==en construction== == Définition == XXXXXXXXX == Français == ''' XXXXXXXXX ''' == Anglais == '''Matryoshka Multimodal Models''' Matryoshka Multimodal Models learn to represent visual content as nested sets of visual tokens that capture information across multiple coarse-to-fine granularities. Our approach offers several unique benefits for LMMs: (1) One can explicitly control the visual granularity per test instance during inference, e.g. , adjusting the... »)
26 juin 2025 à 10:51 ‎Best-of-N Strategy (hist | modifier) ‎[2 384 octets] ‎Arianne (discussion | contributions) (Page créée avec « == en construction == == Définition == xxxxxxx == Français == ''' XXXXXX''' Voir aussi '''reward hacking problem''' == Compléments == '' à faire'' <!--The BoN strategy does not scale with the number of samples N due to the reward hacking problem. Particularly significant in scenarios where the AI model may not have a singularly deterministic output but can benefit from generating a spectrum of possibilities to increase the chance of achieving a higher qua... »)
26 juin 2025 à 10:11 ‎AnimaX (hist | modifier) ‎[396 octets] ‎Pitpitt (discussion | contributions) (Page créée avec « ==en construction== == Définition == XXXXXXXXX == Français == ''' AnimaX''' == Anglais == '''AnimaX''' AnimaX creates multi-skeleton 3D animations by blending video diffusion model priors with skeleton-based control, using joint video-pose diffusion and shared positional encodings. == Source == [https://huggingface.co/papers/2506.19851 Source : huggingface] Catégorie:vocabulary »)
26 juin 2025 à 10:09 ‎Drag-and-Drop LLMs (hist | modifier) ‎[454 octets] ‎Pitpitt (discussion | contributions) (Page créée avec « ==en construction== == Définition == XXXXXXXXX == Français == ''' XXXXXXXXX ''' == Anglais == '''Drag-and-Drop LLMs''' LoRA, a parameter-efficient finetuning method for large language models, underperforms full finetuning in target domains but provides better regularization and maintains diverse generation compared to other techniques. == Source == [https://huggingface.co/papers/2506.16406 Source : huggingface] Catégorie:vocabulary »)