« Mixture de profondeurs de calcul » : différence entre les versions


Aucun résumé des modifications
Aucun résumé des modifications
 
(7 versions intermédiaires par le même utilisateur non affichées)
Ligne 1 : Ligne 1 :
== Définition ==
== Définition ==
Technique d’'''[[apprentissage automatique]]''' inspirée de la '''[[mixture d'experts]]''', mais qui se distingue de cette dernière par le déploiement d’un seul expert au lieu de plusieurs.  
Stratégie d'optimisation de [[modèle d'apprentissage|modèles d'apprentissage]] où le modèle décide dynamiquement, pour chaque élément traité (par exemple, un [[segment textuel]]), d'utiliser ou non une couche du modèle.  


La mixture de profondeurs fait référence à des architectures qui, à chaque '''[[Couche de neurones|couche]]''' du '''[[modèle]]''', sélectionnent un sous-ensemble de '''[[données]]''' d'entrées à traiter intégralement, tandis que les autres sont soit ignorées, soit transmises sans modification. Ceci permet donc au modèle de distribuer les ressources de calcul de façon dynamique en fonction de leur importance.
Les éléments jugés prioritaires, souvent via un [[échantillonnage à troncature k fixe]], traversent la couche sans calcul, tandis que les autres passent par une [[connexion résiduelle]], réduisant la quantité de calculs sans trop sacrifier sur les performances.


== Compléments ==
== Compléments ==
Cette technique est peut être appliquée sur des '''[[Réseau autoattentif|réseaux autoattentifs]]''' (''transformers'' en anglais), des '''[[Réseau autoattentif pour la vision|réseaux autoattentifs pour la vision]]''', des '''[[Réseau convolutif|réseaux convolutifs]]''' et sur des '''[[Grand modèle de langues|grands modèles de langues]]''' '''[[Modèle multimodal|multimodaux]]'''.
La mixture de profondeurs de calcul fait référence à des architectures qui, à chaque '''[[Couche de neurones|couche]]''' du '''[[modèle]]''', sélectionne un sous-ensemble de '''[[données]]''' d'entrées à traiter, tandis que les autres sont soit ignorées, soit transmises sans modification. Ceci permet donc au modèle de distribuer les ressources de calcul de façon dynamique en fonction de leur importance.
<hr>
L'inspiration terminologique de l'architecture '''[[mixture d'experts]]''' apparaît pour le moins étriquée, car il s'agit d'un seul expert au lieu de plusieurs.
<hr>
Cette technique peut être appliquée sur des '''[[Réseau autoattentif|réseaux autoattentifs]]''' (''transformers'' en anglais), des '''[[Réseau autoattentif pour la vision|réseaux autoattentifs pour la vision]]''', des '''[[Réseau convolutif|réseaux convolutifs]]''' et sur des '''[[Grand modèle de langues|grands modèles de langues]]''' '''[[Modèle multimodal|multimodaux]]'''.
== Français ==
'''mixture de profondeurs de calcul'''


== Français ==
'''mixture de profondeurs'''
'''mixture de profondeurs'''


Ligne 16 : Ligne 21 :


== Sources ==
== Sources ==
[https://arxiv.org/abs/2404.02258  Source : Arxiv]
[https://arxiv.org/abs/2404.02258  Arxiv - Mixture-of-Depths ]


[https://www.emergentmind.com/topics/mixture-of-depths-mod   Source : Emergent Mind]
[https://www.emergentmind.com/topics/mixture-of-depths-mod Emergent Mind - Mixture-of-Depths]


[https://medium.com/@simeon.emanuilov/mixture-of-depths-a-new-approach-to-efficiently-allocate-compute-in-transformer-language-models-15b0d32ff501   Source : Medium]
[https://medium.com/@simeon.emanuilov/mixture-of-depths-a-new-approach-to-efficiently-allocate-compute-in-transformer-language-models-15b0d32ff501 Medium - Mixture-of-Depths]


[[Catégorie:GRAND LEXIQUE FRANÇAIS]]
[[Catégorie:GRAND LEXIQUE FRANÇAIS]]
[[Catégorie:Publication]]

Dernière version du 11 mars 2026 à 02:24

Définition

Stratégie d'optimisation de modèles d'apprentissage où le modèle décide dynamiquement, pour chaque élément traité (par exemple, un segment textuel), d'utiliser ou non une couche du modèle.

Les éléments jugés prioritaires, souvent via un échantillonnage à troncature k fixe, traversent la couche sans calcul, tandis que les autres passent par une connexion résiduelle, réduisant la quantité de calculs sans trop sacrifier sur les performances.

Compléments

La mixture de profondeurs de calcul fait référence à des architectures qui, à chaque couche du modèle, sélectionne un sous-ensemble de données d'entrées à traiter, tandis que les autres sont soit ignorées, soit transmises sans modification. Ceci permet donc au modèle de distribuer les ressources de calcul de façon dynamique en fonction de leur importance.


L'inspiration terminologique de l'architecture mixture d'experts apparaît pour le moins étriquée, car il s'agit d'un seul expert au lieu de plusieurs.


Cette technique peut être appliquée sur des réseaux autoattentifs (transformers en anglais), des réseaux autoattentifs pour la vision, des réseaux convolutifs et sur des grands modèles de langues multimodaux.

Français

mixture de profondeurs de calcul

mixture de profondeurs

Anglais

Mixture-of-Depths

MoD

Sources

Arxiv - Mixture-of-Depths

Emergent Mind - Mixture-of-Depths

Medium - Mixture-of-Depths

Contributeurs: Arianne Arel, Claude Coulombe, wiki