« Algorithme d'optimisation DAPO » : différence entre les versions
Aucun résumé des modifications |
Aucun résumé des modifications |
||
| Ligne 1 : | Ligne 1 : | ||
== | == Définition == | ||
'''[[Algorithme]]''' d''''[[apprentissage par renforcement]]''' qui utilise une approche découplée pour augmenter la limite supérieure de la plage de l'échantillonnage dynamique. | |||
Voir aussi '''[[optimisation de la politique proximale]]''', '''[[optimisation de la politique relative au groupe]]''', '''[[échantillonnage des p-meilleurs]]''' | |||
'''[[ | |||
==Complément== | |||
L’échantillonnage dynamique favorise les données apportant un meilleur apprentissage. | |||
L'un de ses avantages est qu'il n'affecte pas de manière significative la durée totale de l''''[[entraînement]]'''. | |||
== Français == | == Français == | ||
''' | '''optimisation de la politique d’échantillonnage dynamique et seuillage découplé''' | ||
'''OPEDD''' | |||
'''algorithme d'optimisation DAPO''' | |||
== Anglais == | == Anglais == | ||
| Ligne 23 : | Ligne 30 : | ||
[https://verl.readthedocs.io/en/latest/algo/dapo.html Source : verl] | [https://verl.readthedocs.io/en/latest/algo/dapo.html Source : verl] | ||
[[Catégorie: | [[Catégorie:publication]] | ||
Version du 21 avril 2026 à 14:55
Définition
Algorithme d'apprentissage par renforcement qui utilise une approche découplée pour augmenter la limite supérieure de la plage de l'échantillonnage dynamique.
Voir aussi optimisation de la politique proximale, optimisation de la politique relative au groupe, échantillonnage des p-meilleurs
Complément
L’échantillonnage dynamique favorise les données apportant un meilleur apprentissage.
L'un de ses avantages est qu'il n'affecte pas de manière significative la durée totale de l'entraînement.
Français
optimisation de la politique d’échantillonnage dynamique et seuillage découplé
OPEDD
algorithme d'optimisation DAPO
Anglais
DAPO
Decoupled Clip and Dynamic Sampling Policy Optimization
Sources
Contributeurs: Arianne Arel, Patrick Drouin





