Group Sequence Policy Optimization
en construction
Définition
Algorithme d'apprentissage par renforcement qui améliore l'efficacité de l'entraînement ainsi que les performances des grands modèles de langues en utilisant des ratios d'importance au niveau des séquences (?) et des opérations.
Français
XXXXXXXXX
Anglais
Group Sequence Policy Optimization
GSPO
Reinforcement learning algorithm that improves training efficiency and performance of large language models by using sequence-level importance ratios and operations.
Source
Contributeurs: Arianne Arel, wiki
