Group Sequence Policy Optimization

en construction

Définition

Algorithme d'apprentissage par renforcement qui améliore l'efficacité de l'entraînement ainsi que les performances des grands modèles de langues en utilisant des ratios d'importance au niveau des séquences (?) et des opérations.

Français

XXXXXXXXX

Anglais

Group Sequence Policy Optimization

GSPO

Reinforcement learning algorithm that improves training efficiency and performance of large language models by using sequence-level importance ratios and operations.

Source

Source : huggingface