Group Sequence Policy Optimization


Révision datée du 6 octobre 2025 à 11:27 par Arianne (discussion | contributions)
(diff) ← Version précédente | Voir la version actuelle (diff) | Version suivante → (diff)

en construction

Définition

Algorithme d'apprentissage par renforcement qui améliore l'efficacité de l'entraînement ainsi que les performances des grands modèles de langues en utilisant des ratios d'importance au niveau des séquences (?) et des opérations.

Français

XXXXXXXXX

Anglais

Group Sequence Policy Optimization

GSPO

Reinforcement learning algorithm that improves training efficiency and performance of large language models by using sequence-level importance ratios and operations.

Source

Source : huggingface

Contributeurs: Arianne Arel, wiki