« Group Sequence Policy Optimization » : différence entre les versions
(Page créée avec « ==en construction== == Définition == XXXXXXXXX == Français == ''' XXXXXXXXX ''' == Anglais == '''Group Sequence Policy Optimization''' '''GSPO''' A new reinforcement learning algorithm for training large language models that addresses critical stability issues in existing methods. Current state-of-the-art algorithms like GRPO exhibit severe stability issues when training gigantic language model that can lead to catastrophic model collapse. GSPO resolves t... ») |
Aucun résumé des modifications |
||
Ligne 2 : | Ligne 2 : | ||
== Définition == | == Définition == | ||
'''[[Algorithme]]''' d''''[[apprentissage par renforcement]]''' qui améliore l'efficacité de l''''[[entraînement]]''' ainsi que les performances des '''[[Grand modèle de langues (GML)|grands modèles de langues]]''' en utilisant des ratios d'importance au niveau des séquences (?) et des opérations. | |||
== Français == | == Français == | ||
Ligne 12 : | Ligne 12 : | ||
'''GSPO''' | '''GSPO''' | ||
'' Reinforcement learning algorithm that improves training efficiency and performance of large language models by using sequence-level importance ratios and operations.'' | |||
== Source == | == Source == |
Dernière version du 6 octobre 2025 à 11:27
en construction
Définition
Algorithme d'apprentissage par renforcement qui améliore l'efficacité de l'entraînement ainsi que les performances des grands modèles de langues en utilisant des ratios d'importance au niveau des séquences (?) et des opérations.
Français
XXXXXXXXX
Anglais
Group Sequence Policy Optimization
GSPO
Reinforcement learning algorithm that improves training efficiency and performance of large language models by using sequence-level importance ratios and operations.
Source
Contributeurs: Arianne Arel, wiki
