« Échantillonnage des p-meilleurs » : différence entre les versions


Aucun résumé des modifications
m (Patrickdrouin a déplacé la page Top-p sampling vers Échantillonnage des p-meilleurs)
 
(3 versions intermédiaires par 2 utilisateurs non affichées)
Ligne 2 : Ligne 2 :


== Définition ==
== Définition ==
Stratégie de décodage stochastique pour générer des séquences à partir de modèles probabilistes '''[[Modèle autorégressif|autorégressifs]]''' qui introduisent un caractère aléatoire tout en conservant la qualité. Plus simplement, son principe fondamental consiste à échantillonner à chaque étape un ensemble plus petit et plus crédible de '''[[Segment textuel|segments textuels]]''' (appelé noyau). Le choix du '''[[paramètre]]''' ''p'' peut influencer considérablement le texte généré.  
Stratégie d'échantillonnage stochastique afin de générer des séquences à partir de modèles probabilistes '''[[Modèle autorégressif|autorégressifs]]''' qui introduisent un caractère aléatoire tout en conservant la qualité. Plus simplement, son principe fondamental consiste à échantillonner à chaque étape un ensemble plus petit et plus probable (d'où le ''p'' dans le terme) de '''[[Segment textuel|segments textuels]]''' (appelé noyau). Le choix du '''[[paramètre]]''' ''p'' peut influencer considérablement le texte généré.  


Cette stratégie est utile lorsque l'on souhaite obtenir une génération de texte plus adaptée et plus sensible au contexte.  
Cette stratégie est utile lorsque l'on souhaite obtenir une génération de texte plus adaptée et plus sensible au contexte.  
Ligne 9 : Ligne 9 :


== Compléments ==
== Compléments ==
Alors que l'échantillonnage k-meilleurs limite l'échantillon aux k mots suivants les plus probables, l'échantillonnage meilleur-p ajoute une variante. Au lieu de spécifier un nombre défini de candidats principaux (k), on spécifie un probabilité (p) et on échantillonne que le groupe de [[segment textuel|segments textuels]] dont la probabilité est supérieure à p.


En pratique, l'échantillonnage top-p est souvent préféré au top-k(?) car il est adaptatif. Il est généralement recommandé de spécifier soit la '''[[température]]''', soit le paramètre ''p'', mais pas les deux.
En pratique, l'échantillonnage p-meilleurs est souvent préféré au k-meilleurs car il est plus adaptatif. Il est généralement recommandé de spécifier soit la '''[[température]]''', soit le paramètre ''p'', mais pas les deux.


== Français ==
== Français ==
''' Échantillonnage des p-meilleurs'''
''' Échantillonnage du noyau'''
''' Échantillonnage top-p'''
''' Échantillonnage top-p'''


Ligne 25 : Ligne 30 :


== Sources ==
== Sources ==
[https://medium.com/thinking-sand/the-top-k-and-top-p-parameters-explained-bfaecc8cd342  Source : Medium]
[https://cyrilzakka.github.io/llm-playbook/nested/topp.html  Source : The Large Language Model PLaybook]
[https://en.wikipedia.org/wiki/Top-p_sampling  Source : Wikipedia]
[https://en.wikipedia.org/wiki/Top-p_sampling  Source : Wikipedia]


[[Catégorie:vocabulary]]
[[Catégorie:vocabulary]]

Dernière version du 14 octobre 2025 à 15:37

en construction

Définition

Stratégie d'échantillonnage stochastique afin de générer des séquences à partir de modèles probabilistes autorégressifs qui introduisent un caractère aléatoire tout en conservant la qualité. Plus simplement, son principe fondamental consiste à échantillonner à chaque étape un ensemble plus petit et plus probable (d'où le p dans le terme) de segments textuels (appelé noyau). Le choix du paramètre p peut influencer considérablement le texte généré.

Cette stratégie est utile lorsque l'on souhaite obtenir une génération de texte plus adaptée et plus sensible au contexte.

Voir aussi génération automatique de texte

Compléments

Alors que l'échantillonnage k-meilleurs limite l'échantillon aux k mots suivants les plus probables, l'échantillonnage meilleur-p ajoute une variante. Au lieu de spécifier un nombre défini de candidats principaux (k), on spécifie un probabilité (p) et on échantillonne que le groupe de segments textuels dont la probabilité est supérieure à p.

En pratique, l'échantillonnage p-meilleurs est souvent préféré au k-meilleurs car il est plus adaptatif. Il est généralement recommandé de spécifier soit la température, soit le paramètre p, mais pas les deux.

Français

Échantillonnage des p-meilleurs

Échantillonnage du noyau

Échantillonnage top-p

Anglais

Top-p sampling

Nucleus sampling

Stochastic decoding strategy for generating sequences form autoregressive probabilistic models that introduces randomness while maintaining quality. The choice of p can significantly influence the generated text. Its core idea is to sample from a smaller, more credible set of tokens at each step (called the nucleus). It is useful when you want more adaptative and context-sensitive text generation.

In practice, top-p sampling is often preferred over top-k because it’s adaptive. It is generally recommended to specify either the temperature or the top_p parameter, but not both.

Sources

Source : Medium

Source : The Large Language Model PLaybook

Source : Wikipedia

Contributeurs: Arianne Arel, Patrick Drouin