Jeu de référence


Révision datée du 9 novembre 2025 à 12:14 par Arianne (discussion | contributions) (Arianne a déplacé la page Gold standard vers Jeu de référence)
(diff) ← Version précédente | Voir la version actuelle (diff) | Version suivante → (diff)

en construction

Définition

Données vérifiées par des humains qui peuvent être utilisées comme référence pour évaluer les performances d'algorithme, de modèle ou de système d'intelligence artificielle.

En traitement automatique de naturelle, les jeux de référence sont utilisés pour mesurer les performances des humains dans certaines tâches et pour entraîner et évaluer les performances de ces modèles. Leur taille dépend du cas d'utilisation, de la complexité de la tâche et des ressources disponibles, et ils doivent être représentatifs des tâches prévues pour le grand modèle de langues (GML).

Compléments

On utilise aussi les jeux de référence pour évaluer les tâches de traduction automatique neuronale.

Il est important de noter que, même si l'évaluation avec un jeu de référence fournit un bon résultat, les performances d'un GML sur ces données de référence sont aussi précises qu'avec les requêtes génératives du monde réel.

Français

Jeu de référence

Jeu de données de référence

Données de référence

Anglais

Gold standard

Golden dataset

Ground truth

It refers to human-verified data that can used as a benchmark for evaluating the performance of algorithms. In nlp, gold standards are used to measure how well humans perform on some task and for training and evaluating the performance of these models. Its size is contingent on the use case, task complexity, and available resources and it should be representative of the LLM’s intended tasks.

It's important to note that while a golden dataset provides a high standard for evaluation, the performance of an LLM on this dataset is only as accurate as its relationship to real-world prompts

Sources

Source : Applied Language Technology MOOC

Source :KLU

Contributeurs: Arianne Arel