« Jeu de référence » : différence entre les versions


Aucun résumé des modifications
m (Arianne a déplacé la page Gold standard vers Jeu de référence)
 
(Aucune différence)

Dernière version du 9 novembre 2025 à 12:14

en construction

Définition

Données vérifiées par des humains qui peuvent être utilisées comme référence pour évaluer les performances d'algorithme, de modèle ou de système d'intelligence artificielle.

En traitement automatique de naturelle, les jeux de référence sont utilisés pour mesurer les performances des humains dans certaines tâches et pour entraîner et évaluer les performances de ces modèles. Leur taille dépend du cas d'utilisation, de la complexité de la tâche et des ressources disponibles, et ils doivent être représentatifs des tâches prévues pour le grand modèle de langues (GML).

Compléments

On utilise aussi les jeux de référence pour évaluer les tâches de traduction automatique neuronale.

Il est important de noter que, même si l'évaluation avec un jeu de référence fournit un bon résultat, les performances d'un GML sur ces données de référence sont aussi précises qu'avec les requêtes génératives du monde réel.

Français

Jeu de référence

Jeu de données de référence

Données de référence

Anglais

Gold standard

Golden dataset

Ground truth

It refers to human-verified data that can used as a benchmark for evaluating the performance of algorithms. In nlp, gold standards are used to measure how well humans perform on some task and for training and evaluating the performance of these models. Its size is contingent on the use case, task complexity, and available resources and it should be representative of the LLM’s intended tasks.

It's important to note that while a golden dataset provides a high standard for evaluation, the performance of an LLM on this dataset is only as accurate as its relationship to real-world prompts

Sources

Source : Applied Language Technology MOOC

Source :KLU

Contributeurs: Arianne Arel