« Jeu de référence » : différence entre les versions
(Page créée avec « == en construction == == Définition == xxxxxxx == Français == ''' Jeu de référence''' ''' Jeu de données de référence''' ''' Données de référence''' == Anglais == ''' Gold standard''' ''' Golden dataset''' ''' Ground truth''' == Sources == [https://applied-language-technology.mooc.fi/html/notebooks/part_ii/05_evaluating_nlp.html Source : Applied Language Technology MOOC] [https://klu.ai/glossary/golden-dataset Source :KLU] Catégorie:voc... ») |
m (Arianne a déplacé la page Gold standard vers Jeu de référence) |
||
| (Une version intermédiaire par le même utilisateur non affichée) | |||
| Ligne 2 : | Ligne 2 : | ||
== Définition == | == Définition == | ||
'''[[Données]]''' vérifiées par des humains qui peuvent être utilisées comme référence pour évaluer les performances d''''[[algorithme]]''', de '''[[modèle]]''' ou de '''[[système d'intelligence artificielle]]'''. | |||
En '''[[traitement automatique de naturelle]]''', les jeux de référence sont utilisés pour mesurer les performances des humains dans certaines tâches et pour entraîner et évaluer les performances de ces modèles. Leur taille dépend du cas d'utilisation, de la complexité de la tâche et des ressources disponibles, et ils doivent être représentatifs des tâches prévues pour le '''[[Grand modèle de langues|grand modèle de langues (GML)]]'''. | |||
== Compléments == | |||
On utilise aussi les jeux de référence pour évaluer les tâches de '''[[traduction automatique neuronale]]'''. | |||
Il est important de noter que, même si l'évaluation avec un jeu de référence fournit un bon résultat, les performances d'un GML sur ces données de référence sont aussi précises qu'avec les '''[[Requête générative|requêtes génératives]]''' du monde réel. | |||
== Français == | == Français == | ||
| Ligne 17 : | Ligne 24 : | ||
''' Ground truth''' | ''' Ground truth''' | ||
''It refers to human-verified data that can used as a benchmark for evaluating the performance of algorithms. In nlp, gold standards are used to measure how well humans perform on some task and for training and evaluating the performance of these models. Its size is contingent on the use case, task complexity, and available resources and it should be representative of the LLM’s intended tasks.'' | |||
''It's important to note that while a golden dataset provides a high standard for evaluation, the performance of an LLM on this dataset is only as accurate as its relationship to real-world prompts'' | |||
== Sources == | == Sources == | ||
Dernière version du 9 novembre 2025 à 12:14
en construction
Définition
Données vérifiées par des humains qui peuvent être utilisées comme référence pour évaluer les performances d'algorithme, de modèle ou de système d'intelligence artificielle.
En traitement automatique de naturelle, les jeux de référence sont utilisés pour mesurer les performances des humains dans certaines tâches et pour entraîner et évaluer les performances de ces modèles. Leur taille dépend du cas d'utilisation, de la complexité de la tâche et des ressources disponibles, et ils doivent être représentatifs des tâches prévues pour le grand modèle de langues (GML).
Compléments
On utilise aussi les jeux de référence pour évaluer les tâches de traduction automatique neuronale.
Il est important de noter que, même si l'évaluation avec un jeu de référence fournit un bon résultat, les performances d'un GML sur ces données de référence sont aussi précises qu'avec les requêtes génératives du monde réel.
Français
Jeu de référence
Jeu de données de référence
Données de référence
Anglais
Gold standard
Golden dataset
Ground truth
It refers to human-verified data that can used as a benchmark for evaluating the performance of algorithms. In nlp, gold standards are used to measure how well humans perform on some task and for training and evaluating the performance of these models. Its size is contingent on the use case, task complexity, and available resources and it should be representative of the LLM’s intended tasks.
It's important to note that while a golden dataset provides a high standard for evaluation, the performance of an LLM on this dataset is only as accurate as its relationship to real-world prompts
Sources
Contributeurs: Arianne Arel





