Agrégation par ré-échantillonnage avec remise

Définition

Méta-algorithme d'apprentissage ensembliste qui ré-échantillonne au hasard avec remise les données d'entraînement pour créer un ensemble de modèles où chaque sous-échantillon correspond à un modèle distinct.

Compléments

Le ré-échantillonnage désigne le processus de création d'un nouvel échantillon de données à partir d'un jeu de données existant, souvent avec remise.

Note: le résultat sera obtenu par le calcul de la moyenne pour une régression (prévision d'un nombre) ou par un vote majoritaire dans le cas d'une classification (prévision d'une classe).

Typiquement, l'agrégation par ré-échantillonnage avec remise aide à réduire la variance et le surapprentissage. L'algorithme de la forêt aléatoire (en anglais, random forest) est une application très utilisée de l'agrégation par ré-échantillonnage avec remise.

Voir: Ré-échantillonnage avec remise

L'empilement de modèles (en anglais, stacking) et l'amplification de gradient (en anglais, gradient boosting) sont d'autres méthodes pour combiner les résultats d'ensembles de modèles (par exemple, à partir de différents jeux de données utilisés pour l'entraînement des modèles).