Forêt d'isolation
Définition
Algorithme d'apprentissage automatique non supervisé qui permet la détection d'anomalies dans un ensemble de données, et ce, par l'isolation des données atypiques ou aberrantes.
Compléments
L'algorithme construit un ensemble d'arbres de décision aléatoires (la forêt). Pour chaque donnée, il mesure le nombre de partitions nécessaires pour l'isoler dans la forêt. Il repose donc sur le principe que les anomalies sont isolables, c'est-à-dire qu'elles nécessitent moins de partitions pour être isolées dans une forêt d'arbres de décision.
Ce type d'algorithme est souvent utilisé pour la détection de fraudes (par exemples les transactions bancaires), la détection d'intrusions dans les réseaux, la détection d'erreurs dans les données, etc. En bref, il est utile dans n'importe quelle application où la détection de valeurs atypiques (anomalies) a un intérêt.
Français
forêt d'isolation
Anglais
isolation forest
IForest
Sources
Yepmo et al. (2023) Vers un partitionnement des données à partir d'une forêt d'isolation
Contributeurs: Claude Coulombe, Imane Meziani, Jean Benoît Morel, Patrick Drouin, wiki
