« Indice de Jaccard » : différence entre les versions


m (Pitpitt a déplacé la page Jaccard Similarity vers Indice de Jaccard)
Aucun résumé des modifications
 
Ligne 1 : Ligne 1 :
== en construction ==
== Définition ==
== Définition ==
'''[[Statistique]]''' utilisée pour mesurer la similarité entre deux '''[[Jeu de données|ensembles de données]]'''. Sa valeur est comprise entre 0 et 1, où 0 signifie que nous avons le même ensemble de données et 0 que nous avons des ensembles de données complètement différents. Elle est mesurée comme la taille de l'intersection de deux ensembles divisée par la taille de leur union.  
'''[[Statistique]]''' utilisée pour mesurer la similarité entre deux '''[[Jeu de données|ensembles de données]]'''. Sa valeur est comprise entre 0 et 1, où 0 signifie que nous avons le même ensemble de données et 0 que nous avons des ensembles de données complètement différents. Elle est mesurée comme la taille de l'intersection de deux ensembles divisée par la taille de leur union.  
Ligne 24 : Ligne 22 :


''' IoU'''
''' IoU'''
<!--Statistic used to measure the similarity between two data sets. Its value lies between 0 and 1, where 0 means that we have the same data set and 0 that we have completely different data sets. It is measured as the size of the intersection of two sets divided by the size of their union. In NLP, generally, documents are sets of words which Jaccard similarity can be applied to and tells us how the two text documents are close to each other in terms of their context. In other words, fow many common words exist over the total of words. It is extensively used in text analysis, recommendation systems, data deduplication, social network analysis and genomics.-->


== Sources ==
== Sources ==
Ligne 35 : Ligne 32 :
[https://fr.wikipedia.org/wiki/Indice_et_distance_de_Jaccard  Source : Wikipédia]
[https://fr.wikipedia.org/wiki/Indice_et_distance_de_Jaccard  Source : Wikipédia]


[[Catégorie:vocabulary]]
[[Catégorie:GRAND_LEXIQUE_FRANÇAIS]]

Dernière version du 4 août 2025 à 21:09

Définition

Statistique utilisée pour mesurer la similarité entre deux ensembles de données. Sa valeur est comprise entre 0 et 1, où 0 signifie que nous avons le même ensemble de données et 0 que nous avons des ensembles de données complètement différents. Elle est mesurée comme la taille de l'intersection de deux ensembles divisée par la taille de leur union.

En traitement automatique de la langue naturelle (TALN), les documents sont généralement des ensembles de mots (textes) auxquels l'indice de Jaccard peut s'appliquer et ce dernier nous indique dans quelle mesure les deux textes sont proches l'un de l'autre en termes de contexte. Plus simplement, en TALN, l'indice de Jaccard détermine combien de mots communs existent sur l'ensemble des mots.

Compléments

L'indice de Jaccard est largement utilisé dans l'analyse de texte, les systèmes de recommandation, la déduplication des données, l'analyse des réseaux sociaux et la génomique.

Français

Indice de Jaccard

IoU

Anglais

Jaccard Similarity

Jaccard Similarity Index

Jaccard Index

Intersection Over Union

IoU

Sources

Source : Geeks for Geeks

Source : KDnuggets

Source : Study Machine Learning

Source : Wikipédia

Contributeurs: Arianne Arel, wiki