« Common Crawl » : différence entre les versions


Aucun résumé des modifications
Aucun résumé des modifications
Ligne 1 : Ligne 1 :
== en construction ==
== Définition ==
Nom propre d'une organisation à but non lucratif qui explore le Web et met gratuitement à la disposition du public ses archives et ses '''[[Jeu de données|jeux de données]]''', et ce, depuis 2008.


== Définition ==
== Compléments ==  
Organisation à but non lucratif qui explore le Web et met gratuitement à la disposition du public ses archives et ses '''[[Jeu de données|jeux de données]]''', et ce, depuis 2008. Les archives et les jeux de données comprennent les '''[[données brutes]]''' de pages Web, des métadonnées et des extraits de texte.  
Les archives et les jeux de données comprennent les '''[[données brutes]]''' de pages Web, des métadonnées et des extraits de texte.  


Les explorations ont lieu environ une fois par mois et les '''[[données]]''' sont mises à disposition dans la Wayback Machine.
Les explorations ont lieu environ une fois par mois et les '''[[données]]''', elles aussi nommées ''common crawl'', sont mises à disposition dans la ''Wayback Machine'' (site d'archives du Web).


== Français ==
== Français ==
Ligne 15 : Ligne 16 :


== Sources ==
== Sources ==
[https://en.wikipedia.org/wiki/Common_Crawl   Source : Wikipedia]
[https://en.wikipedia.org/wiki/Common_Crawl Wikipedia - Common Crawl]


[[Catégorie:vocabulary]]
[[Catégorie:Publication]]

Version du 14 octobre 2025 à 14:28

Définition

Nom propre d'une organisation à but non lucratif qui explore le Web et met gratuitement à la disposition du public ses archives et ses jeux de données, et ce, depuis 2008.

Compléments

Les archives et les jeux de données comprennent les données brutes de pages Web, des métadonnées et des extraits de texte.

Les explorations ont lieu environ une fois par mois et les données, elles aussi nommées common crawl, sont mises à disposition dans la Wayback Machine (site d'archives du Web).

Français

Common Crawl

Anglais

Common Crawl

A nonprofit organization that crawls the web and freely provides its archieves and datasets to the public collected since 2008. The repository includes raw web page data, metadata and text extracts. It complete crawls approximately once a month and the contents are made available in the Wayback Machine.

Sources

Wikipedia - Common Crawl

Contributeurs: Arianne Arel, Patrick Drouin, wiki