Common Crawl


Révision datée du 15 octobre 2025 à 21:25 par Pitpitt (discussion | contributions)
(diff) ← Version précédente | Voir la version actuelle (diff) | Version suivante → (diff)

Définition

Nom propre d'une organisation à but non lucratif qui explore le Web et met gratuitement à la disposition du public ses archives et ses jeux de données, et ce, depuis 2008.

Compléments

Les archives et les jeux de données comprennent les données brutes de pages Web, des métadonnées et des extraits de texte.

Les explorations ont lieu environ une fois par mois et les données, elles aussi nommées common crawl, sont mises à disposition dans la Wayback Machine (site d'archives du Web).

Français

Common Crawl

Anglais

Common Crawl

A nonprofit organization that crawls the web and freely provides its archieves and datasets to the public collected since 2008. The repository includes raw web page data, metadata and text extracts. It complete crawls approximately once a month and the contents are made available in the Wayback Machine.

Sources

Wikipedia - Common Crawl

Contributeurs: Arianne Arel, Patrick Drouin, wiki