Common Crawl

en construction

Définition

Organisation à but non lucratif qui explore le Web et met gratuitement à la disposition du public ses archives et ses jeux de données, et ce, depuis 2008. Les archives et les jeux de données comprennent les données brutes de pages Web, des métadonnées et des extraits de texte.

Les explorations ont lieu environ une fois par mois et les données sont mises à disposition dans la Wayback Machine.

Français

Common Crawl

Anglais

Common Crawl

A nonprofit organization that crawls the web and freely provides its archieves and datasets to the public collected since 2008. The repository includes raw web page data, metadata and text extracts. It complete crawls approximately once a month and the contents are made available in the Wayback Machine.

Sources

Source : Wikipedia