« Common Crawl » : différence entre les versions


Aucun résumé des modifications
Aucun résumé des modifications
 
Ligne 18 : Ligne 18 :
[https://en.wikipedia.org/wiki/Common_Crawl  Wikipedia - Common Crawl]
[https://en.wikipedia.org/wiki/Common_Crawl  Wikipedia - Common Crawl]


[[Catégorie:Publication]]
[[Catégorie:ENGLISH]]
[[Catégorie:GRAND LEXIQUE FRANÇAIS]]

Dernière version du 15 octobre 2025 à 21:25

Définition

Nom propre d'une organisation à but non lucratif qui explore le Web et met gratuitement à la disposition du public ses archives et ses jeux de données, et ce, depuis 2008.

Compléments

Les archives et les jeux de données comprennent les données brutes de pages Web, des métadonnées et des extraits de texte.

Les explorations ont lieu environ une fois par mois et les données, elles aussi nommées common crawl, sont mises à disposition dans la Wayback Machine (site d'archives du Web).

Français

Common Crawl

Anglais

Common Crawl

A nonprofit organization that crawls the web and freely provides its archieves and datasets to the public collected since 2008. The repository includes raw web page data, metadata and text extracts. It complete crawls approximately once a month and the contents are made available in the Wayback Machine.

Sources

Wikipedia - Common Crawl

Contributeurs: Arianne Arel, Patrick Drouin, wiki