参考 Documenting Large Webtext Corpora: A Case Study on the Colossal Clean Crawled Corpus。
langdetect 得到的英文概率小于 0.99,所以 C4 主要是英文文档。
patents.google.com、en.wikipedia.com、en.m.wikipedia.com。patents.google.com 排第一,这是专利网站,Google 会使用机器翻译模型翻译非英文专利,也会使用 ocr 将扫描文本识别出来。识别哪些文本是机器生成的也是一个活跃的研究领域。