FineWeb是一个由Hugging Face提供的大规模英语网页数据集,包含超过15万亿个经过清洗和去重的Token。该数据集基于95个CommonCrawl数据集构建,总数据量达45TB。这些数据集覆盖了从2013年夏季至2024年3月的网络数据,涵盖了英语领域的广泛主题。FineWeb的主要目标是为研究公共数据在大模型(LLM)预训练中的应用提供资源。通过使用datatrove库对CommonCrawl数据进行精细处理、过滤和去重,FineWeb成为了目前最大且公开可用的干净的LLM预训练数据集。在FineWeb上训练的模型在性能上超越了RefinedWeb、C4、DolmaV1.6、The Pile和SlimPajama等其他数据集。
详情请参见五号雷达:https://www.5radar.com/result?key=FineWeb
领取专属 10元无门槛券
私享最新 技术干货