The Stack v2为BigCode发布的代码数据集,该数据集作为大型代码项目(BigCode Project)的一部分而创建,包含了超过30亿个来自600余种编程与标记语言的文件。该数据集源自Software Heritage档案(最大的公共软件源代码及其开发历史档案)。The Stack v2包含四个版本,全量数据为67.5TB,超过了The Stack v1的10倍,Tokens数约9000亿,可作为代码大模型的预训练数据集。
详情请参见五号雷达:https://www.5radar.com/
数据集地址:https://huggingface.co/datasets/bigcode/the-stack-v2
领取专属 10元无门槛券
私享最新 技术干货