ProCQA,由北京航空航天大学构建的一个大规模编程问答数据集,包含约500万个问答对,覆盖Python、Java、JavaScript等11种不同的编程语言,内容涉及算法、框架、库的使用等多个知识领域。该数据集源自StackOverflow社区,研究人员通过爬虫技术获取,采用了严格的规则过滤策略,如过滤过短或过长的问答,只保留被提问者接受的答案等,确保数据的质量和公平性。ProCQA中的问答对是自然结构化的混合模态对,即文本和代码在问答字段中交织在一起,为模型提供了自然监督信号,以便于对齐两种模态。ProCQA的应用领域广泛,不仅可以用作评估基准,也可以用作预训练语料库,为代码检索和问答任务提供了宝贵的资源。
详情请参见五号雷达:https://www.5radar.com/result?key=ProCQA
领取专属 10元无门槛券
私享最新 技术干货