首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

【五号雷达-数据快讯】ProCQA - 大规模编程问答数据集

ProCQA,由北京航空航天大学构建的一个大规模编程问答数据集,包含约500万个问答对,覆盖Python、Java、JavaScript等11种不同的编程语言,内容涉及算法、框架、库的使用等多个知识领域。该数据集源自StackOverflow社区,研究人员通过爬虫技术获取,采用了严格的规则过滤策略,如过滤过短或过长的问答,只保留被提问者接受的答案等,确保数据的质量和公平性。ProCQA中的问答对是自然结构化的混合模态对,即文本和代码在问答字段中交织在一起,为模型提供了自然监督信号,以便于对齐两种模态。ProCQA的应用领域广泛,不仅可以用作评估基准,也可以用作预训练语料库,为代码检索和问答任务提供了宝贵的资源。

详情请参见五号雷达:https://www.5radar.com/result?key=ProCQA

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O1t4oORsqvCCq9IraGOH-BuA0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券