JDocQA是奈良先端科学技术大学院大学等机构联合构建的一个大规模日语文档问答数据集。该数据集包含5,504份PDF文档及11,600个日语标注的问答实例,每个问答实例都包括对文档页面的引用和答案线索的边界框。数据集涵盖了多种问题类别,包括是非题、事实题、数值题和开放式问题,且特别引入了无答案的问题。数据文档源自公共领域,如政府宣传册和网站,并通过人工注释问答对。JDocQA是一个高质量、实用的日语文档问答数据集,为研究者和开发者提供了一个评估和提升大模型在日语文档问答任务上性能的宝贵资源。
详情请参见五号雷达:https://www.5radar.com/result?key=JDocQA
领取专属 10元无门槛券
私享最新 技术干货