IEPile,由浙江大学研发,是一个大规模高质量的双语(中英)信息抽取(IE)指令微调数据集,涵盖了命名实体识别(NER)、关系抽取(RE)和事件抽取(EE)三大核心子任务。该数据集包含约200万条指令样本,总计约3.2亿Token,涵盖了通用、医学、金融等多个领域。研究团队通过精心整合26个英文和7个中文IE数据集,并采用提出的“基于schema的轮询指令构造方法”,包括构建难负样本字典和轮询式指令生成,确保了数据集的高质量。IEPile的构建显著提升了大型模型在信息抽取任务,尤其是零样本泛化能力上的表现,为信息抽取研究提供了宝贵的资源。
详情请参见五号雷达:https://www.5radar.com/
数据集地址: https://github.com/zjunlp/IEPile
领取专属 10元无门槛券
私享最新 技术干货