首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

1. 【五号雷达-数据快讯】LongAlign-10K - 大模型长上下文对齐数据集

LongAlign-10k是清华大学提出的一个针对大模型在长上下文对齐任务中面临的挑战而设计的数据集,包含10,000 条长指令数据,长度在 8k-64k 之间。在构建过程中,该数据集首先从书籍、百科全书、学术论文、代码等9大不同领域汲取素材;然后运用Claude 2.1大模型,在长篇背景之下生成多样化任务与答案。此数据集旨在测评大模型于长上下文中的表现,及其对10k-100k长度任务指令的遵循能力。

详情请参见五号雷达:https://www.5radar.com/

数据集地址:

https://github.com/THUDM/LongAlign

https://huggingface.co/datasets/THUDM/LongAlign-10k

  • 发表于:
  • 原文链接https://page.om.qq.com/page/ONEZBBFH0WyANxvzw1LB06qA0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券