LongAlign-10k是清华大学提出的一个针对大模型在长上下文对齐任务中面临的挑战而设计的数据集,包含10,000 条长指令数据,长度在 8k-64k 之间。在构建过程中,该数据集首先从书籍、百科全书、学术论文、代码等9大不同领域汲取素材;然后运用Claude 2.1大模型,在长篇背景之下生成多样化任务与答案。此数据集旨在测评大模型于长上下文中的表现,及其对10k-100k长度任务指令的遵循能力。
详情请参见五号雷达:https://www.5radar.com/
数据集地址:
https://github.com/THUDM/LongAlign
https://huggingface.co/datasets/THUDM/LongAlign-10k
领取专属 10元无门槛券
私享最新 技术干货