OpenToM是伦敦国王学院和华为伦敦研究中心等提出的一个评估大模型心智理论的新基准。其特点包括:长且清晰的叙事、性格鲜明的角色、基于角色意图的行动,以及旨在挑战大语言模型在模拟角色心理状态方面能力的问题。该基准库包含696个叙述,其中596个为标准长度(平均194.3个单词),100个为长篇(平均491.6个单词),每个叙述后附有23个心智问题,总计16008个。OpenToM数据集为心智研究提供了可靠的评估基准,对心智模型的开发与优化具有重要意义。
详情请参见五号雷达:
https://www.5radar.com/
数据集地址:
https://github.com/seacowx/OpenToM
https://huggingface.co/datasets/SeacowX/OpenToM
领取专属 10元无门槛券
私享最新 技术干货