CHARM由武汉大学,同济大学和上海人工智能实验室联合推出,是首个全面深入评估大型语言模型(LLMs)在中文常识推理能力的基准测试。该数据集不仅覆盖国际普遍认知的常识,还包括具有中国特色的常识领域,如历史、传统文化与艺术、日常生活和习俗、娱乐、公众人物、地理和汉语语言等方面。CHARM数据集的特点在于它包含紧密相连的推理和记忆任务,设计了1800个推理任务和759个记忆任务,这样的设计允许同时评估LLMs在这两个领域的能力,并深入理解它们之间的相关性。该基准测试为非英语环境下的LLMs性能评估提供了新的视角和工具,对于推动人工智能在中文领域的理解和应用具有重要意义。
详情请参见五号雷达:https://www.5radar.com/dataset?id=eb6fdf121fafc1e4ff83fd1e718be3bd
领取专属 10元无门槛券
私享最新 技术干货