CLIcK数据集由韩国科学技术院创建,旨在填补韩语大模型在文化与语言知识评估方面的空白。该数据集包含1995对问答样本,源自官方韩国考试与教科书,覆盖语言和文化两大类,细分为11个子类别,每个样本都提供了细粒度的注释,指明回答问题所需的文化和语言知识。通过官方许可,研究团队从六项韩国考试和一本教科书中提取问题,同时利用GPT-4生成新问题,确保了内容的原创性与文化相关性,经过严格的人工审核与分类,CLIcK最终形成了一个高质量的韩语评估基准。该数据集作为评估韩语语言模型文化与语言理解能力的重要基准,为推动相关领域的研究提供了坚实的数据支撑。
详情请参见五号雷达:https://www.5radar.com/
数据集地址: https://github.com/rladmstn1714/CLIcK
领取专属 10元无门槛券
私享最新 技术干货