首页
学习
活动
专区
圈层
工具
发布

【语料库】中文公开聊天语料库

github.com/codemayq/chaotbot_corpus_Chinese python进阶教程 机器学习 深度学习 长按二维码关注 说明 该库是对目前市面上已有的开源中文聊天语料的搜集和系统化整理工作...该库搜集了包含 chatterbot 豆瓣多轮 PTT八卦语料 青云语料 电视剧对白语料 贴吧论坛回帖语料 微博语料 小黄鸡语料 共8个公开闲聊常用语料和短信,白鹭时代问答等语料。...给出的语料原链接是为了说明该语料的原始出处是在哪里 环境 python3 处理过程 将各个来源的语料按照其原格式进行提取,提取后进行繁体字转换,然后统一变成一轮一轮的对话。...数据来源及说明 语料名称 语料数量 语料来源说明 语料特点 语料样例 是否已分词 chatterbot 560 开源项目 按类型分类,质量较高 Q:你会开心的 A:幸福不是真正的可预测的情绪。...否 xiaohuangji(小黄鸡语料) 45W 原人人网项目语料 有一些不雅对话,少量噪音 Q:你谈过恋爱么 A:谈过,哎,别提了,伤心..。

9.7K50

中文NLP福利!大规模中文自然语言处理语料

众所周知,中文NLP领域缺乏高质量的中文语料。...作者徐亮(实在智能算法专家) 创建了一个中文自然语言处理语料库项目:nlp_chinese_corpus ,初步贡献了几个已经预处理好的中文语料,包括维基、新闻和百科语料。...一期目标:10个百万级中文语料 & 3个千万级中文语料(2019年5月1号) 二期目标:30个百万级中文语料 & 10个千万级中文语料 & 1个亿级中文语料(2019年12月31日) 为什么需要这个项目...中文的信息无处不在,但如果想要获得大量的中文语料,却是不太容易,有时甚至非常困难。...贡献语料/Contribution 贡献中文语料,请发送邮件至nlp_chinese_corpus@163.com 为了共同建立一个大规模开放共享的中文语料库,以促进中文自然语言处理领域的发展,凡提供语料并被采纳到该项目中

7.7K30
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    COIG:开源四类中文指令语料库

    此外,由于COIG翻译语料库是从具有不同任务的英语教学语料库(Wang等人,2022b; Honovich等人,2022;Wang等人,2022a)翻译而来,它比在现有的中文数据集上通过适应提示工程建立的中文教学语料库更加多样化...该文的贡献如下: 据我们所知,这是最早的研究工作之一,专门总结了现有的中文指令微调语料库,并就未来如何构建中文指令微调语料库提出了见解。...我们构建了5个开源的高质量中文指令语料库,包括68k的普通中文指令语料库、62k的中文考试指令语料库、3k的中文人值对齐语料库和13k的中文反事实校正多轮聊天语料库,作为沿着指出的研究方向构建新的中文教学语料库的样本...我们构建了一个人工验证的通用高质量中文指令调优语料库,可直接用于中文LLMs的指令调优,包括商业和非商业的。...我们提供这些新的指令语料库是为了帮助社区对中文LLMs进行指令调整。这些指令语料库也是如何有效建立和扩展新的中文指令语料库的模板工作流程。

    1.2K20

    大规模中文自然语言处理语料(百科,问答、新闻,翻译)

    ://loveai.tech 为什么需要这个项目 中文的信息无处不在,但如果想要获得大量的中文语料,却是不太容易,有时甚至非常困难。...在2019年初这个时点上,普通的从业者、研究人员或学生,并没有一个比较好的渠道获得极大量的中文语料。...4)做为通用中文语料,做大模型预训练的语料或训练词向量。其中类别信息也比较有用,可以用于做监督训练,从而构建更好句子表示的模型、句子相似性任务等。...5.翻译语料(translation2019zh) 520万个中英文平行语料( 原始数据1.1G,压缩文件596M) 数据描述 中英文平行语料520万对。每一个对,包含一个英文和对应的中文。...可能的用途: 可以用于训练中英文翻译系统,从中文翻译到英文,或从英文翻译到中文; 由于有上百万的中文句子,可以只抽取中文的句子,做为通用中文语料,训练词向量或做为预训练的语料。

    3.7K20

    AI语料库智慧教学平台:用AI技术解锁语料教学新生态

    传统语料教学中“资源零散难筛选、用法讲解不直观、练习反馈不及时”是长期痛点——教师要花大量时间整理语料、学生面对海量素材不知如何下手,很难实现“精准学、高效练”。...而AI语料库智慧教学平台的出现,凭借前沿AI技术,把“智能语料导师”搬进课堂,让语料教学更精准、互动、可落地,彻底重构语言学习逻辑。核心技术之一是NLP语义检索与解析技术,这是平台的“语料导航大脑”。...不同于普通语料库的关键词匹配,平台的AI模型经过多语种、多场景语料训练,能理解“同义替换”“场景延伸”需求,比如搜索“道歉表达”会自动关联日常、商务、学术等不同语境的语料。...同时,采用NLP自动标注技术,给语料打上语法点、场景、难度等标签,教师可直接按标签筛选素材,学生能按标签定向补短板,大幅降低语料整理和使用成本。...AI语料库智慧教学平台用NLP、大数据分析等核心技术,让语料资源“活”了起来,破解了传统语料教学的效率低、匹配差、互动弱等问题。

    22110

    关于聊天机器人,这里有一份中文聊天语料库资源

    该库是对目前市面上已有的开源中文聊天语料的搜集和系统化整理工作 该库搜集了包含 chatterbot 豆瓣多轮 PTT八卦语料 青云语料 电视剧对白语料 贴吧论坛回帖语料 微博语料 小黄鸡语料...共8个公开闲聊常用语料和短信,白鹭时代问答等语料。...给出的语料原链接是为了说明该语料的原始出处是在哪里 环境 python3 处理过程 将各个来源的语料按照其原格式进行提取,提取后进行繁体字转换,然后统一变成一轮一轮的对话。...数据来源及说明 语料名称 语料数量 语料来源说明 语料特点 语料样例 是否已分词 chatterbot 560 开源项目 按类型分类,质量较高 Q:你会开心的 A:幸福不是真正的可预测的情绪。...否 xiaohuangji(小黄鸡语料) 45W 原人人网项目语料 有一些不雅对话,少量噪音 Q:你谈过恋爱么 A:谈过,哎,别提了,伤心..。

    7.6K72

    Nature子刊 | ChineseEEG: 一个基于中文语料刺激的高通道EEG数据集

    研究人员意识到,目前主流的语言处理研究和认知神经科学研究多集中在英语等西方语言上,但全球有数亿人使用其他语言,特别是中文。...中文具有独特的语法结构、丰富的字符系统和复杂的语义网络,这使得它在认知处理上可能有着不同于英语的特点。...因此,深入研究中文语言的神经机制不仅有助于全面理解人类语言处理的普遍规律,还能为跨文化、跨语言的认知科学研究提供重要的理论依据和数据支持。...BERT-base-Chinese模型在中文语料库上进行了预训练,将每个汉字视为一个标记进行嵌入。...综上所述,本研究通过构建一个高质量的中文EEG数据集,为语言神经科学研究提供了新的工具和方法,推动了跨语言脑科学研究的进展。

    1.4K10
    领券