Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >30 个优质 NLP 数据集和模型,一键使用 8 个 demo,建议收藏!| 超全大模型资源汇总

30 个优质 NLP 数据集和模型,一键使用 8 个 demo,建议收藏!| 超全大模型资源汇总

作者头像
大数据文摘
发布于 2024-04-15 04:42:36
发布于 2024-04-15 04:42:36
1.1K0
举报
文章被收录于专栏:大数据文摘大数据文摘

近两年来,大模型的热度持续高涨,并且开始在更广泛的领域进行落地探索。随着行业整体的快速发展,越来越多的开源大模型涌入市场,进一步推动了上层应用的拓展。

对于开发者而言,挑选优质大模型和数据集对其后续的研发、模型微调至关重要。为了方便大家选择并下载适配开发需求的模型与数据集,HyperAI超神经为大家汇总了大模型相关资源:

* 优质公共数据集:15 个

* 优质开源模型:15 个

* 优质教程精选:8 个

更多大模型资源,见官网:hyper.ai

数据集精选

1. seq-monkey 序列猴子开源数据集 1.0

序列猴子数据集是用于训练序列猴子模型的数据集,涉及领域包括:中文通用文本语料、古诗今译语料、文本生成语料。

直接使用:https://my5353.com/seqmon

2. IEPile 大规模信息抽取语料库

IEPile 是由浙江大学研发的大规模、高质量的双语(中英)信息抽取 (IE) 指令微调数据集,涵盖了医学、金融等多个领域。

直接使用:https://my5353.com/30064

3. LongAlign-10K 大模型长上下文对齐数据集

LongAlign-10k 由清华大学提出,是一个针对大模型在长上下文对齐任务中面临的挑战而设计的数据集,包含 10,000 条长指令数据,长度在 8k-64k 之间。

直接使用:https://my5353.com/longa

4. 大众点评数据集

该数据集包含 54 万用户对 24 万家餐馆的 440 万条评论或评分数据。可用于推荐系统、情感/观点/评论倾向性分析等任务。

直接使用:https://my5353.com/dianpi

5. 亚马逊用户评价数据集

该数据集包含 142 万用户对亚马逊网站上 1,100 多个类目下的 52 万件商品的 720 万条评论或评分数据,可用于推荐系统、情感/观点/评论倾向性分析等任务。

直接使用:https://my5353.com/amazon3

6. PD&CFT 人民日报中文阅读理解数据集

该数据集是第一个中文阅读理解数据集,其中内容包括人民日报和儿童童话(People Daily&Children’s Fairy Tale,简称 PD&CFT)。

直接使用:https://my5353.com/pdcft

7. 今日头条中文文本分类数据集

该数据集为今日头条中文新闻(短文本)分类数据集。数据来源为今日头条客户端。共包含 15 个分类,382,688 条文本。

直接使用:https://my5353.com/toutia

8. FewJoint 基准数据集

该数据集来自讯飞 AIUI 开放平台,包含真实用户的语料和专家构造的语料(比例约为 3:7),共 59 个真实域,是目前域最多的对话数据集之一。

直接使用:https://my5353.com/fewjo

9. PAWS-X :用于释义识别的跨语言对抗数据集

该数据集包含 23,659 个人工翻译的 PAWS 评估对,以及 296,406 个机器翻译的训练对,采用 6 种不同的语言:法语、西班牙语、德语、中文、日语和韩语。所有翻译对均源自 PAWS-Wiki 中的示例。

直接使用:https://my5353.com/pawsx

10. Wikipedia 维基百科数据集

该数据集是根据 Wikipedia 转储构建的,包含 56 种语言,每种语言有一个子集,每个子集包含一个训练分割。每个示例都包含一篇完整的维基百科文章的内容,并经过清理以删除标记和不需要的部分(参考文献等)。

直接使用:https://my5353.com/wikip

11. RJUA-QA 首个中文医疗专科问答推理数据集

RJUA-QA 数据集共含 2,132 个问答对,每对问答由医生根据临床经验编写的问题、专家提供的回答以及相关的推理上下文构成,这些上下文信息源自中国泌尿外科和男科疾病诊断治疗指南。

直接使用:https://my5353.com/rjuaq

12. ShareGPT 90k 中英文双语人机问答数据集

ShareGPT-Chinese-English-90k 是中英文平行双语优质人机问答数据集,覆盖真实复杂场景下的用户提问。可用于训练高质量的对话模型。

直接使用:https://my5353.com/sharegpt

13. SMP-2017 中文对话意图识别数据集

该数据集为 SMP2017 中文人机对话技术评测 (ECDT) 任务一数据集。

直接使用:https://my5353.com/smp17

14. Chinese-Poetry 中文古典诗歌文集数据库

该数据集是最全的中华古典文集数据库,包含 5.5 万首唐诗、 26 万首宋词、 2.1 万首宋词等古典文集。

直接使用:https://my5353.com/poetryzh

15. MCFEND 中国假新闻检测的多源基准数据集

该数据集是由香港浸会大学、香港中文大学等机构联合构建的一个多源中文虚假新闻检测基准数据集。

直接使用:https://my5353.com/30429

更多公共数据集,请访问:

https://hyper.ai/datasets

大模型精选

1. Mixtral-8x7B

该模型是 Mistral AI 在 Mistral 7B 的基础上推出的大语言模型。

直接使用:https://my5353.com/30472

2. C4AI Command-R

C4AI Command-R 是由 Cohere 和 Cohere For AI 联合开发的一个 350 亿参数的高性能生成式模型。多语言生成能力和高性能 RAG 能力的结合,使 Command-R 在跨语言任务和知识密集型任务上具有独特优势。

直接使用:https://my5353.com/command

3. 金融大模型 deepmoney-34B-chat

该模型是基于 Yi-34B-200K 训练的,分为 pt(全参数训练)和 sft(lora 微调)两个阶段。

直接使用:https://my5353.com/command

4. ChatGLM3 系列

ChatGLM3 是智谱 AI 和清华大学 KEG 实验室联合发布的对话预训练模型。

* ChatGLM3-6B

该模型为 ChatGLM3 系列中的开源模型,保留了前两代模型对话流畅、部署门槛低等众多优秀特性。

直接使用:https://my5353.com/glm36b

* ChatGLM3-6B-Base

该模型是 ChatGLM3-6B 的基础模型,采用了更多样的训练数据、更充分的训练步数和更合理的训练策略。

直接使用:https://my5353.com/glm3bas

5. LLaVA-v1.5 系列

LLaVA 是一个能够进行视觉和语言多模态转换的模型,由视觉编码器和大型语言模型 (Vicuna v1.5 13B) 组成。

* LLaVA-v1.5-7B

该模型是 LLaVA-v1.5 系列的 70 亿参数规模的模型。

直接使用:https://my5353.com/lava7b

* LLaVA-v1.5-13B

该模型是 LLaVA-v1.5 系列的 130 亿参数规模的模型。

直接使用:https://my5353.com/lava13b

6. Yi-34B 系列

Yi 系列模型是 01.AI 从零开始训练的开源大语言模型,以下模型系列为其 34B 大小的型号的相关模型。

* Yi-34B-chat

该模型为 Yi-34B 系列是 chat 模型,适用于多种对话场景。

直接使用:https://my5353.com/30429

* Yi-34B-Chat-GGUF

该模型是 Yi-34B-Chat 的 GGUF 格式。

直接使用:https://my5353.com/30429

* Yi-34B-Chat-4bits

该模型是 Yi-34B-Chat 模型的 4bit 量化版,可以直接在消费级显卡(如 RTX3090)上使用。

直接使用:https://my5353.com/30429

7. Qwen 通义千问大模型系列

Qwen 是阿里云推出的一系列超大规模语言模型,包括参数数量各不相同的不同模型。它包括 Qwen(基础预训练语言模型)和 Qwen-Chat(聊天模型),聊天模型采用人类对齐技术进行了微调。

* Qwen1.5-1.8B-Chat

Qwen1.5 是 Qwen2 的 beta 版本,该模型是 Qwen2 系列中较小参数规模的聊天模型版本,参数大小为 18 亿。

直接使用:https://my5353.com/qw1518

* Qwen-14B-Chat-Int4

Qwen-14B-Chat 是通义千问大模型系列的 140 亿参数规模的聊天模型,该模型为其 Int4 量化模型。

直接使用:https://my5353.com/qw14bCI

* Qwen-72B-Chat

该模型是是通义千问大模型系列的 720 亿参数规模的模型。

直接使用:https://my5353.com/qw72b

* Qwen-72B-Chat-Int4

该模型为 Qwen-72B-Chat 的 Int4 量化模型。

直接使用:https://my5353.com/qw72bCI

* Qwen-72B-Chat-Int8

该模型为 Qwen-72B-Chat 的 Int8 量化模型。

直接使用:https://my5353.com/qw72bCI8

优质教程精选

1. 在线运行通义千问 Qwen1.5-MoE

Qwen1.5-MoE-A2.7B 是通义千问团队推出 Qwen 系列的首个 MoE 模型,该教程为其 Demo 容器,一键克隆即可使用 Gradio 链接体验大模型。

在线运行:https://my5353.com/qwmoe

2. Qwen-14B-Chat-Int4 模型 Gradio Demo

该教程为 Qwen-14B-Chat-Int4 的 Demo 容器,一键克隆即可使用 Gradio 链接体验大模型。

在线运行:https://my5353.com/qw14d

3. Qwen-1.8B-Chat-API-FT 模型 Demo

本教程主要演示了如何运行通义千问 Qwen-1.8B-Chat 模型,以及进行微调的主要流程。

在线运行:https://my5353.com/qw18ftd

4. Qwen-72B-Chat-Int4 模型 Gradio Demo

该教程为 Qwen-72B-Chat-Int4 的 Demo 容器,一键克隆即可使用 Gradio 链接体验大模型。

在线运行:https://my5353.com/y34bc

5. 在线运行 Yi-34B-Chat 的量化模型

本教程主要演示了使用 LlamaEdge 运行 Yi-34B-Chat 的量化模型的主要流程。

在线运行:https://my5353.com/y34bguf

6. 在线运行金融大模型 Deepmoney-34B-full

Deepmoney 是一个专注于金融领域投资的大型语言模型项目。Deepmoney-34B-full 是基于 Yi-34B-200K 模型进行训练的,分为 pt(全参数训练)和 sft (lora 微调) 两个阶段。现可在超神经官网一键克隆使用。

在线运行:https://my5353.com/t30314

7. 一键运行 Yi-9B Demo

Yi-9B 是目前 Yi 系列模型中代码和数学能力最强的模型,该教程为 Yi-9B 的 Demo 容器。

在线运行:https://my5353.com/yi9bd

8. 快速部署 ChatGLM2-6B

该教程为 ChatGLM2-6B 的 Demo 容器,一键克隆即可使用 Gradio 链接体验大模型。

在线运行:https://my5353.com/glm26bd

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-04-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据文摘 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
LLM资料大全:文本多模态大模型、垂直领域微调模型、STF数据集、训练微调部署框架、提示词工程等
自ChatGPT为代表的大语言模型(Large Language Model, LLM)出现以后,由于其惊人的类通用人工智能(AGI)的能力,掀起了新一轮自然语言处理领域的研究和应用的浪潮。尤其是以ChatGLM、LLaMA等平民玩家都能跑起来的较小规模的LLM开源之后,业界涌现了非常多基于LLM的二次微调或应用的案例。本项目旨在收集和梳理中文LLM相关的开源模型、应用、数据集及教程等资料,目前收录的资源已达100+个!
汀丶人工智能
2024/04/29
3K0
LLM资料大全:文本多模态大模型、垂直领域微调模型、STF数据集、训练微调部署框架、提示词工程等
使用LLaMA-Factory对LLM大模型进行微调!训练专属于你的模型!
如今也是出现了各种各样的大模型,如果想要针对性的让他扮演某个角色我们通常采用的是给他输入prompt(提示词)。
MGS浪疯
2024/11/22
1.7K2
92秒 < 75秒?E-EVAL揭露一众大模型不会做小学题目!
随着大型语言模型(LLM)的快速发展,LLM和教育领域的结合变得越来越切。但是,目前还没有一个专门为中国K-12教育领域设计的LLM评估基准。为了准确评估各种LLM在中国K-12教育领域的表现,我们推出了E-EVAL。E-EVAL包括4351道选择题,涵盖了小学、初中和高中阶段,如图 1 所示,涵盖了23个学科,包括小学语文、数学、英语、科学、思想品德,以及初中和高中阶段的各种学科。我们进一步将问题分为两类:文科和理科,理科包括数学、物理、化学等,文科包括语文、英语、历史等。通常来说,理科的难度要高于文科。
zenRRan
2024/02/22
3070
92秒 < 75秒?E-EVAL揭露一众大模型不会做小学题目!
奥林匹克竞赛里选最聪明的AI:Claude-3.5-Sonnet vs. GPT-4o?
上海交通大学生成式人工智能实验室 (GAIR Lab) 的研究团队,主要研究方向是:大模型训练、对齐与评估。‍
机器之心
2024/06/27
3730
奥林匹克竞赛里选最聪明的AI:Claude-3.5-Sonnet vs. GPT-4o?
LLM 大模型学习必知必会系列(五):数据预处理(Tokenizer分词器)、模板(Template)设计以及LLM技术选型
在模型训练过程中,数据及数据处理是最为重要的工作之一。在当前模型训练流程趋于成熟的情况下,数据集的好坏,是决定了该次训练能否成功的最关键因素。
汀丶人工智能
2024/05/26
4.3K0
LLM 大模型学习必知必会系列(五):数据预处理(Tokenizer分词器)、模板(Template)设计以及LLM技术选型
阿里Qwen2正式开源,性能全方位包围Llama-3
斯坦福团队套壳清华大模型的事件不断发酵后,中国模型在世界上开始得到了更多关注。不少人发现,原来中国已经有不少成熟的大模型正在赶超国外。
机器之心
2024/06/17
4730
阿里Qwen2正式开源,性能全方位包围Llama-3
NL2SQL基础系列(2):主流大模型与微调方法精选集,Text2SQL经典算法技术回顾七年发展脉络梳理
MiniCPM是一系列端侧语言大模型,主体语言模型MiniCPM-2B具有2.4B的非词嵌入参数量。在综合性榜单上与Mistral-7B相近(中文、数学、代码能力更优),整体性能超越Llama2-13B、MPT-30B、Falcon-40B等模型。在当前最接近用户体感的榜单MTBench上,MiniCPM-2B也超越了Llama2-70B-Chat、Vicuna-33B、Mistral-7B-Instruct-v0.1、Zephyr-7B-alpha等众多代表性开源大模型。
汀丶人工智能
2024/04/10
1.3K0
NL2SQL基础系列(2):主流大模型与微调方法精选集,Text2SQL经典算法技术回顾七年发展脉络梳理
LLM 大模型学习必知必会系列(一):大模型基础知识篇
2023 年,随着 LLM 技术的发展,中国模型研究机构的开源模型迎来了爆发式的增长:
汀丶人工智能
2024/05/11
3.2K0
LLM 大模型学习必知必会系列(一):大模型基础知识篇
直追GPT-4!李开复Yi-34B新成绩公布:94.08%的胜率超越LLaMA2等主流大模型
在Alpaca经认证的模型类别中,以94.08%的胜率,超越LLaMA2 Chat 70B、Claude 2、ChatGPT!
量子位
2023/12/12
2620
直追GPT-4!李开复Yi-34B新成绩公布:94.08%的胜率超越LLaMA2等主流大模型
性能与效率比拼:开源大语言模型竞逐 | 开源专题 No.76
ChatGLM3 是智谱 AI 和清华大学 KEG 实验室联合发布的新一代对话预训练模型。其主要功能包括更强大的基础模型、更完整的功能支持以及全面开源序列。具体特点如下:
小柒
2024/05/17
2480
性能与效率比拼:开源大语言模型竞逐 | 开源专题 No.76
【2024年必备免费人工智能(AI)API大全】全方位解锁高效开发神器
大家好,我是猫头虎!今天特别为开发者朋友们带来一份 2024年度最全免费AI API清单。💎 无论你是 AI开发新手,还是在寻找更强大工具的资深程序员,这些免费的API都将成为你的得力助手。✅ 它们不仅可以帮你节省成本、提升开发效率,还支持多种场景,包括 自然语言处理、图像生成、语音识别 和 机器学习 等领域,助你轻松玩转AI!📈
猫头虎
2024/11/30
9880
【2024年必备免费人工智能(AI)API大全】全方位解锁高效开发神器
弱智吧:大模型变聪明,有我一份贡献
百度「弱智吧」是个神奇的地方,在这里人人都说自己是弱智,但大多聪明得有点过了头。最近几年,弱智吧的年度总结文章都可以顺手喜提百度贴吧热度第一名。所谓总结,其实就是给当年吧里的弱智发言排个名。
统计学家
2024/04/12
2990
弱智吧:大模型变聪明,有我一份贡献
赶超Gemini Pro,提升推理、OCR能力的LLaVA-1.6太强了
去年 4 月,威斯康星大学麦迪逊分校、微软研究院和哥伦比亚大学研究者共同发布了 LLaVA(Large Language and Vision Assistant)。尽管 LLaVA 是用一个小的多模态指令数据集训练的,却在一些样本上展示了与 GPT-4 非常相似的推理结果。10 月,LLaVA-1.5 重磅发布,通过对原始 LLaVA 的简单修改,在 11 个基准上刷新了 SOTA。
机器之心
2024/02/06
7510
赶超Gemini Pro,提升推理、OCR能力的LLaVA-1.6太强了
《书生·浦语大模型实战营》第5课 学习笔记:LMDeploy 量化部署 LLM 实践
这种说法是片面的,虽然计算机计算定点数和整数比计算浮点数快,但是模型的参数仅仅是以定点或者整数的方式存储,在实际计算时,还需要把定点数和整数反量化为浮点数进行数值计算,再把计算的结果以定点数或整数进行存储,这一步的目的是最大化减少计算精度的损失。
流川疯
2024/07/01
5310
《书生·浦语大模型实战营》第5课 学习笔记:LMDeploy 量化部署 LLM 实践
世界顶尖多模态大模型开源!又是零一万物,又是李开复
模型名为Yi Vision Language(Yi-VL),现已正式面向全球开源。
量子位
2024/01/23
1K0
世界顶尖多模态大模型开源!又是零一万物,又是李开复
数据驱动与 LLM 微调: 打造 E2E 任务型对话 Agent
作者:Thought Agent 社区在对话系统的设计和实现中,传统的基于 Rasa-like 框架的方法往往需要依赖于多个模块的紧密协作,例如我们在之前的文章中提到的基于大模型(LLM)构建的任务型对话 Agent,Thought Agent,其由自然语言理解(NLU)、对话管理(DM)和对话策略(DP)等模块共同协作组成。这种模块化的设计虽然在理论上具有灵活性,但在实践中却带来了诸多挑战,尤其是在系统集成、错误传播、维护更新以及开发门槛等方面。
ThoughtWorks
2024/05/30
9671
数据驱动与 LLM 微调: 打造 E2E 任务型对话 Agent
ChatGLM推出第三代基座大模型在论文阅读、文档摘要和财报分析等方面提升超过50%推理成本降低一半
“ 智谱AI发布了第三代基座大模型ChatGLM3,在模型性能、功能支持、开源序列等方面进行了全面升级。ChatGLM3在语义、数学、推理、代码、知识等不同角度的数据集上测评显示,具有在10B以下的基础模型中最强的性能。同时,ChatGLM3还支持多模态理解、代码增强、联网搜索等新功能,并可支持网络边缘端部署和高效推理。”
技术人生黄勇
2024/07/19
2640
ChatGLM推出第三代基座大模型在论文阅读、文档摘要和财报分析等方面提升超过50%推理成本降低一半
零一万物 Yi 大模型最新评测,英语能力仅次于 GPT-4
继11月初零一万物发布性能优异的 Yi-34B 基座模型后,Yi-34B-Chat 微调模型在11月24日开源上线 ,再度获得全球开发者关注。
AI科技评论
2023/12/12
6920
零一万物 Yi 大模型最新评测,英语能力仅次于 GPT-4
AI大模型应用开发实战(02)-国内外LLM的多模型,强应用
很多同学只知类似ChatGPT或者说对国内的一些比较了解,对国外不了解,所以在这总结。
JavaEdge
2024/08/08
2360
AI大模型应用开发实战(02)-国内外LLM的多模型,强应用
Xinference实战指南:全面解析LLM大模型部署流程,携手Dify打造高效AI应用实践案例,加速AI项目落地进程
Xorbits Inference (Xinference) 是一个开源平台,用于简化各种 AI 模型的运行和集成。借助 Xinference,您可以使用任何开源 LLM、嵌入模型和多模态模型在云端或本地环境中运行推理,并创建强大的 AI 应用。通过 Xorbits Inference,可以轻松地一键部署你自己的模型或内置的前沿开源模型
汀丶人工智能
2024/08/17
4.9K0
Xinference实战指南:全面解析LLM大模型部署流程,携手Dify打造高效AI应用实践案例,加速AI项目落地进程
推荐阅读
LLM资料大全:文本多模态大模型、垂直领域微调模型、STF数据集、训练微调部署框架、提示词工程等
3K0
使用LLaMA-Factory对LLM大模型进行微调!训练专属于你的模型!
1.7K2
92秒 < 75秒?E-EVAL揭露一众大模型不会做小学题目!
3070
奥林匹克竞赛里选最聪明的AI:Claude-3.5-Sonnet vs. GPT-4o?
3730
LLM 大模型学习必知必会系列(五):数据预处理(Tokenizer分词器)、模板(Template)设计以及LLM技术选型
4.3K0
阿里Qwen2正式开源,性能全方位包围Llama-3
4730
NL2SQL基础系列(2):主流大模型与微调方法精选集,Text2SQL经典算法技术回顾七年发展脉络梳理
1.3K0
LLM 大模型学习必知必会系列(一):大模型基础知识篇
3.2K0
直追GPT-4!李开复Yi-34B新成绩公布:94.08%的胜率超越LLaMA2等主流大模型
2620
性能与效率比拼:开源大语言模型竞逐 | 开源专题 No.76
2480
【2024年必备免费人工智能(AI)API大全】全方位解锁高效开发神器
9880
弱智吧:大模型变聪明,有我一份贡献
2990
赶超Gemini Pro,提升推理、OCR能力的LLaVA-1.6太强了
7510
《书生·浦语大模型实战营》第5课 学习笔记:LMDeploy 量化部署 LLM 实践
5310
世界顶尖多模态大模型开源!又是零一万物,又是李开复
1K0
数据驱动与 LLM 微调: 打造 E2E 任务型对话 Agent
9671
ChatGLM推出第三代基座大模型在论文阅读、文档摘要和财报分析等方面提升超过50%推理成本降低一半
2640
零一万物 Yi 大模型最新评测,英语能力仅次于 GPT-4
6920
AI大模型应用开发实战(02)-国内外LLM的多模型,强应用
2360
Xinference实战指南:全面解析LLM大模型部署流程,携手Dify打造高效AI应用实践案例,加速AI项目落地进程
4.9K0
相关推荐
LLM资料大全:文本多模态大模型、垂直领域微调模型、STF数据集、训练微调部署框架、提示词工程等
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档