首页
学习
活动
专区
工具
TVP
发布

深度学习自然语言处理

专栏成员
1033
文章
1264739
阅读量
164
订阅数
Qwen2大模型微调入门实战-命名实体识别(NER)任务
以Qwen2作为基座大模型,通过指令微调的方式做高精度的命名实体识别(NER),是学习入门LLM微调、建立大模型认知的非常好的任务。
zenRRan
2024-07-04
1490
陈丹琦团队发布CharXiv数据集:重新定义图表理解的评估标准
这篇文章的标题是《CharXiv: Charting Gaps in Realistic Chart Understanding in Multimodal LLMs》,由普林斯顿大学、威斯康星大学麦迪逊分校和香港大学的研究人员撰写。文章主要关注多模态大型语言模型(MLLMs)在理解和分析图表方面的能力和局限。
zenRRan
2024-07-04
680
优化AI输出:长度约束下的指令遵循模型研究
这篇文章的标题是《Following Length Constraints in Instructions》,作者是Weizhe Yuan、Ilia Kulikov、Ping Yu、Kyunghyun Cho、Sainbayar Sukhbaatar、Jason Weston和Jing Xu,来自Meta FAIR和纽约大学。文章主要探讨了在人工智能领域,特别是在指令遵循模型中,如何处理和优化输出响应的长度限制问题。
zenRRan
2024-07-04
660
复旦+上海AI Lab提出统一主动检索RAG,减少延迟,提升响应
这篇文章的标题是《Unified Active Retrieval for Retrieval Augmented Generation》,作者是Qinyuan Cheng等人,来自复旦大学和上海人工智能实验室。文章主要研究了在检索增强型生成(Retrieval-Augmented Generation, RAG)中,如何智能地决定何时使用检索来增强大型语言模型(LLMs)的输出。
zenRRan
2024-07-04
910
ENVISIONS:一种无需人类标注的LLM自训练框架
这篇论文提出了一个名为ENVISIONS的环境引导的神经符号自训练框架,旨在解决以下两个问题:
zenRRan
2024-07-04
800
现在LLM 的大小为什都设计成6/7B、13B和130B几个档次?
知乎:真中合欢 链接:https://www.zhihu.com/question/627258986/answer/3262812950
zenRRan
2024-07-04
880
阿里千问团队提出AutoIF,让LLMs学会自我指导,简单有效,性能显著
这篇论文试图解决的问题是如何自动构建高质量的训练数据,以增强大型语言模型(LLMs)遵循复杂自然语言指令的能力。具体来说,论文指出了以下几个关键问题:
zenRRan
2024-07-04
540
Q*框架:通过有意识引导无需微调即可提升LLMs多步推理能力
这篇文章介绍了一个名为Q的框架,旨在改善大型语言模型(LLMs)在多步推理任务中的性能。作者指出,尽管LLMs在许多自然语言任务上表现出色,但在执行多步推理时,由于其自回归生成过程,容易产生错误、幻觉和不一致的陈述。Q框架通过将多步推理视为启发式搜索问题,引入了一个通用、多功能且灵活的框架,通过有意识的规划引导LLMs的解码过程。
zenRRan
2024-07-04
1100
ACL2024 | AI的时空穿越记:大型语言模型共时推理的奇幻之旅!
标题:Living in the Moment: Can Large Language Models Grasp Co-Temporal Reasoning? 录取:ACL2024 Main 论文链接:https://arxiv.org/abs/2406.09072 代码链接:https://github.com/zhaochen0110/Cotempqa 单位:苏州大学、上海人工智能实验室
zenRRan
2024-06-21
1150
突破性进展:简单有效的新型Masked扩散模型革新语言生成,与自回归模型媲美
文章旨在解决扩散模型(diffusion models)在生成高质量图像方面表现出色,但在语言建模(language modeling)任务中与自回归(autoregressive, AR)方法存在显著性能差距的问题。作者指出,尽管扩散模型在生成离散数据(如文本、生物序列和图)方面具有潜力,但在语言建模的性能上,与AR方法相比,先前工作的扩散模型报告了较大的对数似然差距。
zenRRan
2024-06-18
990
BERT的逆袭:揭秘如何在无需额外训练下释放语言模型的生成能力
文章探讨了掩码语言模型(MLMs,例如BERT和DeBERTa)在上下文学习(in-context learning)方面的能力,挑战了普遍观点,即这种能力在这些模型中不会“显现”。作者意图证明,即使没有额外的训练,MLMs也能够展现出与著名的GPT-3相当的生成能力。
zenRRan
2024-06-18
1150
大模型能看懂图片的弦外之音吗?多模态大模型新基准II-Bench
在人工智能飞速发展的今天,大模型的感知能力已经达到了令人惊叹的水平。但是,它们真的能够像人类一样,洞悉图片中的深层含义吗?为了探讨多模型大模型与人类的差距,来自中科院深圳先进院,M-A-P,华中科技大学,零一万物,滑铁卢大学等多家机构联合提出了首个用于评估多模态大模型(MLLMs)图像隐喻理解能力的综合性基准测试II-Bench。
zenRRan
2024-06-18
1300
3万字详细解析清华大学最新综述工作:大模型高效推理综述
大模型由于其在各种任务中的出色表现而引起了广泛的关注。然而,大模型推理的大量计算和内存需求对其在资源受限场景的部署提出了挑战。业内一直在努力开发旨在提高大模型推理效率的技术。本文对现有的关于高效大模型推理的文献进行了全面的综述总结。首先分析了大模型推理效率低下的主要原因,即大模型参数规模、注意力计算操的二次复杂度作和自回归解码方法。然后,引入了一个全面的分类法,将现有优化工作划分为数据级别、模型级别和系统级别的优化。此外,本文还对关键子领域的代表性方法进行了对比实验,以及分析并给出一定的见解。最后,对相关工作进行总结,并对未来的研究方向进行了讨论。
zenRRan
2024-06-07
3050
YOCO:全新Decoder-Decoder架构,内容减少6倍,推理速度提升30倍
这篇论文介绍了一种名为YOCO(You Only Cache Once)的新型解码器-解码器架构,旨在提高大型语言模型的推理效率和性能。
zenRRan
2024-05-29
2220
仅用250美元,Hugging Face技术主管手把手教你微调Llama 3
我们知道,Meta 推出的 Llama 3、Mistral AI 推出的 Mistral 和 Mixtral 模型以及 AI21 实验室推出的 Jamba 等开源大语言模型已经成为 OpenAI 的竞争对手。
zenRRan
2024-05-11
2170
陈丹琦团队提出最新MoE架构Lory
陈丹琦团队提出了一种名为 Lory 的新型混合专家(Mixture-of-Experts,简称 MoE)模型,专门用于自回归语言模型的预训练。以下是对文章内容的详细解读。
zenRRan
2024-05-11
1970
大语言模型对齐的四种方法!
语言模型的对齐在20年就有相关工作,22年谷歌提出基于指令微调的Flan,Openai则提出InstructGPT,ChatGPT,大模型的对齐工作受到广泛的关注。
zenRRan
2024-05-11
1950
全新神经网络架构KAN来了!
比如,200个参数的KANs,就能复现DeepMind用30万参数的MLPs发现数学定理研究。
zenRRan
2024-05-11
6410
深度解析DPO及其变体在多种任务上的表现如何,该如何选择
今天,我要带大家深入了解一项关于大型语言模型(LLMs)的研究,这是由亚利桑那州立大学的Amir Saeidi、Shivanshu Verma和Chitta Baral三位专家带来的前沿成果。他们的最新论文《Insights into Alignment: Evaluating DPO and its Variants Across Multiple Tasks》为我们揭开了直接偏好优化(DPO)及其衍生方法的神秘面纱,这些方法在优化模型以符合人类偏好方面展现出了巨大潜力。
zenRRan
2024-05-11
3950
多模态图表理解新SOTA: TinyChart-3B,兼顾性能和效率
作为一种重要的信息来源,图表(Chart)能够直观地展示数据关系,被广泛地应用于信息传播、商业预测和学术研究中 [1]。随着互联网数据的激增,自动化图表理解受到广泛关注,近期诸如GPT-4V、QwenVL-Max和Gemini-Ultra等通用闭源多模态大模型都展现出一定的图表理解能力,开源模型Chartllama [2]、ChartAst [3]等也在图表问题回答、图表总结和图表转换等任务上取得强大的性能。然而,目前开源的图表理解模型有以下三个局限:(1)模型参数规模庞大,难以部署到应用中。例如Chartllama包含13B参数,无法直接部署到单张小于26 GB显存的消费级显卡上 [4]。(2)模型容易出现数值错误,尤其是回答涉及数值计算的问题时 [3]。(3)模型无法高效处理高清图片,而许多关键信息(比如OCR文本)往往需要在较高分辨率下才清晰可见。并且,考虑到标准视觉Transformer会产生较长的视觉特征序列,直接提高输入分辨率又会带来计算效率问题。
zenRRan
2024-05-11
2390
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档