腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
自然语言处理(NLP)论文速递
专栏成员
举报
343
文章
429723
阅读量
66
订阅数
订阅专栏
申请加入专栏
全部文章(343)
模型(193)
数据(112)
性能(81)
NLP 服务(67)
神经网络(44)
编程算法(39)
https(34)
人工智能(33)
网络安全(33)
架构(33)
深度学习(32)
LLM(32)
论文(29)
机器学习(28)
开源(26)
框架(25)
gpt(24)
系统(22)
测试(20)
内存(16)
算法(15)
优化(15)
机器翻译(13)
google(13)
github(12)
数学(12)
机器人(11)
效率(11)
python(10)
git(10)
工具(10)
设计(10)
meta(9)
工作(9)
基础(9)
网络(9)
agent(8)
prompt(8)
解决方案(8)
视频(8)
LoRa(8)
腾讯云测试服务(6)
监督学习(6)
pytorch(6)
安全(6)
迁移(6)
教育(6)
openai(6)
token(6)
函数(6)
排序(6)
html(5)
腾讯云开发者社区(5)
学习方法(5)
chatgpt(5)
部署(5)
代理(5)
华为(5)
音频(5)
知识图谱(4)
金融(4)
存储(4)
强化学习(4)
tcp/ip(4)
self(4)
编码(4)
服务(4)
技巧(4)
量化(4)
内核(4)
源码(4)
自然语言处理(4)
网站(3)
医疗(3)
企业(3)
http(3)
推荐系统(3)
迁移学习(3)
智能客服机器人(3)
程序(3)
翻译(3)
管理(3)
开发(3)
配置(3)
自动驾驶(2)
数据挖掘(2)
c++(2)
数据库(2)
游戏(2)
分布式(2)
自动化(2)
缓存(2)
大数据(2)
bit(2)
lstm(2)
nlp(2)
sequence(2)
ssm(2)
word2vec(2)
表格(2)
布局(2)
产品(2)
服务器(2)
计算机科学(2)
进程(2)
连接(2)
苹果(2)
搜索(2)
腾讯(2)
硬件(2)
语音(2)
主机(2)
字符串(2)
最佳实践(2)
区块链(1)
数字货币(1)
java(1)
javascript(1)
css(1)
jquery(1)
oracle(1)
ide(1)
搜索引擎(1)
linux(1)
文件存储(1)
NAT 网关(1)
海外加速(1)
语音合成(1)
图像处理(1)
容器(1)
无人驾驶(1)
卷积神经网络(1)
正则表达式(1)
面向对象编程(1)
二叉树(1)
单元测试(1)
微信(1)
windows(1)
物联网(1)
架构设计(1)
nat(1)
raft(1)
联邦学习(1)
汽车(1)
acl(1)
amazon(1)
auto(1)
aws(1)
bi(1)
block(1)
cas(1)
chat(1)
code(1)
embedding(1)
gpu(1)
image(1)
io(1)
ipc(1)
key(1)
layer(1)
less(1)
math(1)
matrix(1)
modulo(1)
ode(1)
patch(1)
t4(1)
twitter(1)
vector(1)
wiki(1)
wikipedia(1)
博客(1)
操作系统(1)
登录(1)
递归(1)
对象(1)
高性能(1)
教程(1)
科技(1)
可视化(1)
浏览器(1)
路由(1)
前端(1)
生命周期(1)
事件(1)
手机(1)
树形结构(1)
调试(1)
同步(1)
统计(1)
通信(1)
芯片(1)
压缩(1)
异常(1)
移动端(1)
隐私(1)
语法(1)
原型(1)
终端(1)
搜索文章
搜索
搜索
关闭
模型实操 | 从零开始,用英伟达T4、A10训练小型文生视频模型
t4
架构
模型
视频
数据
OpenAI 的 Sora、Stability AI 的 Stable Video Diffusion 以及许多其他已经发布或未来将出现的文本生成视频模型,是继大语言模型 (LLM) 之后 2024 年最流行的 AI 趋势之一。
ShuYini
2024-07-04
141
0
清华等| 推出首个开源大模型水印工具包:MarkLLM,10种水印算法
开源
可视化
模型
设计
算法
本⽂介绍由清华等⾼校联合推出的⾸个开源的⼤模型⽔印⼯具包 MarkLLM。MarkLLM 提供了统⼀的⼤模型⽔印算法实现框架、直观的⽔印算法机制可视化⽅案以及系统性的评估模块,旨在⽀持研究⼈员⽅便地实验、理解和评估最新的⽔印技术进展。通过 MarkLLM,作者期望在给研究者提供便利的同时加深公众对⼤模型⽔印技术的认知,推动该领域的共识形成,进⽽促进相关研究的发展和推⼴应⽤。
ShuYini
2024-06-19
415
0
长文梳理!近年来GPT系列模型的发展历史:从GPT-1到GPT-4o(前世、今生)
gpt
模型
数据
性能
音频
随着ChatGPT的发布,大语言模型的关注度和数量都在不断上升,它引领了人类进入了大模型时代,并且随着一轮一轮的迭代,最新模型已经进化到了GPT-4o。在众多大语言模型中,GPT系列因其代表性而备受关注,其发展历程和技术革新值得深入探讨。那么今天带大家回顾一下近年来GPT系列模型的发展。【参考中国人民大学《大语言模型》】
ShuYini
2024-06-19
1.1K
0
ACL 2024 | 构建超关系知识图谱(KG),增强大模型多跳/Multi-hop QA问答能力!
知识图谱
acl
架构
模型
性能
对于非结构化文本,大模型 (LLM) 比较擅长回答简单(单跳)问题。然而,随着问题的复杂性增加,LLM 的性能会下降。本文作者认为其主要原因是,大模型在理解复杂问题和从原始文本中筛选、聚合非结构化信息过程中出现了性能问题。
ShuYini
2024-06-19
508
0
港大&腾讯 | 提出SELF-TUNING学习框架,让LLM自学获取新知识,表现出色!
腾讯
LLM
self
框架
模型
面对快速生成的新知识,大模型存储的预训练知识往往具有滞后性。为了能够让大模型具备最新的知识,当前主要方法是对新的知识文档进行持续预训练,然而LLM在文档中提取知识时,往往会面临困难。
ShuYini
2024-06-19
175
0
复旦 | 推出通用大模型Agent平台:AgentGym,提供一条龙服务!
agent
服务
基础
模型
数据
LLM-based Agent,已经不再需要人类监督者的帮助,开始实现「自我进化」!
ShuYini
2024-06-19
178
0
分享几个有趣的大模型(LLMs)应用场景,涉及金融分析、物联网、招聘、战术分析等
金融
物联网
代理
模型
数据
数字化时代,大模型以其卓越的数据处理和智能决策能力,当前应用已经渗透至了各行各业。那么,今天给大家盘点了几个比较有趣的大模型(LLMs)应用场景,其中主要包括招聘面试、代码精细化、物联网感知、金融决策、战术分析、假新闻检测、检索QA问答等。这些有趣的应用不仅展现了大模型的多面性,更预示着人工智能在未来社会中的无限可能。本文论文获取,回复:LLM场景
ShuYini
2024-06-11
357
0
KAIST-AI | 提出Block Transformer架构,大幅提升推理速度和内存效率,20倍增益!
内存
效率
block
架构
模型
Transformer模型虽然在NLP领域取得了巨大成功,但其Self-Attention机制在处理长序列时会导致计算和内存需求急剧增加,这限制了其在资源受限环境中的实用性。为此,本文作者提出了Block Transformer架构,通过分层的全局到局部建模方法,有效地平衡了全局上下文的捕获和局部依赖关系,减少了推理过程中的内存访问和计算需求,从而实现了高效的语言模型推理。实验结果表明,与一般的Transformer相比,在推理吐量上最高可实现了20倍的增益。
ShuYini
2024-06-11
194
0
Meta| 提出上下文位置编码:CoPE,解决当前模型「普遍存在的问题」,含GPT-4o!
gpt
meta
编码
模型
性能
Attention机制是大模型的核心组件,但该机制并不包含顺序信息,需要进行位置编码。当前位置编码(PE)主要是通过Token计数来定位,这限制了其泛化能力。例如无法针对特定的句子、名词进行定位。以下是在Kimi上测试结果,明显统计错误!
ShuYini
2024-05-31
809
0
恐怖如斯!GSU | 提出VB-LoRA,仅需LoRA参数的0.4%,就超越了LoRA微调效果
存储
基础
模型
性能
LoRa
随着大模型应用的不断推广,面对不同应用场景模型的定制化需求也不断增涨。但参数高效微调 (PEFT) 方法,比如LoRA及其变体会产生大量的参数存储和传输成本。为此,本文提出了一种超级参数高效微调方法:VB-LoRA,该方法采用“分而共享(divide-and-share)”范式,通过向量库进行全局参数共享,在保证模型性能的同时,实现了极高的参数效率。在对 Llama2-13B 模型进行微调时,VB-LoRA 仅使用了 LoRA 存储参数的 0.4%就超过了LoRA微调效果,可见实力强悍。
ShuYini
2024-05-30
219
0
哈工大 | 提出共享Attention框架:SAPT,提升LLM持续学习性能
模型
性能
LLM
迁移
框架
在大模型实际部署落地的过程中,如何赋予大模型持续学习的能力是一个至关重要的挑战。这使其能够动态适应新的任务并不断获得新的知识。大模型的持续学习主要面临两个重大挑战,分别是灾难性遗忘和知识迁移。灾难性遗忘是指模型在学习新任务时,会忘记其已掌握的旧任务。知识迁移则涉及到如何在学习新任务时有效地应用旧任务的知识来提升新任务学习的效果。【作者主页:https://circle-hit.github.io】
ShuYini
2024-05-30
226
0
牛叉!UConn | 提出代码生成大模型:AutoCoder,性能超越GPT-4o!
数据
性能
开源
gpt
模型
大模型训练需要高质量数据集,这对于代码生成任务来说尤其重要。为此本文提出了一种新型大规模代码指令数据集标注方法:AIEV-INSTRUCT,得到了一个高质量代码指令数据集:AutoCoder-AIEV-Instruct,基于该数据集,作者训练了代码生成大模型:AutoCoder,该模型在HE基准测试集上的pass@1指标超过了GPT-4 Turbo和GPT-4o,并且还提供了一个可自动安装外部依赖包的代码解释器。
ShuYini
2024-05-29
704
0
开源金融领域AI Agent平台:FinRobot,利用多源LLMs进行高级金融分析、市场预测
金融
开源
agent
模型
算法
在当今快速发展的金融领域,数据分析和决策制定的重要性日益凸显。随着人工智能技术的不断进步,尤其是大模型(LLMs)的出现,金融专业人士和普通用户都面临着一个共同的挑战:如何有效地利用这些先进的技术来提高分析的准确性和决策的质量。
ShuYini
2024-05-28
905
0
细数:大模型评估基准的「七宗罪」
测试
工具
论文
模型
性能
在 CV 领域,研究者一直把李飞飞等人创建的 ImageNet 奉为模型在下游视觉任务中能力的试金石。
ShuYini
2024-05-28
207
0
麻省理工(MIT) | 提出跨层Attention,减少Transformer大模型键值(KV)缓存,加快LLM推理!
内存
LLM
缓存
架构
模型
键值 (KV) 缓存能够显著提升Transformer大模型的解码速度。但是当面对长序列的时候,键值 (KV) 缓存需要大量的内存资源。当前减少键值 (KV) 缓存的两个主要方法分别为:Multi-Query Attention(MQA)和Grouped-Query Attention (GQA)。这两种方法主要是修改了Attention块,使得多头请求头共享单个KV头,从而大大减少了不同KV的数量。
ShuYini
2024-05-28
351
0
RU | 提出手语生成大模型:SignLLM,支持8种手语生成,且均达到SOTA!
工具
模型
视频
数据
性能
手语对于听障人士的交流至关重要。然而,手语数据的获取和处理非常复杂,这限制了手语生成模型的发展。为推动手语生成领域的发展,本文作者提出了一个多语种手语数据集Prompt2Sign,并以此训练了手语生成大模型:SignLLM,该模型可并行生成多种手语,同时理解复杂自然语言输入。实验结果表明,SignLLM在8种手语的SLP任务上达到了最先进的性能,展示了其在多语种手语生成上的强大实力。
ShuYini
2024-05-28
805
0
学的少,忘的少!UC | LoRA最新研究:总结LoRA最佳实践,实现LLMs高效微调!
LoRa
模型
数据
数学
最佳实践
本文深入探讨了当前主流大模型高效微调方法——低秩适应(LoRA)。在代码编程、数学推理两个领域,对比了LoRA和全微调在不同数据规模下的性能。结果表明:LoRA在大多数情况下性能不如全微调,但作为一种正则化手段,LoRA能够保证在源领域上的性能(遗忘问题),并减少对新任务的学习成本。最后作者还给出了使用LoRA的最佳实践,来方便大家更有效地利用LoRA进行大模型微调。
ShuYini
2024-05-28
518
0
全面开源,免费商用!腾讯| 发布混元文生图大模型,采用业内首个中文原生DiT架构!
算法
腾讯
开源
架构
模型
5 月 14 日,腾讯宣布旗下混元文生图大模型全面升级并全面开源,目前已在 Hugging Face 平台及 GitHub 上发布,包含模型权重、推理代码、模型算法等完整模型,可供企业与个人开发者免费商用。
ShuYini
2024-05-17
2.1K
0
剑桥 | 提出Hypernetwork,解耦LLMs分词器(Tokenizer),提高LLMs跨语言处理性能!
迁移
模型
网络
性能
字符串
大模型(LLM)主要依赖于分词器(Tokenizer )将文本转换为Tokens,目前主流开源大模型基本上都是基于英文数据集训练得到的,然而,此类模型当处理其它语言时效率会降低。为此,为了能够将原始 LM 分词器替换为任意分词器,而不会降低性能,本文作者定义了一个新挑战:零样本分词器迁移(ZeTT,Zero-Shot Tokenizer Transfer),训练了一个适配各种模型的超网络(Hypernetwork),解耦LLM分词器(Tokenizer),增强LLM跨语言处理性,实验表明:在跨语言和编码任务上可媲美原始模型。
ShuYini
2024-05-17
252
0
数据污染迫在眉睫!GSM8k测试基准 将不再可靠,Mistral、Phi等系列模型出现过拟合!
测试
模型
数据
数学
性能
大模型数学推理评测基本上都绕不开GSM8k测试基准,当前很多大模型在该数据集上都展现出较强的性能。然而,本文作者怀疑此类模型在训练过程种可能包含了与测试题目相似的问题,而不是模型真正具备推理能力。
ShuYini
2024-05-17
275
0
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
立即查看
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档