暂无搜索历史
OpenAI 的 Sora、Stability AI 的 Stable Video Diffusion 以及许多其他已经发布或未来将出现的文本生成视频模型,是继...
本⽂介绍由清华等⾼校联合推出的⾸个开源的⼤模型⽔印⼯具包 MarkLLM。MarkLLM 提供了统⼀的⼤模型⽔印算法实现框架、直观的⽔印算法机制可视化⽅案以及系...
随着ChatGPT的发布,大语言模型的关注度和数量都在不断上升,它引领了人类进入了大模型时代,并且随着一轮一轮的迭代,最新模型已经进化到了GPT-4o。在众多大...
对于非结构化文本,大模型 (LLM) 比较擅长回答简单(单跳)问题。然而,随着问题的复杂性增加,LLM 的性能会下降。本文作者认为其主要原因是,大模型在理解复杂...
面对快速生成的新知识,大模型存储的预训练知识往往具有滞后性。为了能够让大模型具备最新的知识,当前主要方法是对新的知识文档进行持续预训练,然而LLM在文档中提取知...
LLM-based Agent,已经不再需要人类监督者的帮助,开始实现「自我进化」!
数字化时代,大模型以其卓越的数据处理和智能决策能力,当前应用已经渗透至了各行各业。那么,今天给大家盘点了几个比较有趣的大模型(LLMs)应用场景,其中主要包括招...
Transformer模型虽然在NLP领域取得了巨大成功,但其Self-Attention机制在处理长序列时会导致计算和内存需求急剧增加,这限制了其在资源受限环...
Attention机制是大模型的核心组件,但该机制并不包含顺序信息,需要进行位置编码。当前位置编码(PE)主要是通过Token计数来定位,这限制了其泛化能力。例...
随着大模型应用的不断推广,面对不同应用场景模型的定制化需求也不断增涨。但参数高效微调 (PEFT) 方法,比如LoRA及其变体会产生大量的参数存储和传输成本。为...
在大模型实际部署落地的过程中,如何赋予大模型持续学习的能力是一个至关重要的挑战。这使其能够动态适应新的任务并不断获得新的知识。大模型的持续学习主要面临两个重大挑...
大模型训练需要高质量数据集,这对于代码生成任务来说尤其重要。为此本文提出了一种新型大规模代码指令数据集标注方法:AIEV-INSTRUCT,得到了一个高质量代码...
在当今快速发展的金融领域,数据分析和决策制定的重要性日益凸显。随着人工智能技术的不断进步,尤其是大模型(LLMs)的出现,金融专业人士和普通用户都面临着一个共同...
在 CV 领域,研究者一直把李飞飞等人创建的 ImageNet 奉为模型在下游视觉任务中能力的试金石。
键值 (KV) 缓存能够显著提升Transformer大模型的解码速度。但是当面对长序列的时候,键值 (KV) 缓存需要大量的内存资源。当前减少键值 (KV) ...
手语对于听障人士的交流至关重要。然而,手语数据的获取和处理非常复杂,这限制了手语生成模型的发展。为推动手语生成领域的发展,本文作者提出了一个多语种手语数据集Pr...
本文深入探讨了当前主流大模型高效微调方法——低秩适应(LoRA)。在代码编程、数学推理两个领域,对比了LoRA和全微调在不同数据规模下的性能。结果表明:LoRA...
5 月 14 日,腾讯宣布旗下混元文生图大模型全面升级并全面开源,目前已在 Hugging Face 平台及 GitHub 上发布,包含模型权重、推理代码、模型...
大模型(LLM)主要依赖于分词器(Tokenizer )将文本转换为Tokens,目前主流开源大模型基本上都是基于英文数据集训练得到的,然而,此类模型当处理其它...
大模型数学推理评测基本上都绕不开GSM8k测试基准,当前很多大模型在该数据集上都展现出较强的性能。然而,本文作者怀疑此类模型在训练过程种可能包含了与测试题目相似...
暂未填写公司和职称
暂未填写学校和专业
暂未填写个人网址