Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Upstage为何构建小型语言模型

Upstage为何构建小型语言模型

作者头像
云云众生s
发布于 2025-01-06 01:36:15
发布于 2025-01-06 01:36:15
1080
举报
文章被收录于专栏:云云众生s云云众生s

这家韩国公司专注于提供适合使用的语言模型,这些模型比大型语言模型更便宜,也更准确。

译自 Why Upstage Builds Small Language Models,作者 Alex Williams。

拉斯维加斯——Upstage是一家韩国企业AI公司,构建小型语言模型 (SLM) 以帮助公司解决文档处理问题。它最初是一家使用光学字符识别 (OCR) 为韩国大型公司扫描文档的公司。

ChatGPT出现时,客户开始询问Upstage关于大型语言模型 (LLM) 的问题。Upstage 使用其 OCR 功能实现了 95% 的准确率,但客户希望达到 100% 的准确率。因此,Upstage团队开始寻找能够满足获得更高准确率要求的模型。LLM 具有通用性,但较小的模型更适用于文档处理所需的狭窄焦点。

小型语言模型 (SLM) 没有得到太多关注,但它们的功能包括提供公司专用甚至国家专用的LLM。

“客户想要一个适合他们自己使用的语言模型,”联合创始人兼首席产品官在AWS re:Invent的一次采访中说道。“所以这就是我们开始构建小型语言模型的原因之一。所以现在我们正在研究文档处理引擎和大型语言模型。”

模型融合以创建SLM

Upstage,一家AWS生成式AI加速器参与者,使用开源模型,允许在单个GPU上运行。其旗舰模型Solar,与其他在单个GPU上运行的小型模型相当,包括Llama 3.81 B、Mistral Small Instruct 2409和Hugging Face的ExaOne 3.0 7.8B Instruct。

表示Upstage将两个小型LLM的副本合并成一个大型LLM。例如,它会将一个70亿参数的模型集成到一个100亿参数的模型中。“如果我们有一个140亿参数的模型,我们会将其扩展到一个220亿参数的模型,”她说道。“这就是我们最近一直在做的。”

模型融合,一种组合LLM的技术,已在AI社区获得认可。实现包括诸如权重平均之类的实践,这是一种用不同能力的多个独立模型的参数进行合并的方法。根据南洋理工大学、东北大学和中山大学的研究人员8月份发表的一篇论文,模型融合允许数据科学家“在无需访问原始训练数据或昂贵的计算的情况下构建通用模型”。

表示Upstage已经发现使用组合模型方法可以提高其基准测试结果。根据Upstage网站,Solar Pro是一个小型语言模型,与Solar Pro预览版相比,其东亚语言掌握能力提高了64%。

SLM在语言方面的改进反映了它们日益普及的趋势。SLM训练较小的数据集,使其能够灵活地用于Upstage这样的领域中心方法。

表示大型语言模型专注于通用智能。小型语言模型也提供了更窄的焦点。

例如,Upside为泰语构建了一个特定模型。对于泰语,它类似于GPT 4,OpenAI的模型。

SLM的开发成本也低得多。假设,表示,想象一下一个构建成本为10美元的SLM。一个大10倍的LLM可能要花费100美元。

她表示,客户将采用三种选择来部署模型。如果他们是在本地部署模型,他们可以使用Upstage控制台,该控制台通过AWS市场提供API。例如,Solar Pro模型现在已在Amazon Bedrock Marketplace上提供。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2025-01-052,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
使用小型语言模型以预算部署AI
AI 正在颠覆科技行业。关于通用人工智能 (AGI) 及其取代人类的能力的讨论无处不在。无论未来是在十年后还是一年后,许多团队都需要帮助充分利用 AI。
云云众生s
2024/08/26
1060
使用小型语言模型以预算部署AI
为什么红帽认为人工智能的未来是小语言模型
Red Hat 认为 AI 未来在于小型化!企业应拥抱定制化、低成本的 LLM 和 AI Agent。InstructLab 开源项目助力 GenAI 应用,通过指令调优和合成数据,简化 LLM 创建。vLLM 推理服务器和 PyTorch FSDP 加持,让 AI 在 OpenShift 上跑得飞起!
云云众生s
2025/03/17
920
小型语言模型与大型语言模型:2025年对企业的影响
小型语言模型 (SLM) 提供了比大型语言模型 (LLM) 更具成本效益的特定领域解决方案。
云云众生s
2024/11/29
1850
一文读懂主流领先的 SLM(小型语言模型)
在 AI 狂卷的浪潮中,LLM(大型语言模型)无疑成为了整个互联网乃至科技界的焦点所在。以 GPT-3、BERT 等为代表的 LLM 凭借其惊人的语言理解和生成能力,不仅在学术界掀起了巨大的热潮,更因其广泛的应用前景而备受产业界瞩目。
Luga Lee
2024/11/01
4990
一文读懂主流领先的 SLM(小型语言模型)
小语言模型的崛起
大语言模型(LLM)的强大能力在过去几年中有了极大的进步。这些多才多艺的人工智能工具实际上是用大规模数据集训练的深度学习人工神经网络,它能利用数十亿的参数(或机器学习变量)来执行各种自然语言处理(NLP)任务。
云云众生s
2024/03/28
2600
5个小型多模态AI模型及其功能
过去几年,我们见证了大型语言模型(LLM)的迅速发展,其参数数量已激增至数十亿,使其成为分析、摘要和生成文本和图像或创建拟人化聊天机器人等任务的强大工具。
云云众生s
2024/12/04
1990
边缘运行小型语言模型入门指南
在 Jetson Orin 开发套件上设置 Ollama 的方法——配置跨云和边缘的联合语言模型的关键步骤。
云云众生s
2024/07/25
1720
边缘运行小型语言模型入门指南
Eir-8B 专为医学领域打造的先进大语言模型 !
近年来人工智能(AI)和大型语言模型(LLMs)在自然语言处理(NLP)任务上取得了显著的进步,大大提升了各种功能的使用效率,如客户服务、语言翻译和内容生成。在这个背景下,AI在多个领域,尤其是医疗领域的辅助作用具有尤为重要的意义。
AIGC 先锋科技
2024/09/29
1910
Eir-8B 专为医学领域打造的先进大语言模型 !
Mistral 大语言模型
Mistral AI 是一家销售人工智能产品的法国公司。它由 Meta Platforms 和 Google DeepMind 的前员工于 2023 年 4 月创立。该公司于 2023 年 10 月筹集了 3.85 亿欧元,2023 年 12 月估值超过 20 亿美元
霍格沃兹测试开发Muller老师
2024/09/03
1650
牛津大学提出 Ensemble SuperICL ,超越 BaselineEn在 自然语言理解任务中表现卓越 !
语义学习(ICL)是一种有效的方法,可以将大型语言模型(LLM)调整到执行特定任务,而无需通过微调更新模型参数(Brown等人,2020年)。它涉及用少量的训练示例 Prompt LLM,并提供一个测试输入,使LLM能够从提供的上下文中推理出正确的输出。
AIGC 先锋科技
2024/11/27
1030
牛津大学提出 Ensemble SuperICL ,超越 BaselineEn在 自然语言理解任务中表现卓越 !
联邦语言模型:边缘SLM+云LLM
联邦语言模型是一个利用了两种人工智能趋势的想法:小型语言模型 (SLM) 和大型语言模型 (LLM) 能力的提升。
云云众生s
2024/07/14
4370
联邦语言模型:边缘SLM+云LLM
卷起来!Dr. LLaMA:通过生成数据增强改进特定领域 QA 中的小型语言模型,重点关注医学问答任务
大家好,最近突然发现了一篇在专门应用于医学领域的LLaMA,名为Dr.LLaMA(太卷了太卷了),就此来分享下该语言模型的构建方法和最终的性能情况。
zenRRan
2023/08/22
6000
卷起来!Dr. LLaMA:通过生成数据增强改进特定领域 QA 中的小型语言模型,重点关注医学问答任务
当OCR遇见大语言模型:智能文本处理的进化之路
在数字化浪潮中,我们每天都会遇到这样的场景:用手机拍摄文件自动转换文字、扫描古籍进行电子化存档、从商品包装提取成分信息...这些看似简单的操作背后,是OCR(光学字符识别)技术数十年发展的结晶。但当这项成熟技术遇到新兴的大语言模型(LLM),会碰撞出怎样的火花?本文将通过技术解析和代码实例,为你揭示这场跨领域融合带来的革命性进步。
快瞳科技
2025/02/19
4120
当OCR遇见大语言模型:智能文本处理的进化之路
性能与速度的双重突破 | 预训练大语言模型的高效加速与LLM-to-SLM解码优化!
近期大型语言模型(LLMs)的广泛应用使得自然语言生成(NLG)领域的各种应用成为可能,从机器翻译和代码补全等到通用聊天机器人OpenAI。它们的性能是计算能力、数据集大小和参数数量的函数等);只有在大型规模下才会出现新兴的能力,这些发现使得大型模型变得更加流行,无论是仅在解码器上的模型还是编码器-解码器网络等。
集智书童公众号
2024/04/12
8680
性能与速度的双重突破 | 预训练大语言模型的高效加速与LLM-to-SLM解码优化!
2024开年,看一看:大型语言模型(LLM)在过去一年多的发展!(按月总结)
2024年开年,很多小伙伴都已经回到了自己的工作岗位,并开始规划未来一年的工作。今天作者给大家梳理了2023年至今有关大模型的发展趋势。希望对大家有一些帮助。
ShuYini
2024/02/22
1.3K0
2024开年,看一看:大型语言模型(LLM)在过去一年多的发展!(按月总结)
Youtu Lab, 腾讯, SJTU, BAAI, ECNU 联合调查高效的多模态大型语言模型报告!
大规模预训练是人工智能领域的一种领先方法,通用型模型(如大型语言模型和多模态模型)已经在许多任务中超过了专业深度学习模型的表现。大型语言模型(LLM)的卓越能力激发了人们将它们与其他基于模态的模型融合以增强多模态能力的努力。这一概念得到了诸如OpenAI的GPT-4V[1]和谷歌的Gemini[2]等专有模型显著成功的进一步支持。因此,多模态大型语言模型(MLLM)应运而生,包括mPLUG-Owl系列[3, 4],InternVL[5],EMU[6],LLaVA[7],InstructBLIP[8],MiniGPT-v2[9]和MiniGPT-4[10]。这些模型通过有效利用每种模态的预训练知识,避免了从零开始训练的计算成本。MLLM继承了LLM的认知能力,展示了许多出色的特性,如强大的语言生成能力和迁移学习能力。此外,通过与其他基于模态的模型建立强烈的表征联系和对齐,MLLM可以处理来自多种模态的输入,显著拓宽了它们的应用范围。
AIGC 先锋科技
2024/07/31
3960
Youtu Lab, 腾讯, SJTU, BAAI, ECNU 联合调查高效的多模态大型语言模型报告!
港科技提出 FedCoLLM:一种用于大、小语言模型的参数高效联合共调优框架 !
大语言模型(LLMs)的出现极大地改变了人工智能的格局。特别是像GPT-4这样的尖端LLM由于在自然语言生成任务上表现出卓越的性能,而引起了广泛关注。这一发展推动了高性能开源LLM的发布,如LaMDA [18],OPT [21],极大地促进了LLM技术的商业应用。尽管LLM在各种通用NLP任务中取得了广泛的成功,但它们在特定领域应用中仍面临一些限制。主要挑战包括:
AIGC 先锋科技
2024/12/19
2440
港科技提出 FedCoLLM:一种用于大、小语言模型的参数高效联合共调优框架 !
基于 LEGO :重塑自然语言处理,融合 LLM 与 SLM 优势 !
大型语言模型(LLMs)在自然语言处理(NLP)领域取得了重大进展,其出色的泛化能力使其能够适应各种 Query 和任务。这些模型通常使用由高质量指令数据Gupta等人(2022年)提取的大规模、多样化的数据集进行微调。
未来先知
2025/01/07
1360
基于 LEGO :重塑自然语言处理,融合 LLM 与 SLM 优势 !
【论文复现】语言模型中的多模态链式推理
本文主要对2023一篇论文《Multimodal Chain-of-Thought Reasoning in Language Models》主要内容进行介绍。
Eternity._
2024/11/23
3100
【论文复现】语言模型中的多模态链式推理
语言模型中的多模态链式推理
本文主要对2023一篇论文《Multimodal Chain-of-Thought Reasoning in Language Models》主要内容进行介绍。
Srlua
2024/12/01
4270
语言模型中的多模态链式推理
推荐阅读
相关推荐
使用小型语言模型以预算部署AI
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档