Loading [MathJax]/jax/output/CommonHTML/config.js
部署DeepSeek模型,进群交流最in玩法!
立即加群
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >LLM“力大砖飞”的时代,OCR专有模型还有意义吗?

LLM“力大砖飞”的时代,OCR专有模型还有意义吗?

原创
作者头像
合合技术团队
发布于 2025-05-14 02:36:58
发布于 2025-05-14 02:36:58
1800
举报

从 DeepSeek R1 的发布,到 Agent 开发不断拓展边界,大模型(LLM)掀起了新一轮的“破圈型”关注浪潮,国内外 LLM 企业纷纷开启“竞赛模式”,AI 应用深入到生活与生产,正在改变着各行各业的传统运转方式。

在 LLM 大行其道的今天,我们面对着这样一个问题:在 LLM “力大砖飞”能解决很多任务的情况下,OCR 这一类“小模型”仍然有存在的意义和必要性吗?为什么业界的前沿技术团队还在投入研究专有模型?

本文将从这个问题出发,探讨文字识别和文档处理的技术发展,大模型与小模型之间的竞争或协作关系。

如何区分大模型和小模型?

首先,我们先来看一下大模型和小模型的定义。

严格来说,大模型与小模型之间并没有绝对意义上的区分标准。根据学界和行业目前的普遍认知,从参数大小的角度,我们将参数小的模型称为小模型,比如小于 1B,或者小于 0.1B 的模型。而从专用性的角度出发,做专有任务的模型即是小模型,例如 OCR 模型、人脸识别模型、语音识别模型;而做通识性、泛化性任务的是大模型,比如能解决翻译、摘要、总结、各种逻辑数学问题的泛化型模型。

简而言之,小模型通常指的是参数数量较少、训练数据规模相对有限的模型,通常用于专有场景,而大模型是包含数亿到数千亿个参数的深度学习模型,拥有极高的表达能力,能够理解和生成复杂的自然语言文本,支持多种任务,包括文本生成、翻译、问答和代码生成等。

大模型也能完成 OCR 任务,为什么我们还需要专有模型?

OCR 现在仍是一项重要任务。此前,欧洲的AI独角兽公司发布 OCR 模型,受到了业界的广泛关注。

其原因在于,OCR 是信息处理的关键第一步。OCR 面向的是文字处理,而文字是人类信息和知识的高密度载体。历史上,人类以记录文字为起点,开始传承先人经验,发展形成文明;而 AI 时代,OCR 负责的工作是将物理世界的文档、图像转化成电子信息的第一步,从“人类可读”走向“机器可读”,进而才有可能实现信息抽取、RAG 知识问答、大模型训练语料、Agent 应用。

现在,不少通用 LLM 也能完成 OCR 任务,但与专有模型仍然存在本质上的区别。以 DeepSeek 为例,DeepSeek 本身并不支持多模态,而是通过外接一个 OCR 小模型的方式来实现多模态的能力。当前,大模型在泛化任务上有更强的能力,但在垂直领域的专业任务上无法实现专有模型的效果,在生产环境下大模型的精细程度不能满足需求。

另外,大模型的幻觉问题是另一项制约。从原理上来说,ViT 等专业模型的核心是对图像进行重建,忠实于原图像,不会产生幻觉问题;而视觉大模型的核心逻辑是根据图像特征,补全下一部分最有可能出现的文字或信息,它输出的是最大概率的结果,结果与其训练数据、输入图像特征都存在一定关系,无法避免大模型幻觉,尽管可以通过调整 prompt 降低幻觉问题的出现频率,但根据底层机理,不可能做到完全限制。在准确度要求极高的生产领域,专有模型的“可靠性”仍然重要。

专有模型表格解析案例
专有模型表格解析案例

小模型会被大模型替代吗?

大模型由于庞大的参数量和海量训练数据,通常有更高的精度和更强的泛化能力。在处理自然语言任务时具有极高的准确性和上下文理解能力。在多任务处理和复杂问题上,大模型的表现一般优于小模型。

相比之下,小模型通常专注于特定的任务或领域。在特定的场景下,由于数据的针对性以及高效率的推理速度,往往表现超过大模型,比如文字识别、语音识别、表情识别等。

面对“小模型会被大模型替代吗?”这个问题,业界共识一般认为:大模型和小模型将长期共存,各自负责其擅长的领域。

大模型在成本收益比、专有领域、稳定性、可靠性等方面存在问题,但其强大的泛化能力和处理复杂任务的优势,使其在更广泛的领域展现出巨大潜力。小模型同时以其高效、灵活的特点,在特定场景和资源受限的环境中发挥着不可替代的作用。所以1+1,大模型串联小模型,小模型在感知领域高效高精准获得环境信息,大模型在认知和决策领域根据小模型获得的信息进行复杂任务的推理和决策。

大小模型的协同方式

大小模型之间的协同是能力上的合作。AI 应用包括感知、认知、决策执行阶段,小模型完成的是感知阶段,将信息转化为电子化形式,让机器能看到外界的信息,大模型则负责逻辑性处理,这是两者协作的基础分工。

大小模型协同框架旨在整合大模型的广泛知识和小模型的专业能力。要基于规划、分工与协作机制,实现知识融合,将大模型的基础知识、能力与小模型的专用能力有机结合。

以大模型最快落地的应用方向 RAG 为例,大模型存在幻觉、知识时效性、领域知识不足及数据安全问题的局限性。RAG(Retrieval Augmented Generation,检索增强生成)技术正是在这样的背景下应运而生,成为了当前大模型应用的重要技术方向,文档问答类 LLM RAG 应用也被认为是 AI 2.0 时代最早落地的应用类型之一。

RAG 技术使开发者能够在无需为每个特定任务重新训练或微调大模型的情况下,通过连接外部文档,为模型注入额外的非参数化知识,从而显著提升其在专业领域的能力和回答精度。而在这个流程中将外部文档转化为正确阅读顺序的、正确结构展示、精准的文字提取的模块则是文档解析小模型。

文档解析小模型的本质在于将格式各异、版式多样、元素多种的文档数据,包括段落、表格、标题、公式、多列、图片等文档区块,转化为阅读顺序正确的字符串信息,支持电子档和扫描档。

RAG 通过检索文档解析小模型获得的文档信息,使大模型能够参考这些信息,从而生成更具可信度和准确性的答案。这种方法不仅增强了生成内容的准确性,还提高了模型在应对特定领域知识和动态信息时的适应能力。这是一个典型的协同案例,最终实现性能跃升,取得 1+1>2 效果。

未来大小模型的协同可能在越来越多的场景落地,再扩展来说,大模型与小模型、工具的整合,也就是 Agent,比如最近爆火的 Manus,可能为应用落地带来新的想象空间。

💡欢迎后台私信小助手免费在线体验 OCR 专有模型~

来交流群与我们共同探讨技术发展与 AI 应用的可能性,领取更多福利、大模型应用技术学习材料。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
从OCR到Document Parsing,AI时代的非结构化数据处理发生了什么改变?
在这个时代的每一天,无论是个人处理账单,还是企业处理合同、保险单、发票、报告或成堆的简历,我们都深陷在海量的非结构化数据之中。这类数据不像整齐排列的数据库表格那样规整,它们形态各异、格式自由,信息“藏”在复杂的文本、表格和布局里。
合合技术团队
2025/06/09
1730
从OCR到Document Parsing,AI时代的非结构化数据处理发生了什么改变?
LLMOps+DeepSeek:大模型升级一体化运维
蛇年伊始,DeepSeek凭借其卓越表现火爆出圈,让AI大模型瞬间成为街头巷尾热议的焦点,也让大众重新燃起对AGI(通用人工智能)“平民化”的信心,DeepSeek通过先进的模型架构,带来的高效率与低成本优势,加快了应用场景的百花齐放。
嘉为蓝鲸
2025/02/21
9090
LLMOps+DeepSeek:大模型升级一体化运维
RAG+AI工作流+Agent:LLM框架该如何选择,全面对比MaxKB、Dify、FastGPT、RagFlow、Anything-LLM,以及更多推荐
MaxKB = Max Knowledge Base,是一款基于 LLM 大语言模型的开源知识库问答系统,旨在成为企业的最强大脑。它能够帮助企业高效地管理知识,并提供智能问答功能。想象一下,你有一个虚拟助手,可以回答各种关于公司内部知识的问题,无论是政策、流程,还是技术文档,MaxKB 都能快速准确地给出答案:比如公司内网如何访问、如何提交视觉设计需求等等
汀丶人工智能
2024/08/05
12.2K0
RAG+AI工作流+Agent:LLM框架该如何选择,全面对比MaxKB、Dify、FastGPT、RagFlow、Anything-LLM,以及更多推荐
一文读懂 LLM 可观测性
Hello folks,我是 Luga,今天我们继续来聊一下人工智能(AI)生态领域相关的技术 - LLM (大型语言模型)可观测性 ,本文将继续聚焦在针对 LLM 的可观测性进行解析,使得大家能够了解 LLM 的可观测性的必要性以及其核心的生态体系知识。
Luga Lee
2024/01/17
8210
一文读懂 LLM 可观测性
LLMOps实战(一):DeepSeek+RAG 协同构建企业知识库全流程指南
首先解释下什么是 LLMOps,Large Language Model Operations是专注于大语言模型全生命周期管理的工程实践,涵盖从模型开发、部署、监控到持续优化的系统性流程。其核心目标是提升LLM应用的可靠性、效率与可控性,解决大模型在实际落地中的技术与管理挑战。
范赟鹏
2025/03/24
4.5K0
LLM 大语言模型定义以及关键技术术语认知
LLM(Large Language Models)是基于 Transformer 架构(可以理解为不同寻常的大脑)的深度神经网络,通过海量文本数据训练获得语言理解和生成能力。其核心特征包括:
山河已无恙
2025/03/03
1831
LLM 大语言模型定义以及关键技术术语认知
一个暴论的结论
在《说个暴论》一文中,我们揭露了当前关于大模型行业的一些乱象和痛点问题,其中重点提到了当前企业私有训练,不能调用外部 API 的情况下,可以利用开源 LLM+RAG 部署的方式,但这种方式的最大痛点是硬件成本和维护成本。而如果能调用 API,完全不用管有几台服务器,可以在任意时间,随意拉高并发量。
腾讯云开发者
2024/12/06
1400
一个暴论的结论
嘉为蓝鲸OpsPilot 深度集成 DeepSeek 等大模型,开启智能运维新境界!
在数字化转型的浪潮中,运维工作正面临着复杂度高、效率低、响应慢等挑战。以Open AI 、DeepSeek为领导者的大模型层出不穷,在此背景下,OpsPilot作为新一代智能运维支撑平台,通过深度集成DeepSeek等大语言模型(LLM,Large Language Model),结合领先的ChatOps、知识增强与算法引擎技术,为企业提供智能化、自动化、场景化的智能运维平台引擎。
嘉为蓝鲸
2025/02/21
3160
嘉为蓝鲸OpsPilot 深度集成 DeepSeek 等大模型,开启智能运维新境界!
LLM 大模型学习必知必会系列(五):数据预处理(Tokenizer分词器)、模板(Template)设计以及LLM技术选型
在模型训练过程中,数据及数据处理是最为重要的工作之一。在当前模型训练流程趋于成熟的情况下,数据集的好坏,是决定了该次训练能否成功的最关键因素。
汀丶人工智能
2024/05/26
4.5K0
LLM 大模型学习必知必会系列(五):数据预处理(Tokenizer分词器)、模板(Template)设计以及LLM技术选型
通过结合RAG和微调来改进LLM输出
在设计一个特定于领域的企业级会话式问答系统来回答客户问题时,Conviva 发现要么/要么的方法是不够的。
云云众生s
2024/05/02
4660
通过结合RAG和微调来改进LLM输出
同济大学发布最新检索增强(RAG)的LLM生成技术综述
摘要主要介绍了大型语言模型(LLMs)在实际应用中面临的挑战,比如幻觉、知识更新缓慢和答案缺乏透明度等问题,并提出了检索增强生成(Retrieval-Augmented Generation,RAG)作为一种解决方案。RAG通过从外部知识库检索相关信息来辅助大型语言模型回答问题,已经被证明能显著提高回答的准确性,减少模型产生的幻觉,尤其是在知识密集型任务中。
唐国梁Tommy
2023/12/21
17.2K0
同济大学发布最新检索增强(RAG)的LLM生成技术综述
DeepSeek是如何让运维进入真正的智能运维时代的?
在大模型技术发布之前,智能运维厂商试图通过传统AI算法和规则引擎实现自动化与智能化,却面临诸多瓶颈:模型泛化能力弱、场景适配成本高、知识沉淀效率低,最终导致产品落地效果有限。企业运维团队仍需依赖人工经验处理复杂问题,智能运维始终停留在“辅助工具”阶段。
运维老谭
2025/05/27
1900
DeepSeek是如何让运维进入真正的智能运维时代的?
一文搞懂:RAG、Agent与多模态的行业实践与未来趋势
大模型作为产业变革的核心引擎。通过RAG、Agent与多模态技术正在重塑AI与现实的交互边界。三者协同演进,不仅攻克了数据时效性、专业适配等核心挑战,更推动行业从效率革新迈向业务重构。本文将解析技术演进脉络、实战经验与未来图景,为读者提供前沿趋势的全局视角与产业升级的实践指引。
腾讯云开发者
2025/04/26
5210
一文搞懂:RAG、Agent与多模态的行业实践与未来趋势
2024技术总结:LLM之RAG技术全栈进化解析、Agent应用案例精选、LLM大模型部署实战指南
嘿,大家好!作为一名技术宅,我在2024年与AI的大型语言模型(LLM)技术有了不少“亲密接触”,感觉就像是和一位日益聪明的老友并肩前行。
汀丶人工智能
2025/01/25
8530
2024技术总结:LLM之RAG技术全栈进化解析、Agent应用案例精选、LLM大模型部署实战指南
文档解析之困 | 大模型时代,复杂文档解析如何更精准?
前不久,我们推出了腾讯云大模型知识引擎,最快只需5分钟,客户就能轻松搭建企业专属知识服务助手。作为一个知识引擎,首先就得看懂,且理解「海量知识」——特别是复杂多样的PDF、图片、表格等格式文件!
腾讯云AI
2024/10/18
1.5K0
文档解析之困 | 大模型时代,复杂文档解析如何更精准?
深度解析RAG技术在大模型时代的原理与实践
AI 日报_硅谷 “鲁迅” 怒怼马斯克_炮轰 AI 界 * 前 OpenAI 安全主管入职友商 Anthropic
可信AI进展
2024/06/03
3K0
大模型+RAG,全面介绍!
大型语言模型(LLMs)在处理特定领域或高度专业化的查询时存在局限性,如生成不正确信息或“幻觉”。缓解这些限制的一种有前途的方法是检索增强生成(RAG),RAG就像是一个外挂,将外部数据检索集成到生成过程中,增强模型提供准确和相关响应的能力。
算法进阶
2024/05/31
9430
大模型+RAG,全面介绍!
【2023 CSIG垂直领域大模型】大模型时代,如何完成IDP智能文档处理领域的OCR大一统?
2023年12月28-31日,由中国图象图形学学会主办的第十九届CSIG青年科学家会议在中国广州隆重召开,会议吸引了学术界和企业界专家与青年学者,会议面向国际学术前沿与国家战略需求,聚焦最新前沿技术和热点领域,共同探讨图象图形学领域的前沿问题,分享最新的研究成果和创新观点,在垂直领域大模型专场,合合信息智能技术平台事业部副总经理、高级工程师丁凯博士为我们带来了《文档图像大模型的思考与探索》主题报告。
中杯可乐多加冰
2024/01/05
8840
【2023 CSIG垂直领域大模型】大模型时代,如何完成IDP智能文档处理领域的OCR大一统?
一分钟搭建RAG应用:DeepSeek模型助力企业知识管理新突破
企业中常常存在数据分散的情况,不同部门和系统各自为政,导致信息孤立。这种现象使得员工在需要信息时,往往需要在多个系统中进行搜索,增加了时间成本和难度。
Lion 莱恩呀
2025/02/16
2.4K1
一分钟搭建RAG应用:DeepSeek模型助力企业知识管理新突破
腾讯云智能体开发平台与DeepSeek-R1:企业智能问答平台的构建实践
随着人工智能技术的迅猛发展,大型语言模型已成为企业数字化转型的重要工具。腾讯云智能体开发平台(LLM Knowledge Engine,简称LKE)作为面向企业客户及合作伙伴的知识应用构建平台,结合企业专属数据,能够高效构建知识问答等应用。而DeepSeek作为国内领先的大语言模型,以其卓越的表现在众多场景展现出巨大的应用潜力。本文将深入探讨如何利用腾讯云智能体开发平台与DeepSeek-R1模型,为企业构建高效、精准的智能问答平台。
用户10266550
2025/03/09
3550
推荐阅读
从OCR到Document Parsing,AI时代的非结构化数据处理发生了什么改变?
1730
LLMOps+DeepSeek:大模型升级一体化运维
9090
RAG+AI工作流+Agent:LLM框架该如何选择,全面对比MaxKB、Dify、FastGPT、RagFlow、Anything-LLM,以及更多推荐
12.2K0
一文读懂 LLM 可观测性
8210
LLMOps实战(一):DeepSeek+RAG 协同构建企业知识库全流程指南
4.5K0
LLM 大语言模型定义以及关键技术术语认知
1831
一个暴论的结论
1400
嘉为蓝鲸OpsPilot 深度集成 DeepSeek 等大模型,开启智能运维新境界!
3160
LLM 大模型学习必知必会系列(五):数据预处理(Tokenizer分词器)、模板(Template)设计以及LLM技术选型
4.5K0
通过结合RAG和微调来改进LLM输出
4660
同济大学发布最新检索增强(RAG)的LLM生成技术综述
17.2K0
DeepSeek是如何让运维进入真正的智能运维时代的?
1900
一文搞懂:RAG、Agent与多模态的行业实践与未来趋势
5210
2024技术总结:LLM之RAG技术全栈进化解析、Agent应用案例精选、LLM大模型部署实战指南
8530
文档解析之困 | 大模型时代,复杂文档解析如何更精准?
1.5K0
深度解析RAG技术在大模型时代的原理与实践
3K0
大模型+RAG,全面介绍!
9430
【2023 CSIG垂直领域大模型】大模型时代,如何完成IDP智能文档处理领域的OCR大一统?
8840
一分钟搭建RAG应用:DeepSeek模型助力企业知识管理新突破
2.4K1
腾讯云智能体开发平台与DeepSeek-R1:企业智能问答平台的构建实践
3550
相关推荐
从OCR到Document Parsing,AI时代的非结构化数据处理发生了什么改变?
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档