Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >LLM“力大砖飞”的时代,OCR专有模型还有意义吗?

LLM“力大砖飞”的时代,OCR专有模型还有意义吗?

原创
作者头像
合合技术团队
发布于 2025-05-14 02:36:58
发布于 2025-05-14 02:36:58
1800
举报

从 DeepSeek R1 的发布,到 Agent 开发不断拓展边界,大模型(LLM)掀起了新一轮的“破圈型”关注浪潮,国内外 LLM 企业纷纷开启“竞赛模式”,AI 应用深入到生活与生产,正在改变着各行各业的传统运转方式。

在 LLM 大行其道的今天,我们面对着这样一个问题:在 LLM “力大砖飞”能解决很多任务的情况下,OCR 这一类“小模型”仍然有存在的意义和必要性吗?为什么业界的前沿技术团队还在投入研究专有模型?

本文将从这个问题出发,探讨文字识别和文档处理的技术发展,大模型与小模型之间的竞争或协作关系。

如何区分大模型和小模型?

首先,我们先来看一下大模型和小模型的定义。

严格来说,大模型与小模型之间并没有绝对意义上的区分标准。根据学界和行业目前的普遍认知,从参数大小的角度,我们将参数小的模型称为小模型,比如小于 1B,或者小于 0.1B 的模型。而从专用性的角度出发,做专有任务的模型即是小模型,例如 OCR 模型、人脸识别模型、语音识别模型;而做通识性、泛化性任务的是大模型,比如能解决翻译、摘要、总结、各种逻辑数学问题的泛化型模型。

简而言之,小模型通常指的是参数数量较少、训练数据规模相对有限的模型,通常用于专有场景,而大模型是包含数亿到数千亿个参数的深度学习模型,拥有极高的表达能力,能够理解和生成复杂的自然语言文本,支持多种任务,包括文本生成、翻译、问答和代码生成等。

大模型也能完成 OCR 任务,为什么我们还需要专有模型?

OCR 现在仍是一项重要任务。此前,欧洲的AI独角兽公司发布 OCR 模型,受到了业界的广泛关注。

其原因在于,OCR 是信息处理的关键第一步。OCR 面向的是文字处理,而文字是人类信息和知识的高密度载体。历史上,人类以记录文字为起点,开始传承先人经验,发展形成文明;而 AI 时代,OCR 负责的工作是将物理世界的文档、图像转化成电子信息的第一步,从“人类可读”走向“机器可读”,进而才有可能实现信息抽取、RAG 知识问答、大模型训练语料、Agent 应用。

现在,不少通用 LLM 也能完成 OCR 任务,但与专有模型仍然存在本质上的区别。以 DeepSeek 为例,DeepSeek 本身并不支持多模态,而是通过外接一个 OCR 小模型的方式来实现多模态的能力。当前,大模型在泛化任务上有更强的能力,但在垂直领域的专业任务上无法实现专有模型的效果,在生产环境下大模型的精细程度不能满足需求。

另外,大模型的幻觉问题是另一项制约。从原理上来说,ViT 等专业模型的核心是对图像进行重建,忠实于原图像,不会产生幻觉问题;而视觉大模型的核心逻辑是根据图像特征,补全下一部分最有可能出现的文字或信息,它输出的是最大概率的结果,结果与其训练数据、输入图像特征都存在一定关系,无法避免大模型幻觉,尽管可以通过调整 prompt 降低幻觉问题的出现频率,但根据底层机理,不可能做到完全限制。在准确度要求极高的生产领域,专有模型的“可靠性”仍然重要。

专有模型表格解析案例
专有模型表格解析案例

小模型会被大模型替代吗?

大模型由于庞大的参数量和海量训练数据,通常有更高的精度和更强的泛化能力。在处理自然语言任务时具有极高的准确性和上下文理解能力。在多任务处理和复杂问题上,大模型的表现一般优于小模型。

相比之下,小模型通常专注于特定的任务或领域。在特定的场景下,由于数据的针对性以及高效率的推理速度,往往表现超过大模型,比如文字识别、语音识别、表情识别等。

面对“小模型会被大模型替代吗?”这个问题,业界共识一般认为:大模型和小模型将长期共存,各自负责其擅长的领域。

大模型在成本收益比、专有领域、稳定性、可靠性等方面存在问题,但其强大的泛化能力和处理复杂任务的优势,使其在更广泛的领域展现出巨大潜力。小模型同时以其高效、灵活的特点,在特定场景和资源受限的环境中发挥着不可替代的作用。所以1+1,大模型串联小模型,小模型在感知领域高效高精准获得环境信息,大模型在认知和决策领域根据小模型获得的信息进行复杂任务的推理和决策。

大小模型的协同方式

大小模型之间的协同是能力上的合作。AI 应用包括感知、认知、决策执行阶段,小模型完成的是感知阶段,将信息转化为电子化形式,让机器能看到外界的信息,大模型则负责逻辑性处理,这是两者协作的基础分工。

大小模型协同框架旨在整合大模型的广泛知识和小模型的专业能力。要基于规划、分工与协作机制,实现知识融合,将大模型的基础知识、能力与小模型的专用能力有机结合。

以大模型最快落地的应用方向 RAG 为例,大模型存在幻觉、知识时效性、领域知识不足及数据安全问题的局限性。RAG(Retrieval Augmented Generation,检索增强生成)技术正是在这样的背景下应运而生,成为了当前大模型应用的重要技术方向,文档问答类 LLM RAG 应用也被认为是 AI 2.0 时代最早落地的应用类型之一。

RAG 技术使开发者能够在无需为每个特定任务重新训练或微调大模型的情况下,通过连接外部文档,为模型注入额外的非参数化知识,从而显著提升其在专业领域的能力和回答精度。而在这个流程中将外部文档转化为正确阅读顺序的、正确结构展示、精准的文字提取的模块则是文档解析小模型。

文档解析小模型的本质在于将格式各异、版式多样、元素多种的文档数据,包括段落、表格、标题、公式、多列、图片等文档区块,转化为阅读顺序正确的字符串信息,支持电子档和扫描档。

RAG 通过检索文档解析小模型获得的文档信息,使大模型能够参考这些信息,从而生成更具可信度和准确性的答案。这种方法不仅增强了生成内容的准确性,还提高了模型在应对特定领域知识和动态信息时的适应能力。这是一个典型的协同案例,最终实现性能跃升,取得 1+1>2 效果。

未来大小模型的协同可能在越来越多的场景落地,再扩展来说,大模型与小模型、工具的整合,也就是 Agent,比如最近爆火的 Manus,可能为应用落地带来新的想象空间。

💡欢迎后台私信小助手免费在线体验 OCR 专有模型~

来交流群与我们共同探讨技术发展与 AI 应用的可能性,领取更多福利、大模型应用技术学习材料。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
下一代硅光路线图
几位硅光大佬最近合作撰写了一篇文章,贴在了arXiv上。文章整理总结了当前硅光技术的技术难点与发展趋势,并展望了下一代硅光技术,高屋建瓴,非常值得一读, 原文链接https://arxiv.org/abs/2305.15820。站在大佬们的肩膀上,小豆芽这里整理下相关论点以及自己的一些思考,供大家参考。
光学小豆芽
2023/09/02
2.7K0
下一代硅光路线图
TSMC硅光封装平台的最新进展
2021年,TSMC在Hotchips会议上公布过其硅光封装路线,具体可参见小豆芽的这篇笔记TSMC的硅光封装路线。时隔两年,在今年的ECTC会议上,台积电展示了其最新的硅光封装路线图,小豆芽这里整理下相关细节,供大家参考。
光学小豆芽
2023/09/02
2.6K0
TSMC硅光封装平台的最新进展
Marvell的异质集成2.5D硅光光引擎
Marvell公司在收购Inphi之后,补强了硅光芯片研发的能力,结合自身DSP芯片技术的多年积累,也成为了CPO领域的重要玩家。这篇笔记主要介绍下其在异质集成光引擎(optical engine)的最新进展。
光学小豆芽
2022/12/02
2.2K0
Marvell的异质集成2.5D硅光光引擎
3D 硅光芯片
这一篇笔记主要分享一篇硅光的文献进展,个人觉得很有意思,High-Density Wafer-Scale 3-D Silicon-Photonic Integrated Circuits。该工作由加州Davis分校研究小组完成,他们实现了基于3-D光芯片的LIDAR系统。关于LIDAR, 感兴趣的读友可以参看这篇笔记 光学相控阵列, 这里不做赘述。
光学小豆芽
2020/08/13
1.7K0
TSMC的硅光封装路线
在这周的2021 HotChips会议上,台积电发布了最新的3D封装技术路线图,其中涉及到硅光相关的新型异质集成封装(heterogeneous integration)技术,台积称之为COUPE。小豆芽这里做一个简单的介绍。
光学小豆芽
2021/09/18
2.4K0
TSMC的硅光封装路线
IMEC利用其硅光TSV平台实现112Gbps的NRZ信号传输
IMEC在今年的ECOC上报道了其在硅光TSV方面的最新进展,验证了112Gbps NRZ信号在该TSV传输的性能。
光学小豆芽
2021/12/31
1.7K0
IMEC利用其硅光TSV平台实现112Gbps的NRZ信号传输
基于FOWLP封装方案的1.6T硅光光引擎
在今年OFC上,新加坡IME与Rain Tree公司发布了其基于FOWLP封装方案的光引擎最新进展,实现了1.6Tbps的硅光光引擎。最近他们在JLT的一篇文章中,展示了更多的技术细节,小豆芽这里做一下整理,方便大家参考。
光学小豆芽
2025/06/09
830
基于FOWLP封装方案的1.6T硅光光引擎
Marvell与新加坡A*STAR合作开发基于FOWLP技术的硅光光引擎
在今年的ECTC会议上,新加坡A*STAR报道了其与Marvell合作的基于FOWLP封装技术的硅光引擎。小豆芽这里对相关技术做一个简单介绍。
光学小豆芽
2025/06/07
890
Marvell与新加坡A*STAR合作开发基于FOWLP技术的硅光光引擎
硅光芯片的耦合封装
这篇笔记整理下硅光芯片的耦合封装方案。硅光芯片的耦合器主要分端面耦合和光栅耦合两种,对应的封装方案可谓五花八门,这里选取一些典型的方案。Intel选取了片上异质集成激光器的方案,因而不存在耦合封装这一问题。
光学小豆芽
2020/08/13
8.6K0
OFC2022: Intel的硅光版图
今年的OFC会议上,Intel有多个报告,报道了其在硅光领域的核心器件进展以及未来的布局,小豆芽这里简单整理下,供大家参考。
光学小豆芽
2022/03/29
4.8K1
OFC2022: Intel的硅光版图
硅光芯片的光源
这一篇笔记聊一聊硅光芯片的光源问题。公众号里写了很多硅光相关的专题,但是一直没有提及光源问题。在硅光芯片上可以单片集成调制器、探测器等,并且性能优良,但是不能发光是硅材料的短板,没有较好的解决方案。由于硅材料是间接带隙半导体,它的发光效率非常低,天生的缺陷。下图是Si和InP的能带图比较,
光学小豆芽
2020/08/13
3.8K0
TSMC硅光平台COUPE的最新进展
TSMC在今年四月份展示了其硅光平台的路线图,在2025年实现适用于可插拔光模块的1.6T光引擎,在2026年利用CoWoS封装技术实现适用于CPO场景的6.4T光引擎, 后续进一步发展用于Optical IO场景下的12.8T光引擎,如下图所示。在今年的IEDM 2024大会上,TSMC交上了今年的成绩单,展示了更多的技术细节,信息量非常大,小豆芽这里整理汇总下相关的结果,方便大家参考。
光学小豆芽
2025/06/09
1290
TSMC硅光平台COUPE的最新进展
Cisco展示基于Fanout方案的3.2T光引擎
接着上篇笔记,Broadcom与Cisco也在ECTC 2024会议上分别报道了各自的Fanout光引擎方案细节。Cisco展示了其基于FPOP(Fanout package on package)的3.2T光引擎,小豆芽这里介绍下相关细节,供大家参考。
光学小豆芽
2025/06/07
920
Cisco展示基于Fanout方案的3.2T光引擎
OFC 2021: 共封装光学CPO进展汇总
OFC 2021有一个关于CPO(co-packaged optics)的workshop讨论,标题是"Are we on the right track to bring co-packaged o
光学小豆芽
2021/07/30
5.4K0
Intel实现3D混合集成的微环光发射器
这篇笔记主要介绍下Intel在微环光发射器的最新进展,系统中集成了激光器、微环调制器以及基于28nm工艺的driver,实现了112Gb/s的PAM4信号调制,能耗为7.4pJ/bit。
光学小豆芽
2020/10/10
2K0
Intel实现3D混合集成的微环光发射器
Photonic Bump简介
前两天参加一个在线的会议,听到了Photonic bump这个新词汇,比较有意思。这里收集下相关的资料,供大家参考。
光学小豆芽
2022/03/29
2.3K0
Photonic Bump简介
Broadcom的CPO进展(续)
前面根据ECTC 2023的会议文章,介绍了Broadcom的CPO技术(Broadcom的CPO进展)。但文中的CPO产品并不是Broadcom最新一代CPO,最近凑巧在Linkin上划水时看到了一张图片,涉及到了博通最新一代51.2T CPO产品的一些技术细节,这里和大家分享一下。
光学小豆芽
2023/11/03
2.1K0
Broadcom的CPO进展(续)
晶圆级气密封装的MEMS型硅光芯片
这篇笔记介绍MEMS型硅光芯片封装的一则最新进展,瑞典皇家理工学院KTH研究组联合洛桑联邦理工学院EPFL、爱尔兰的Tyndall、IMEC等多个机构,共同开发了MEMS硅光芯片晶圆级的气密封装技术(hermetic sealing)。
光学小豆芽
2022/06/14
2.2K0
晶圆级气密封装的MEMS型硅光芯片
Broadcom的CPO进展
前段时间,关于TSMC和Nvidia、Broadcom合作开发硅光技术的新闻引起了大家的广泛关注。巨头们的强强联合,必定会对硅光产业带来深远的影响。Broadcom是目前仅有的几家发布CPO产品的公司,这篇笔记主要介绍下其CPO技术上的进展与细节。
光学小豆芽
2023/10/23
1.9K0
Broadcom的CPO进展
Intel的硅光子技术
上一篇笔记主要介绍了IBM的硅光封装方案 IBM的硅光封装方案。作为半导体行业的执牛首者,Intel经过十多年(2004年起)的硅光技术积累,已经在2016年发布了其硅光的产品,包括PSM4和CWDM4两种。这篇笔记主要整理下Intel公司的硅光子相关技术方案。
光学小豆芽
2020/08/13
4.4K0
相关推荐
下一代硅光路线图
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档