文字是信息的重要载体之一。通过书写、印刷、电子设备等方式,文字可以被记录下来并传递给他人。文字也是语言的重要组成部分,人们可以通过文字来表达自己的思想、感情和意图。在信息化时代,文字仍然是最基本、最重要的信息传递方式之一,也有着其不可替代的优势,如:简短明了、方便快捷、易于编辑、可归纳整理等。
光学字符识别(OCR)是一种通过将打字、手写或印刷文本的图像转换为数字化文本的技术,这种数字化的文本可以通过扫描文档、文档照片、场景照片,或者来自图像上叠加的字幕文本来获得。
OCR 广泛应用于数字化印刷纸质数据记录,如护照文件、发票、银行对账单、电子收据、名片、邮件、印刷数据等。这种数字化方法可以提高数据的处理效率和准确性,同时也可以实现电子编辑、搜索、存储、在线显示以及机器处理,如认知计算、机器翻译、(提取的)文本转语音、关键数据和文本挖掘。
早期的OCR系统需要通过训练每个字符的图像来识别每个字符,而且只能处理一种字体。然而,现在已经有了更高级、更准确的OCR系统,它们可以处理多种字体,并支持各种图像文件格式的输入。此外,一些先进的OCR系统能够生成与原始页面非常接近的格式化输出,包括图像、栏目和其他非文本组件。
最早的 OCR 应用在了帮助视障人群方面,1914 年,Emanuel Goldberg 开发了可以读取字符并将其转换为电报代码机器;几乎同时,Edmund Fournier d'Albe 开发了手持式扫描仪 Optophone ,会输出与特定字母或单次相对应的音调;1929 年德国的 Tausheck 取得光学字符识别的专利。
在1996年《中文OCR的发展现状及其最新技术》一文中,提到了中文OCR识别的困难:
汉字识别的最终目标是趋近人类识字的能力。由于人类识字的机理及过程并不清楚,汉字识别的研究还只能停留在一般模式识别问题的研究上,汉字识别的特别困难在于汉字的类别数量极为巨大,以及汉字字形的剧烈变化,这是其它模式识别问题很少遇到的,而且汉字识别的对象来自实际的文本图像,随机的噪声和干扰更是无所不在、无处不有,处理这些问题利用一般的人工智能符号处理技术也是难以解决的。
同时为早年 OCR 的发展进行了归纳总结,并提出了发展阶段:
传统 OCR 流程主要分为如下步骤:
在 2005 年《低质量文本图像 OCR 技术的研究》中,提到,传统 OCR 面临一系列问题,包括:
随着近年深度学习的不断发展,基于卷积神经网络的 OCR 技术打破了传统 OCR 技术的框架,在识别效率以及准确率上都有了质的飞跃。
通过文字区域检测,字符切割,识别,三个问题结合深度学习进行优化,可以有效提高在部分场景下的识别、拆分正确率。
随着技术的发展,除了逐个字词识别的 OCR,还有了 ICR 和 IWR:
ICR(Ink Character Recognition,墨水字符识别)是一种能够在墨水文字上进行字符识别的技术。相对于OCR,ICR更加注重识别字符的笔画和笔画之间的空间关系,以及字符的书写风格等因素。ICR在实际应用中有着广泛的应用场景,例如手写体文件的识别、数字签名的识别等。
IWR(Image Writer Recognition,图像作者识别)是一种能够对图像作者进行识别的技术。通过分析图像的笔迹特征,IWR可以准确地识别出图像的作者。IWR在一些文件归档、版权保护等方面有着重要的应用价值。
随着 2012 年 Imagenet 竞赛采用深度学习技术的AlexNet夺得冠军,深度学习算法开始应用于图像视频领域。
通过应用卷积神经网络(CNN)、循环神经网络(RNN)和长短期记忆网络(LSTM)等深度学习技术,我们可以实现高效准确的 OCR 定位与识别。这项技术可以自动识别灰度图像中的文字区域,并在整行文字中进行高效准确的识别。与传统的 OCR 技术不同的是,我们的方法可以通过上下文信息来判断形似字,避免了单字识别无法解决的问题。这种新颖的 OCR 技术不仅提高了准确率,而且还能大幅度减少人工干预的需求,使得 OCR 操作更加便捷高效,有以 基于 CRNN 的整行识别技术(CNN+LSTM+
CTC)和联合CTC和Attention机制的整行识别等识别方案让识别准确性、可信程度获得进一步提升。
同时,以往自然环境下的光学字符识别相比于传统的光学字符识别, 自然场景文字图像的前景文字和背景物体的变化很大, 光照情况也相当复杂,检测自然场景图像中的文字更具挑战,随着机器学习算法的引入,这一部分内容变得可信,在《基于深度学习的场景文字检测与识别》中提出的卷积循环神经网络就较好的完成了就吐想到文字序列识别。
智能OCR技术不仅可以用于文档识别,还可以应用于广告推荐、UCG图片和视频筛选、医学影像识别和街景路牌识别等场景。OCR技术是一种多分类问题,处理中文时字符集达到20,000类,而英文只有62类。影响OCR效果的因素很多,比如背景复杂度、字体种类、分辨率、语言混合、字体排列和变形等。
以腾讯云提供的文字识别类服务来看,特定场景下的字符识别需求大致有:
这种技术使用深度学习,能够识别各种形式的文字,包括通用印刷体、手写体、英文以及表格等。它可以将图片上的文字内容智能转换为可编辑的文本,适用于多种情景,如随手拍摄扫描、将纸质文档电子化、电商广告审核等。
这项技术专门用于卡证类文档,例如身份证、银行卡、驾驶证等。它同样基于深度学习,可以智能地将卡证上的文字内容转化为结构化文本,适用于用户注册、银行开户、交通出行、政务办事等多种场景。
这一技术主要应用于票据,包括增值税发票、火车票、出租车票等。它也能智能地将票据上的文字内容转化为结构化文本,适用于企业票据报销、金融票据识别、快递单据录入等多种情境。
这种技术专注于特定场景,如车牌识别、车辆 VIN 码识别和印章识别。它同样可以将图像中的文字内容智能转化为结构化文本,适用于汽车保险理赔、车辆租赁和企业方案管理等行业场景。
除了以上这些场景的 OCR 之外,还延伸出了 OCR 的其他一些应用,如:
这项技术采用深度学习和图像检测技术,可用于提取任何具有固定版式的卡证票据上的结构化文字。它可以预学习智能建立键值对应关系,或由客户自主设置键值对关系定制模板,从而提高信息数据的提取和录入效率。它可用于政府事务办理、特殊票据核销、行业表单定制等多种场景。
这项技术包括二维码和条形码识别 API,以及智能扫码 SDK,提供全方位的扫码服务。智能扫码 SDK 还针对不同扫码场景进行了优化,如一图多码和大图小码等。
这种技术基于计算机视觉技术,用于处理文件类图片,提供切边增强、弯曲矫正、阴影去除、摩尔纹去除、图像提亮等功能。它的目标是帮助客户获取更清晰、更可读的文档图片,从而更好地支持后续的业务流程。
从几十年前的邮编自动识别,到专用 OCR 软件,再到 OCR 集成到了日常使用的设备当中,OCR 离我们越来越近。使用 OCR 相关技术也变得越来越简单。
微信,QQ 等软件已经可以在打开图片的过程中直接选择图片中的文字,苹果设备在拍摄过程中可以实现动态文字识别、翻译等多项工作,在需要输入证卡信息过程中,从以往反复小心地多次核对,到如今的打开摄像头快速识别填入,OCR 已经走进了千家万户,很多时候,使用 OCR,已经成为习以为常的举动,虽然其对世界的影响,不如大语言模型一般带来巨大的震撼,但很多核心是相近的,也终将带来信息化程度更高的社会。
1郭繁夏,丁晓青.中文OCR的发展现状及其最新技术J.微电脑世界,1996(03):28-30.
2王栋.人工智能OCR技术的应用研究J.电子技术与软件工程,2022(01):122-125.
3.中文OCR综述J.科技与出版,1997(01):23.DOI:10.16510/j.cnki.kjycb.1997.01.016.
4王珂,杨芳,姜杉.光学字符识别综述J.计算机应用研究,2020,37(S2):22-24.
5孙羽菲. 低质量文本图像OCR技术的研究D.中国科学院研究生院(计算技术研究所),2007.
6 Optical character recognitionZ/OL//Wikipedia. (2023-08-24)2023-08-25. https://en.wikipedia.org/w/index.php?title=Optical_character_recognition&oldid=1172052573.
7白翔,杨明锟,石葆光等.基于深度学习的场景文字检测与识别J.中国科学:信息科学,2018,48(05):531-544.
8黄攀. 基于深度学习的自然场景文字识别D.浙江大学,2016.
9王日花.基于深度学习的智能OCR识别关键技术及应用研究J.邮电设计技术,2021(08):20-24.
10 文字识别简介文字识别购买指南文字识别操作指南-腾讯云EB/OL. 2023-08-25. https://cloud.tencent.com/document/product/866.
11 Recognizing Text in ImagesEB/OL//Apple Developer Documentation. 2023-08-25. https://developer.apple.com/documentation/vision/recognizing_text_in_images.
注: 本文部分内容由 AI 辅助整理完成。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。