以下文章来源于腾讯云AI ,作者Jerry
先回顾一些窘迫的时刻:
曾几何时,这些场景和过程让人倍感枯燥,甚至崩溃!
俗话说,工具用得好,再也没烦恼。
文字识别(OCR)这类智能AI产品的出现,让工作、学习中的文本处理变得更加便捷、轻松,同时也在产业实践中助力企业数字化,实现降本增效。
如上述列举的一些常见场景,在实际落地的能力场景中,文字识别主要偏向于模板类(固定证件和票据等)或者定制类的识别。
但个人和企业的证照、票据、表单种类数不胜数,一直以来业界对中长尾版式的信息识别+字段抽取的方案不足。
且基于小样本情况下图文识别容易存在泛化能力不好的问题,无法覆盖兼容字段关系、字体变形、字号不一、过亮过暗等问题。当业务出现新样式时,重新训练任务样本要求、成本过高。
从通用类识别到中长尾版式,甚至无标准版式,有没有更好的解决办法呢?
01
在行业和业务层面,文字识别的技术和应用已经相当成熟,作为基础能力或者集成应用产品,市场红利和潜力巨大。
受限于核心技术突破,OCR领域众多产品一直存在重复造轮子的现象,竞争白热化、产品同质化。
当需求方提供不了较大规模和较高质量的样本,而固定模板往往需要进行针对性训练,小样本数据量无法支撑深度网络模型训练时,智能结构化识别就凸显出了巨大的价值。
依托腾讯优图实验室自研核心技术,腾讯云AI文字识别本次重点推出了智能结构化识别能力,可以不做任何的标注定制,即可识别各样式的证照、票据、表单、合同等内容,智能提取关联需要的字段信息,过滤其他冗余字段。
这种结合了文本位置、自然语言处理(NLP)对关键信息抽取的能力,是OCR从识别到理解的一次进化,具有极强的应用泛化性,能进一步为企业数字化提供强有力的工具。
值得一提的是,通过文本纠错、文本分类等NLP能力的加持,智能结构化识别具备认知和理解能力,大大提升了文字识别识别准确率,实现更复杂、小众样本的业务提效,进一步释放文字识别的潜力与价值。
据相关产品经理介绍,腾讯云AI智能结构化识别支持2000+版式,30000+字段提取,无需配置结构化对应关系,自动提取图片中的Key-value对应关系,有效降低定制化模型成本,对于无Key值字段的可自动分配Key值识别提取,可以满足个人信息录入、企业资质认证、票据单据报销等场景。
02
不同于制式文档扫描件,自然或者小众场景中的文字具有更多表现形式。
其没有标准的版式,固定的字体,固定的对应关系,另外图片质量也无法得到保证。图片的背景还会对文字产生干扰,因此检测和识别诸如自然、小众场景下的文字具有广泛的应用场景。
对于智能结构化识别能力的落地应用,有一些典型场景可供参考,具体来说:
@各类手机截图识别:如教育、政务行业,识别截图中的内容,进行材料信息收集录入。这些截图有如下特点:
腾讯云AI智能结构化识别专注于中长尾等版式研究及提供易用、高性价比的文字识别智能产品。除了可直接调用的全面的API接口,还提供了丰富多样的SDK供开发者使用,服务使用简单便捷,兼容性强。
通过丰富的文字识别能力矩阵,不断拓展应用场景,助力金融、物流运输、政务、法律等多领域提升运营管理效率, 实现跨越式智能升级。
官网测试Demo(可点击阅读原文进入):https://cloud.tencent.com/act/event/ocrdemo
产品文档介绍:https://cloud.tencent.com/document/product/866/60877
欢迎关注“腾讯云AI平台”公众号获取《2021年中国计算机视觉市场报告》回复【入群】可添加云AI小助手,加入云AI产品、技术、认证等相关社群
回复【云梯计划】可了解更多TCA腾讯云人工智能从业者认证限时免费相关信息
回复【产品手册】可获得最新腾讯云AI产品及解决方案手册