招银兵器谱
视觉平台之文字识别
研究背景
科技进步正在改变银行业的发展方向,OCR的研究可以大力减少一些人工的工作,银行中很多工作都和材料审核相关,不限于审核身份证信息,卡号,人的生物信息(指纹、人脸等)以及手写签名。OCR的技术出现可以很好的处理这个问题,它相对人工的有着天然的优势:速度和准确率。它不仅能够给银行内部争取到时间效率,而且为客户提供更好的服务,支持更多线上的业务,人们不用出门晒太阳,不用排队,不用请假去营业厅,就可以得到银行的服务,从而为银行赢得更多客户,提升银行的服务体验。
1
兵器档案
器名:深度学习·文字识别(Optical Character Recognition,OCR)
锻造人:杭州中心Best Brain极客俱乐部·视觉平台小组
特点:顾名思义,能够将图片上的文字内容,智能识别成可编辑文本。
使用场景:支持身份证、名片等卡证类和票据类的印刷体识别,支持各种复杂场景,可以有效替代人工录入信息。
补充:视觉平台是为视觉类算法提供训练、管理、数据算法能力的综合平台,而文字识别则是其中一期项目。
2
兵器构造
平台系统架构:
文字识别使用深度学习技术来完成,基本流程如下:
第一步进行文字区域检测,第二步进行文字识别。文字识别部分主要网络结构如下:
3
使用场景
(名片文字识别)
(表格文字识别)
(复杂场景文字识别)
(名片文字识别)
(名片文字识别)
4
锻造者说
2018年上半年,我们开始场景落地,使“研究”服务于“实践”,创造实体价值。
截至7月,除了通用接口之外,我们针对具体行内场景,还提供了具体优化的接口。包括:行内看板管理、可视柜台管理、以及Fintech项目(审计)。
接下来针对看板业务进行详细说明:
看板是我行软件中心在研发过程中所使用的重要管理工具。目前软件中心有数百块看板,绝大多数为物理看板,随着看板应用成熟度的提升,看板的度量显得越来越重要,而物理看板的度量始终是一个短板,需要耗费较多的人力,而且不可避免地会出现度量偏差,很难及时客观的反映出看板的状态。
(我行软件中心物理看板)
引入文字识别看板管理工具之后,看板检查具体操作流程变成如下几步:
第一步
识别出图片中的所有卡片
第二步
检测卡片中的文字区域
第三步
识别检测出来的文字
我们通过每次站会上传的图片自动提取故事卡片的信息,自动更新到系统,平时就可以规范大家看板使用。更好、更快推进IT开发的规范。
小小硬广
本算法在看板之外,也已经在可视柜台、个贷、资管风险等业务方向推广应用,也欢迎其他实际业务场景联系我们。
领取专属 10元无门槛券
私享最新 技术干货