随着互联网和移动互联网技术的高速发展,越来越多的新型应用场景需要利用自然场景图像中的文字信息。
地图文本识别技术创新
1) 卷积过程基于GoogLeNet的Inception 结构进行改进,采用不同大小的卷积核意味着不同大小的感受野,最后拼接不同尺度特征,提升网络性能。
2)修改解码方式,支持多候选和文字位置的输出,校正识别结果。如图输出每个字符位置所示,模型识别结果为:粮粮油调料干菜批发部,根据两个“粮”字的中线距离较近可以判断这两个字符是同一个字符,调整识别结果为:粮油调料干菜批发部。
输出每个字符位置:
输出多个识别结果候选:
3)超分辨率技术扩增训练样本,极大的提高了低分辨率样本的识别率。
地图OCR在POI众包中的应用
1.众包用户采集POI图片上传到众包后台进入采编分离环节,采编分离算法根据OCR的文本检测结果剔除没有POI的图片;有POI的图片根据OCR识别结果自动编辑图片对应的POI,编辑成功的POI完成审核;没有编辑成功的POI进入人工去噪。
2.人工去噪把没有POI的图片剔除,有POI的图片返给众包用户编辑POI。
3.用户编辑的图片和POI上传到众包后台进入自动审核,自动审核根据OCR识别结果与用户编辑的POI进行匹配,匹配上的POI完成审核,没匹配上的POI进入人工审核。
4.人工审核通过的POI完成审核,没通过的POI剔除。
POI众包通过应用地图OCR技术及采编分离流程对业务的帮助有几下几点:
1.采编分离环节自动剔除的没有POI的图片节省了众包用户查看图片时间,自动编辑上POI的图片节省了用户的编辑时间。众包用户总的查看编辑POI的时间降低了58%,大大提高了用户的作业效率,提升了用户体验及用户黏性。
2.通过采编分离流程及新的定价策略使POI的回收率提高了83%,增强了POI数据的完备性。
3.自动审核通过的POI可以直接入库,不用审核员再查看,大大解放了人力,提升了审核效率,节省了成本。
文字识别方法主要分为单字识别和文本行识别。
1.单字识别,是将文字识别看成分类问题,用CNN代替了传统文字识别方法中特征提取步骤,显而易见,此方法需要使用固定大小的单字图像作为输入,也就是识别之前要定位每个字符的位置。此方法会将字符定位的误差带入识别环节,影响整个文字识别系统的准确率。
2.文本行识别,通用识别算法是CRNN网络,此方法结合基于CNN的图像特征和基于RNN的上下文特征取代人工定义的特征,并且避免了字符分割,实现端到端的无约束字符定位和识别,能较好地识别自然场景文字。