近日华南理工大学金连文老师组在文本识别领域又出牛文,提出一种基于像素级不规则文本纠正的识别新算法MORAN(Multi-Object Rectified Attention Network),刷新了多个OCR数据集的最高精度,并将其开源了!
MORAN文本识别算法由矫正子网络MORN和识别子网络ASRN组成,在MORN中设计了一种新颖的像素级弱监督学习机制用于不规则文本的形状纠正,大大降低了不规则文本的识别难度。
MORN与ASRN可端到端联合学习,训练过程不需要字符位置或像素级分割的监督信息,使得网络的训练大大简化。在常用的IIIT 5K、IC03、IC13、SVT、SVT-Perspective、CUTE80、IC15等7个OCR数据集上,取得了state-of-the-art的识别性能。
文本识别的难题——形状不规则
虽然目前文字识别的应用广泛,但自然场景文字识别仍然面临诸多挑战,其中影响识别率的重要因素就是文本形状的不规则。如下图:
文本形状的多样化上如依次为(a)水平规则文本;(b)倾斜文本;(c)弯曲文本。
普通的矫正方法——仿射变换
普通的矫正方法,使用仿射变换能够对图像做整体的变换,其对图像的纠正局限于缩放、旋转和平移。在深度学习网络中使用STN(Spatial transformer networks)网络可以做这样的纠正。
使用STN学习仿射变换系数
MORN形状矫正方法
该文作者基于分解的思想,提出了一种像素级预测的纠正模型,首先将文本图像分解为多块小图像,然后对每块小图像回归偏移量,并对偏移量进行平滑操作,再在原图像上进行采样,得到新的形状更加规则的水平文本。
整体网络结构
MORN网络结构
矫正的文本图像示例
然后作者设计了基于注意力机制下的识别算法ASNR。
ASRN网络结构
最终的MORAN算法在多个数据集上均超越了state-of-the-art。
实验结果
作者称论文投稿时达到多个数据集当时最高准确率。
最新改进
该文已被Pattern Recognition录用,近期升级的MORAN v2版又做了多项改进:
(1)增强了MORN网络的稳定性,降低了训练难度,实现了单步训练;
(2)使用ResNet替换VGG作为骨干网络;
(3)借鉴了白翔老师组PAMI2018论文中双向解码器思想。
更新后精度如下:
论文及代码地址
https://arxiv.org/abs/1901.03003
https://github.com/HCIILAB/MORAN_v2
https://github.com/Canjie-Luo/MORAN_v2
本文来自于MORAN论文及CSIG文档图像分析与识别专委会公众号:https://mp.weixin.qq.com/s/XbT_t_9C__KdyCCw8CGDVA