Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >图像处理:文档矫正DocTr++

图像处理:文档矫正DocTr++

作者头像
机器学习AI算法工程
发布于 2024-06-08 00:48:36
发布于 2024-06-08 00:48:36
4250
举报

前言

这段时间一直在搞文档矫正相关实验,阅读了大量相关论文,今天来记录一篇目前比较经典,实用性较好的方法,doctr++

paper:https://arxiv.org/abs/2304.08796

一、介绍

Doctr++除了提出一种新的architecture外,most importantly,提出了一种新的数据处理方式,解决了以前文档矫正只能处理带有边界信息的完整文档,文章通过数据处理定义了三种类型的训练数据。

图1展示了三类常见的形变文档图像:(a) 包含完整文档边界,(b) 包含部分文档边界,(c ) 不包含文档边界。

二、方法理论

其实网络结构很简单,input未矫正图像,firstly,extract the feature through CNN, then, 经过一个transformer(这个部分相比original transformer结构有变动),finally,经过一个flow head进行最终预测。具体结构如下:

首先, 在畸变特征编码器中,DocTr++采用自注意力机制捕获形变文档的结构特征,并构建多尺度编码器,进行特征提取和融合。其中,编码器由三个子模块组成,每个子模块包含两个标准的 Transformer 编码层。这使得本方法既能编码具有高分辨率纹理细节的特征,又能获得低分辨率具有高层语义信息的特征。

接下来,矫正解码器接收编码器输出的多尺度特征以及可学习的矫正提示向量序列(Learnable Queries),输出解码后的表征用于后续坐标映射矩阵的预测。其中,可学习的矫正提示向量序列零初始化,并加上固定的位置编码。**实验发现,每一个矫正提示向量会关注输入形变文档图像中的某一特定区域,这些区域组合起来便覆盖整张输入图像。**同样,解码器由三个子模块组成,每个子模块包含两个标准的 Transformer 解码层。

三、评价指标

论文提出了两种新的评价指标 MSSIM-M 和 LD-M,用于通用形变文档图像矫正质量的评估。因为边界不完整的形变文档图像在矫正后可能会出现像素缺失,本文将有效像素区域的掩膜矩阵与目标图像进行矩阵乘法,得到更适宜进行评价的目标图像。

四、实验细节与结果

配置如下:

input:288x288

output:288x288

learning rate:1e-4

65 epochs with batch size of 12

实验结果如下:

总结

DocTr++突破了现有多数矫正方法的场景局限性,能够恢复日常生活中常见的各种形变文档图像。为了实现优秀的矫正效果,DocTr++采用了一种多尺度编解码器结构,构建各类形变文档图像与无形变文档图像之间的逐像素映射关系。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-06-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器学习AI算法工程 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
文档图像矫正任务的前沿进展:引入Transformer框架、极坐标的思路
在《文档数字化采集与智能处理:图像弯曲矫正技术概述》一文中,我们介绍了文档图像矫正技术的发展沿革与代表性方案。随着文档智能处理的需求逐步升级,文档图像去畸变技术也在不断探索新的可能性。
合合技术团队
2025/01/22
1760
文档图像矫正任务的前沿进展:引入Transformer框架、极坐标的思路
智能图像处理:基于边缘去除和迭代式内容矫正的复杂文档图像校正
本文简要介绍ACM MM 2022录用论文“Marior: Margin Removal and Iterative Content Rectification for Document Dewarping in the Wild”的主要工作。该论文针对现有的矫正方法只能在紧密裁剪的文档图像上获得较为理想的矫正效果这一不足,提出了一个新的矫正方法Marior。Marior采用渐进式的矫正方式来逐步提高矫正性能。具体而言:先利用分割结果进行环境边缘去除获得初步矫正结果,再通过预测偏移场迭代式地优化该初步结果。该方法在公开数据集上取得了SOTA的结果,矫正结果数据已开源。
合合技术团队
2023/01/13
1.2K0
智能图像处理:基于边缘去除和迭代式内容矫正的复杂文档图像校正
Marior去除边距和迭代内容矫正用于自然文档矫正
本文简要介绍了论文“ Marior: Margin Removal and Iterative Content Rectification for Document Dewarping in the Wild ”的相关工作。照相机捕捉到的文档图像通常会出现透视和几何变形。考虑到视觉美感较差和OCR系统性能下降,对其进行纠正具有重要的价值。最近的基于学习的方法集中关注于精确裁剪的文档图像。然而,这可能不足以克服实际挑战,包括具有大边缘区域或没有边缘区域的文档图像。由于这种不切实际,用户在遇到大型边缘区域时难以精确地裁剪文档。同时,无边缘的变形图像仍然是一个难以解决的问题。据作者所知,目前还没有完整有效的pipeline来纠正文档图像。为了解决这个问题,作者提出了一种新的方法,称为Marior(边缘去除和迭代内容修正)。Marior采用渐进策略,以从粗到细的方式迭代地提高去变形质量和可读性。具体来说,作者将pipeline划分为两个模块:边缘去除模块(MRM)和迭代内容校正模块(ICRM)。首先,作者预测输入图像的分割掩膜去除边缘,从而得到初步结果。然后,作者通过产生密集的位移流来进一步细化图像,以实现内容感知的校正。作者自适应地确定细化迭代的次数。实验证明了作者的方法在公共基准上的最新性能。
合合技术团队
2023/04/28
7480
Marior去除边距和迭代内容矫正用于自然文档矫正
复旦提出ObjectFormer,收录CVPR 2022!图像篡改检测新工作!
本文中,复旦大学以人为本人工智能研究中心提出了ObjectFormer,借助视觉Transformer的优势建模物体层面的视觉不一致信息,从而为图像篡改检测提供了崭新的思路。该方法在常用的图像篡改数据集上取得了SOTA的效果。
Amusi
2022/06/13
2.6K0
复旦提出ObjectFormer,收录CVPR 2022!图像篡改检测新工作!
轻量级网络 LiteNeXt | 结合卷积与混合模块,以小参数实现高效图像分割 !
在医学成像中,分割是一项关键且经常执行的活动,它允许提取关于感兴趣区域的精确结构信息。手动分割既繁琐又耗时,并且需要经验丰富的专家和医生才能得到准确的结果,因此在医学诊断中构建自动分割框架是一项紧迫的任务。近年来,在包括目标识别、图像分割和图像分类在内的多种计算机视觉任务中,深度学习模型已经超越了传统技术[1, 2, 3]。在医学图像识别中,自动化学习过程的应用越来越受欢迎。在医学图像分析领域,分割模型可以帮助缩短从图像(如脑肿瘤[4, 5, 6]、脑部[7]、心脏磁共振图像中的左心室[8, 9]、皮肤镜下的皮肤病变[10, 11]、细胞显微镜图像[12, 13]、耳镜鼓膜图像[14]、整个心脏[7])中确定受损区域和感兴趣组织的时间,从而在目标勾勒过程中最小化人的主观错误,并帮助医生为患者做出准确的诊断以及制定有效的治疗方案。
AIGC 先锋科技
2024/07/08
1.2K0
轻量级网络 LiteNeXt | 结合卷积与混合模块,以小参数实现高效图像分割 !
PANet、DANet、FastFCN、OneFormer…你都掌握了吗?一文总结图像分割必备经典模型(三)
 机器之心专栏 本专栏由机器之心SOTA!模型资源站出品,每周日于机器之心公众号持续更新。 本专栏将逐一盘点自然语言处理、计算机视觉等领域下的常见任务,并对在这些任务上取得过 SOTA 的经典模型逐一详解。前往 SOTA!模型资源站(sota.jiqizhixin.com)即可获取本文中包含的模型实现代码、预训练模型及 API 等资源。 本文将分 3 期进行连载,共介绍 19 个在图像分割任务上曾取得 SOTA 的经典模型。 第 1 期:FCN、ReSeg、U-Net、ParseNet、DeepMask、S
机器之心
2023/05/22
2.3K0
PANet、DANet、FastFCN、OneFormer…你都掌握了吗?一文总结图像分割必备经典模型(三)
CFPFormer| 将特征金字塔与 Transformer 完美融合,显著提升图像分割与目标检测效果!
深度学习技术的出现,特别是像U-Net [20]这样的卷积神经网络(CNNs),通过提高图像分割和分析等任务的准确性和效率,显著推动了该领域的发展。这在现代医疗中发挥着关键作用,帮助临床医生进行准确诊断、治疗规划以及疾病监测。
集智书童公众号
2024/04/30
2K0
CFPFormer| 将特征金字塔与 Transformer 完美融合,显著提升图像分割与目标检测效果!
改进UNet | 透过UCTransNet分析ResNet+UNet是不是真的有效?
最近的很多医疗语义分割方法都采用了带有编解码器结构的U-Net框架。但是U-Net采用简单的跳跃连接方案对于全局多尺度问题进行建模仍然具有挑战性:
集智书童公众号
2021/10/12
3.2K0
改进UNet | 透过UCTransNet分析ResNet+UNet是不是真的有效?
揭秘2021抖音和快手APP图像修复背后的核心技术,毫无ps痕迹
由于CNN、GAN、Transformer等模型在CV与NLP领域都实现了很好的跨界,最近非常火热的Prompt也开始在多模态领域中有所应用了,因此我们有必要借鉴一些CV领域中Paper的idea,以拓宽自己的视野,那么今天就给大家分享一下图像修复(Image Inpainting)领域中值得一读的六篇顶会论文,希望能给大家带来一些不一样的灵感。
对白
2022/04/01
8020
揭秘2021抖音和快手APP图像修复背后的核心技术,毫无ps痕迹
实时Transformer:美团在单图像深度估计上的研究
SideRT: A Real-time Pure Transformer Architecture for Single Image Depth Estimation
3D视觉工坊
2022/06/28
1.4K0
实时Transformer:美团在单图像深度估计上的研究
PlaneTR:一种用于提取场景中3D平面特征的Transformer(ICCV 2021)
论文标题:PlaneTR: Structure-Guided Transformers for 3D Plane Recovery
3D视觉工坊
2022/04/13
5890
PlaneTR:一种用于提取场景中3D平面特征的Transformer(ICCV 2021)
AMSA-UNet | 基于自注意力的多尺度 U-Net 提升图像去模糊性能 !
早期的去模糊方法主要关注非盲去模糊,恢复已知模糊核的图像。Pan等人[1]通过计算模糊图像中暗通道的稀疏性来准确计算模糊核,以恢复清晰图像。然而,这些传统方法在处理空间变化的模糊方面存在困难,而且通常耗时。
AIGC 先锋科技
2024/07/08
2.2K1
AMSA-UNet  |  基于自注意力的多尺度 U-Net 提升图像去模糊性能 !
全新范式 | Box-Attention同时让2D、3D目标检测、实例分割轻松涨点(求新必看)
对于目标检测、实例分割、图像分类和许多其他当前的计算机视觉挑战,一个带有Multi-Head Self-Attention的Transformer可能是所有任务都需要的。Transformer在自然语言处理中取得成功后,学习远程特征依赖在计算机视觉中也被证明是一种有效的策略。
集智书童公众号
2021/12/13
1.8K0
全新范式 | Box-Attention同时让2D、3D目标检测、实例分割轻松涨点(求新必看)
TIV 2024 | MDFD2-DETR:一种基于多域特征分解与去冗余的实时复杂道路目标检测模型
准确感知道路目标信息在自动驾驶系统和交通流分析中至关重要。由于复杂道路背景的多变性、目标大小和形状的多样性以及目标之间的相互遮挡,这项任务颇具挑战性。为应对这些挑战,作者引入了一种端到端的实时复杂道路目标检测模型,名为多域特征分解与去冗余检测Transformer(MDFD2-DETR)。据作者所知,这是首个基于DETR架构、专为复杂交通场景设计的实时感知模型。具体而言,作者分析了复杂道路目标感知精度低的关键原因,并提出了多域特征分解(MDFD)模块,以减少空间、通道和频域的特征冗余。此外,作者引入了混合位置编码(HPE)策略,以实现特征之间更有效的位置交互,从而解决这一问题。为训练和评估所提出的算法,作者构建了一个名为SWJTU-100k的复杂真实道路感知数据集,包含10万个样本。实验结果表明,MDFD2-DETR在参数和GFLOPs更少的情况下,超越了现有的实时方法,包括类似YOLO和DETR的模型,在不使用CUDA加速的情况下达到82.6 FPS。此外,它在PASCAL VOC 2012数据集上的mAP@0.5提升了0.5%-1.7%,在SWJTU-100K数据集上提升了1.5%-3.3%,在KITTI数据集上提升了0.5%-1.5%,在Udacity数据集上提升了0.6%-1.5%,展现出卓越的性能。此外,基于MDFD2-DETR的多目标跟踪算法在复杂道路场景中也实现了卓越的跟踪性能。
小白学视觉
2025/04/09
1820
TIV 2024 | MDFD2-DETR:一种基于多域特征分解与去冗余的实时复杂道路目标检测模型
Panoptic SegFormer:全景分割第一名!南大&港大&英伟达提出新算法,霸榜全景分割
今日分享论文『Panoptic SegFormer』全景分割第一名!由南大&港大&NVIDIA 联合提出 Panoptic SegFormer,霸榜全景分割。
CV君
2021/09/27
1.6K0
A4-Unet:用于肿瘤分割的可变多尺度注意网络 !
近年来,脑肿瘤分割模型在诊断中发挥了重要作用。然而,它们面临着MRI复杂性和多变性的挑战,包括不规则形状和边界模糊,导致噪声、误分类和不完整的分割,从而限制了其准确性。
未来先知
2025/01/20
5130
A4-Unet:用于肿瘤分割的可变多尺度注意网络 !
【读论文】Self-supervised feature adaption for infrared and visible image fusion
(ps:由于博主关注的主要是神经网络方面的图像融合方法,对其他的不是很了解,这里只是提一下)
小王不头秃
2024/06/19
2740
【读论文】Self-supervised feature adaption for infrared and visible image fusion
提升图像分割精度:学习UNet++算法
https://cloud.tencent.com/developer/article/2465647?shareByChannel=link
忆愿
2024/11/25
1.1K1
提升图像分割精度:学习UNet++算法
解读UTNet | 用于医学图像分割的混合Transformer架构(文末获取论文)
Transformer架构已经在许多自然语言处理任务中取得成功。然而,它在医学视觉中的应用在很大程度上仍未得到探索。在这项研究中,本文提出了UTNet,这是一种简单而强大的混合Transformer架构,它将自注意力集成到卷积神经网络中,以增强医学图像分割。
集智书童公众号
2021/07/08
2.6K0
从视觉基础模型到医学图像转换,利用视觉基础模型实现高效跨模态MRI合成 !
医学影像是诊断各种疾病(尤其是在神经学和肿瘤学)的必备工具 [1]。多模态影像(如多模态MRI扫描,例如T1、T2和PD序列),可以整合不同影像序列的互补信息,从而提高诊断的准确性 [2]。不同的MRI序列可以显示不同的组织特征,有助于肿瘤、血管畸形或退行性疾病的检测 [3]。然而,获取这些不同模态需要额外的成本,包括在扫描仪中延长患者的时间。此外,由于设备限制、患者状况或长时间扫描过程中产生的运动,并非所有模态都可能可用。这些挑战推动了大量对医学影像翻译技术的需求,这些技术可以将一种影像模式合成为另一种,从而在减少多模态扫描的同时保持诊断的准确性。
未来先知
2024/12/23
3450
从视觉基础模型到医学图像转换,利用视觉基础模型实现高效跨模态MRI合成 !
推荐阅读
文档图像矫正任务的前沿进展:引入Transformer框架、极坐标的思路
1760
智能图像处理:基于边缘去除和迭代式内容矫正的复杂文档图像校正
1.2K0
Marior去除边距和迭代内容矫正用于自然文档矫正
7480
复旦提出ObjectFormer,收录CVPR 2022!图像篡改检测新工作!
2.6K0
轻量级网络 LiteNeXt | 结合卷积与混合模块,以小参数实现高效图像分割 !
1.2K0
PANet、DANet、FastFCN、OneFormer…你都掌握了吗?一文总结图像分割必备经典模型(三)
2.3K0
CFPFormer| 将特征金字塔与 Transformer 完美融合,显著提升图像分割与目标检测效果!
2K0
改进UNet | 透过UCTransNet分析ResNet+UNet是不是真的有效?
3.2K0
揭秘2021抖音和快手APP图像修复背后的核心技术,毫无ps痕迹
8020
实时Transformer:美团在单图像深度估计上的研究
1.4K0
PlaneTR:一种用于提取场景中3D平面特征的Transformer(ICCV 2021)
5890
AMSA-UNet | 基于自注意力的多尺度 U-Net 提升图像去模糊性能 !
2.2K1
全新范式 | Box-Attention同时让2D、3D目标检测、实例分割轻松涨点(求新必看)
1.8K0
TIV 2024 | MDFD2-DETR:一种基于多域特征分解与去冗余的实时复杂道路目标检测模型
1820
Panoptic SegFormer:全景分割第一名!南大&港大&英伟达提出新算法,霸榜全景分割
1.6K0
A4-Unet:用于肿瘤分割的可变多尺度注意网络 !
5130
【读论文】Self-supervised feature adaption for infrared and visible image fusion
2740
提升图像分割精度:学习UNet++算法
1.1K1
解读UTNet | 用于医学图像分割的混合Transformer架构(文末获取论文)
2.6K0
从视觉基础模型到医学图像转换,利用视觉基础模型实现高效跨模态MRI合成 !
3450
相关推荐
文档图像矫正任务的前沿进展:引入Transformer框架、极坐标的思路
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档