前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >浙江大学和海康威视提出:视频场景文本定位算法SVST(集成检测,跟踪和识别于一体)

浙江大学和海康威视提出:视频场景文本定位算法SVST(集成检测,跟踪和识别于一体)

作者头像
Amusi
发布于 2019-05-05 09:56:31
发布于 2019-05-05 09:56:31
2.2K0
举报
文章被收录于专栏:CVerCVer

前戏

【导读】本文分享一篇浙江大学和海康威视最新联合提出的视频场景文本定位(Video Scene Text Spotting)方向的算法:SVST(spotting video scene text)。之前CVer曾分享过场景文本检测相关的论文

正文

《Efficient Video Scene Text Spotting: Unifying Detection, Tracking, and Recognition》

arXiv: https://arxiv.org/abs/1903.03299

github: None

作者团队:浙江大学 & 海康威视

注:2019年03月08日刚出炉的paper

Abstract:本文提出了一个统一的框架,用于有效地发现/定位视频中的场景文本(scene text)。 该方法定位并跟踪每个帧中的文本,并一次性识别每个跟踪的文本流。具体而言,我们首先训练空间 - 时间(spatial-temporal)文本检测器,用于定位连续帧中的文本区域。其次,训练设计良好的文本跟踪器(tracker),用于将定位的文本区域分组成相应的裁剪文本流。为了有效地发现视频文本,我们使用文本区域质量评分机制一次性识别每个跟踪的文本流,而不是逐个识别裁剪的文本区域。两个公共 benchmarks 测试的实验表明,我们的方法实现了很高效的性能。

本文算法(SVST)

SVST算法如下图所示,主要包含4个模块:

  • 文本检测器:spatial-temporal text detector(SVTD)
  • 文本跟踪器:text tracker(TRIN)
  • 质量评分器:quality scorer(TSSN)
  • 文本识别器:text recognizor

其中特征提取的网络是使用:ResNet Backbone + Conv Blocks组合

1 视频文本检测

文本检测框架如下图所示,将 EAST算法的backbone作为本算法的backbone。在这里,通过时空聚合(spatial-temporal aggregation)策略来学习连续帧之间的关系,以改善视频文本检测过程,可以分为三个步骤:1)利用特征变形机制增强帧之间的时间相干性,2)具有比较和匹配策略的帧之间的空间匹配,3)时间聚合。

2 文本区域跟踪

跟踪任务旨在将相应的文本区域分组为文本流(text streams),如下图所示。 直观地,跟踪器应该能够确保一个流中的文本区域的特征应该与相同流中的文本区域的特征具有比其他流更接近的距离,这意味着:1)这些特征必须具有足够的辨别力,以容忍无约束场景中的各种干扰,2)如果用良好的距离测量训练,模块可能会更好。

3 文本流评分

在本模块中,通过引用QAN(quality aware network)来构建文本流评分网络(TSSN),如下图所示。

4 文本识别

在本算法中,文本识别模块不是关注的焦点,所以只选择基于注意力(attention-based)的方法作为解码器。如下图所示:

5 联合学习TRIN和TSSN

实际上,如果 TRIN(文本跟踪器)TSSN(质量评分器)共享相同的神经网络(如下图所示)并且同时进行训练会更好,因为1)度量学习可以帮助提取文本流评分的高判别性特征,2)由文本脚本驱动的文本流评分任务可以帮助增强特征对不同文本的区分,以及 3)参数共享进一步降低了计算成本。

实验结果

本文在 IC13 和 IC15 数据集上进行测试,项目代码是基于Caffe框架进行实现。

文本检测实验结果:

文本跟踪实验结果

质量评分实验结果

文本识别实验结果

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-03-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CVer 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
SPTS v2:华科华工联合发布,端到端文本检测识别提速19倍
近年来,场景文本阅读(Text Spotting)有了显著进步,能同时定位和识别文本,广泛应用于智慧办公、金融、交通等领域。
公众号机器学习与AI生成创作
2023/11/03
3190
SPTS v2:华科华工联合发布,端到端文本检测识别提速19倍
视频理解 S3D,I3D-GCN,SlowFastNet, LFB
最近看了下几篇动作识别,视频理解的文章,在这里记下小笔记,简单过一下核心思想,以便后续查阅及拓展使用。
SIGAI学习与实践平台
2018/12/28
1.8K0
视频理解 S3D,I3D-GCN,SlowFastNet, LFB
CRAFTS:端对端的场景文本检测器
场景文本检测器由文本检测和识别模块组成。许多研究已经将这些模块统一为一个端到端可训练的模型,以获得更好的性能。一个典型的体系结构将检测和识别模块放置到单独的分支中,通常使用RoI pooling来让这些分支共享一个视觉特征。然而,当采用使用基于注意力的解码器和表示字符区域空间信息的检测器时,仍然有机会在模块之间建立更互补的连接。这是可能的,因为这两个模块共享一个共同的子任务,即查找字符区域的位置。
合合技术团队
2022/11/09
7800
CRAFTS:端对端的场景文本检测器
Siam R-CNN:通过重检测进行视觉跟踪
Siam R-CNN是亚琛工业大学&牛津大学联合推出的,核心是通过重检测进行视觉跟踪,并构建了基于轨迹的动态规划算法,建模被跟踪对象和潜在干扰对象的完整历史。效率方面,该方法可以在 ResNet-101 上达到 4.7 FPS,在 ResNet-50 上达到 15 FPS 。
AiCharm
2023/05/15
7780
Siam R-CNN:通过重检测进行视觉跟踪
TPAMI-2024 | Uni-AdaFocus视频理解框架,让AI学会「划重点」,计算效率提升4-23倍!
本文介绍刚刚被 IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI) 录用的一篇文章:Uni-AdaFocus: Spatial-temporal Dynamic Computation for Video Recognition,会议版本 AdaFocus V1/V2/V3 分别发表于 ICCV-2021 (oral)、CVPR-2022、ECCV-2022。
机器之心
2025/02/03
770
TPAMI-2024 | Uni-AdaFocus视频理解框架,让AI学会「划重点」,计算效率提升4-23倍!
Mask TextSpotter v3 来了!最强端到端文本识别模型
近日 Mask TextSpotter v3 发布,代码已开源,论文 Mask TextSpotter v3: Segmentation Proposal Network for Robust Scene Text Spotting 详细介绍了其要解决的问题、使用的方案和达到的性能,此次更新依然带来惊喜,在多个数据集上大幅刷新了SOTA!
CV君
2020/08/17
1.2K0
​行为分析:视觉跟踪技术在零售分析中的应用
在零售业中,了解顾客行为对于优化店铺布局、提升顾客体验和增加销售额至关重要。视觉跟踪技术,作为行为分析的一种手段,通过分析摄像头捕获的视频数据,提供了一种自动化和高效的解决方案。本文将深入探讨视觉跟踪技术的原理、在零售分析中的应用案例、面临的挑战以及未来的发展方向。
数字扫地僧
2024/05/07
2410
无需标注数据集,自监督注意力机制就能搞定目标跟踪
想要了解什么是自监督注意力机制,我们可能需要先去了解什么是光流估计(optical flow estimation),以及它为何被人类和计算机视觉系统作为一种目标跟踪方法。
机器之心
2020/08/12
9320
无需标注数据集,自监督注意力机制就能搞定目标跟踪
视频识别 动作识别 实时异常行为识别 等所有行为识别
大家好,我是cv君,很多大创,比赛,项目,工程,科研,学术的炼丹术士问我上述这些识别,该怎么做,怎么选择框架,今天可以和大家分析一下一些方案:
青年夏日
2021/04/18
4.8K2
视频识别 动作识别 实时异常行为识别 等所有行为识别
学界 | 海康威视联合提出注意力聚焦网络FAN:提升场景文本识别精确度
选自arXiv 机器之心编译 参与:路雪、黄小天 鉴于目前注意力机制方法在场景文本识别中表现欠佳,近日,海康威视、复旦大学与上海交通大学等在 arXiv 上联合发表了一篇题为《Focusing Attention: Towards Accurate Text Recognition in Natural Images》的论文,其中提出了一种称为注意力聚焦网络(FAN)的新方法,可有效对齐注意力与图像中的目标区域,调整偏移注意力,成功解决了注意力漂移问题,从而显著提升场景文本识别精确度。在不同基准(包括 II
机器之心
2018/05/10
1.4K0
FOTS:端到端的文本检测与识别方法的理论与应用
目前的主流算法也可以分成单阶段和两阶段两大类两阶段的方法都是基于目标检测和实例分割中常用的算法Faster R-CNN 和Mask R-CNN。Li 等人(2017a)提出了第1个基于深度学习的端到端自然场景文本检测和识别算法,该方法基于Faster R-CNN 进行检测,将通过RoI-Pooling 提取的共享特征送入基于注意力机制(Attention)的识别器进行文本识别,但该方法只能检测识别水平方向的文本。Lyu 等人(2018b) 基于Mask R-CNN 提出了MaskTextSpotter,该方法在RoI-Align 之后额外增加了一个单字实例分割的分支,对文本的识别也是依赖于该分支的单字符分类。
合合技术团队
2022/11/04
1.1K0
FOTS:端到端的文本检测与识别方法的理论与应用
视频场景图生成任务新SOTA!中山大学提出全新时空知识嵌入框架,登顶刊TIP'24
该任务不仅需要全面了解分散在整个场景中的每个对象,还需要深入研究它们在时序上的运动和交互。
新智元
2024/01/12
4280
视频场景图生成任务新SOTA!中山大学提出全新时空知识嵌入框架,登顶刊TIP'24
【文本检测与识别白皮书-3.2】第三节:常用的文本识别模型
2017年华中科技大学在发表的论文《An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition》提出了一个识别文本的方法,这种方法就是CRNN。该模型主要用于解决基于图像的序列识别问题,特别是场景文本识别问题。
合合技术团队
2022/11/03
2.2K0
【文本检测与识别白皮书-3.2】第三节:常用的文本识别模型
AI综述专栏 | 复杂环境文字识别技术研究及应用进展
在科学研究中,从方法论上来讲,都应先见森林,再见树木。当前,人工智能科技迅猛发展,万木争荣,更应系统梳理脉络。为此,我们特别精选国内外优秀的综述论文,开辟“综述”专栏,敬请关注。
马上科普尚尚
2020/05/11
1.1K0
AI综述专栏 | 复杂环境文字识别技术研究及应用进展
基于深度学习的视觉目标跟踪方法
以前写过一个“自动驾驶中的目标跟踪”介绍,这次重点放在深度学习和摄像头数据方面吧。
小白学视觉
2021/12/17
1.6K0
基于深度学习的视觉目标跟踪方法
自然场景文本检测识别技术综述
0629封面.jpg 番外 青蛇: 姐, 图像文本检测和识别领域现在的研究热点是什么? 白蛇: 白纸黑字的扫描文档识别技术已经很成熟,而自然场景图像文本识别的效果还不理想。倾斜字、艺术字、变形字、模
SIGAI学习与实践平台
2018/06/30
7.8K1
自然场景文本检测识别技术综述
Swahili-text:华中大推出非洲语言场景文本检测和识别数据集 | ICDAR 2024
论文: The First Swahili Language Scene Text Detection and Recognition Dataset
VincentLee
2024/08/26
1080
Swahili-text:华中大推出非洲语言场景文本检测和识别数据集 | ICDAR 2024
计算机视觉算法中的 多目标跟踪(Multi-object Tracking)
计算机视觉领域中的目标跟踪是一项重要的研究任务,它涉及在视频序列中自动识别和跟踪多个感兴趣的目标。多目标跟踪(Multi-object Tracking)旨在从连续的图像帧中准确地定位和跟踪多个目标,同时保持目标的身份一致性。本文将介绍多目标跟踪的基本概念、常见的算法和应用领域。
大盘鸡拌面
2023/09/18
3.4K0
CVPR 2018 | 华中科技大学提出多向文本检测方法:基于角定位与区域分割
选自arXiv 作者:Pengyuan Lyu等 机器之心编译 参与:Nurhachu Null、李泽南 在计算机视觉的应用场景里,对图像中的文本进行准确识别是重要而相对困难的任务。来自华中科技大学的研究者们近日提出了一种全新的多项文本检测方法,大幅提高了机器学习的识别准确度。该研究已被即将于 6 月 18 日在美国盐湖城举行的 CVPR 2018 大会接收。 简介 最近,由于现实世界应用(如产品搜索 [4],图像检索 [19],以及自动驾驶)需求的增长,从自然场景图像中提取文本信息的研究正变得越来越流行
机器之心
2018/05/09
1.2K0
CVPR 2018 | 华中科技大学提出多向文本检测方法:基于角定位与区域分割
文字识别刷新世界纪录,海康威视浦世亮新智元“AI春节”解密安防大数据 | 新智元峰会演讲
【新智元导读】在3月27日举行的中国“AI春节”——2017新智元开源·生态AI技术峰会上,海康威视研究院院长浦世亮发表演讲《安防大数据驱动下的智慧生活》,介绍海康在智能+安防领域的技术探索。海康威视是全球视频监控No.1,近年来布局安全视频监控发展,物联网以及视频大数据和智能视频分析,产业表现强劲,在以 ImageNet 为代表的国际技术竞赛中也一直都有抢眼的成绩。 演讲中,浦世亮介绍了应对安防大数据三大挑战,以及海康威视的应对之道:挖掘无标签数据中的隐藏信息做额外反馈,化解标记数据成本高的问题;多传感器
新智元
2018/03/27
1.5K0
文字识别刷新世界纪录,海康威视浦世亮新智元“AI春节”解密安防大数据 | 新智元峰会演讲
推荐阅读
SPTS v2:华科华工联合发布,端到端文本检测识别提速19倍
3190
视频理解 S3D,I3D-GCN,SlowFastNet, LFB
1.8K0
CRAFTS:端对端的场景文本检测器
7800
Siam R-CNN:通过重检测进行视觉跟踪
7780
TPAMI-2024 | Uni-AdaFocus视频理解框架,让AI学会「划重点」,计算效率提升4-23倍!
770
Mask TextSpotter v3 来了!最强端到端文本识别模型
1.2K0
​行为分析:视觉跟踪技术在零售分析中的应用
2410
无需标注数据集,自监督注意力机制就能搞定目标跟踪
9320
视频识别 动作识别 实时异常行为识别 等所有行为识别
4.8K2
学界 | 海康威视联合提出注意力聚焦网络FAN:提升场景文本识别精确度
1.4K0
FOTS:端到端的文本检测与识别方法的理论与应用
1.1K0
视频场景图生成任务新SOTA!中山大学提出全新时空知识嵌入框架,登顶刊TIP'24
4280
【文本检测与识别白皮书-3.2】第三节:常用的文本识别模型
2.2K0
AI综述专栏 | 复杂环境文字识别技术研究及应用进展
1.1K0
基于深度学习的视觉目标跟踪方法
1.6K0
自然场景文本检测识别技术综述
7.8K1
Swahili-text:华中大推出非洲语言场景文本检测和识别数据集 | ICDAR 2024
1080
计算机视觉算法中的 多目标跟踪(Multi-object Tracking)
3.4K0
CVPR 2018 | 华中科技大学提出多向文本检测方法:基于角定位与区域分割
1.2K0
文字识别刷新世界纪录,海康威视浦世亮新智元“AI春节”解密安防大数据 | 新智元峰会演讲
1.5K0
相关推荐
SPTS v2:华科华工联合发布,端到端文本检测识别提速19倍
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档