Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >截屏、文字提取一气呵成,超实用OCR开源小工具

截屏、文字提取一气呵成,超实用OCR开源小工具

作者头像
机器之心
发布于 2023-05-01 09:40:07
发布于 2023-05-01 09:40:07
1.1K0
举报
文章被收录于专栏:机器之心机器之心

机器之心报道

机器之心编辑部

这个文本 OCR 小工具,能让你「所截即所得」。

在我们办公时,是不是经常遇到图片内容转文字的需求?

你是用什么工具解决的呢?是手机自带拍照转文字功能?还是使用 QQ 里面的工具?

今天我们就为大家介绍一款 GitHub 用户 ianzhao05 刚发布的小工具——textshot,只需要截屏就能实时生成文字。读者也可以通过此项目大致了解如何对图像中的文本进行识别。

项目链接:https://github.com/ianzhao05/textshot

使用方法

运行 textshot.py,在屏幕上打开一个 overlay,在你希望提取的文字区域画一个矩形。

使用可选的命令行参数指定语言。例如,python textshot.py eng + fra 将使用英语作为主要语言,使用法语作为次要语言。默认值为英语(eng)。同时确保为其他语言安装了适用于 Tesseract 的数据文件。

建议将热键附加到此工具上。对于 Windows 来说,可以使用 AutoHotkey 脚本来完成此操作;textshot.ahk 同时也包含一个可以使用的示例 AHK 脚本。

如果是 Ubuntu 系统,可以打开「键盘设置」,其中显示了所有 Gnome 快捷方式。底部有一个「+」按钮,可用于添加你自己的快捷方式。单击并将其命令设置为 / usr / bin / python3 <path-to-textshot.py>。如果使用的是 venv,则上面的 python3 路径应指向 venv 的 python3 而不是全局 python3。

部分代码展示

如何安装

  1. 安装 Python 3;
  2. 复制 TextShot 库,并使用跳转命令 cd 进入该库;
  3. (可选项)创建一个虚拟环境,例如使用 python -m venv .venv ;
  4. 使用 pip install -r requirements.txt 安装所需的软件包;
  5. 安装 Google 的 Tesseract OCR 引擎(https://github.com/tesseract-ocr/tesseract),并通过将目录添加到系统路径来确保可以从命令行访问 tesseract。

这个实用小工具的开发也离不开谷歌经典 OCR 开源项目 Tesseract。

Tessract 的使用

Tesseract 是目前最好的用于机器打印字符识别的开源 OCR 工具。20 世纪 80 年代由 Hewlett Packard 开发,2005 年开源,自 2006 年起由谷歌赞助开发。该工具在受控条件下也能很好地运行,但是如果存在大量噪声或者图像输入 Tesseract 前未经恰当处理,则性能较差。

Tesseract OCR 引擎于 20 世纪 80 年代出现,更新迭代至今,它已经包括内置的深度学习模型,变成了十分稳健的 OCR 工具。而 Tesseract 和 OpenCV 的 EAST 检测器是一个很棒的组合,感兴趣的读者可参考机器之心报道

Tesseract 支持 Unicode(UTF-8)字符集,可以识别超过 100 种语言,还包含多种输出支持,比如纯文本、PDF、TSV 等。但是为了得到更好的 OCR 结果,还必须提升提供给 Tesseract 的图像的质量。

值得注意的是,在执行实际的 OCR 之前,Tesseract 会在内部执行多种不同的图像处理操作(使用 Leptonica 库)。通常情况下表现不错,但在一些特定的情况下的效果却不够好,导致准确度显著下降。在将图像传递给 Tesseract 之前,可以尝试以下图像处理技术,但具体使用哪些技术取决于使用者想要读取的图像:

  1. 反转图像
  2. 重新缩放
  3. 二值化
  4. 移除噪声
  5. 旋转/调整倾斜角度
  6. 移除边缘

所有这些操作都可以使用 OpenCV 或通过 Python 使用 numpy 实现。

Tesseract (v4) 最新版本支持基于深度学习的 OCR,准确率显著提高。底层的 OCR 引擎使用的是一种循环神经网络(RNN)——LSTM 网络。

中文 OCR 项目

中文 OCR,像身份证识别、火车票识别都是常规操作,它也可以实现更炫酷的功能,例如翻译笔在书本上滑动一行,自动获取完整的图像,并识别与翻译中文。

目前比较常用的中文 OCR 开源项目是 chineseocr,它基于 YOLO V3 与 CRNN 实现中文自然场景文字检测及识别,目前该项目已经有 2.5K 的 Star 量。

而机器之心之前介绍过另一个开源的中文 OCR 项目,基于 chineseocr 做出改进,是一个超轻量级的中文字符识别项目。详情可参考:实测超轻量中文OCR开源项目,总模型仅17M

项目地址:https://github.com/ouyanghuiyu/chineseocr_lite

该项目表示,相比 chineseocr,chineseocr_lite 采用了轻量级的主干网络 PSENet,轻量级的 CRNN 模型和行文本方向分类网络 AngleNet。尽管要实现多种能力,但 chineseocr_lite 总体模型只有 17M。目前 chineseocr_lite 支持任意方向文字检测,在识别时会自动判断文本方向。如下图所示机器之心实测效果示例:

机器之心联合 AWS 开设线上公开课,通过 6 次直播课程帮助大家熟悉 Amazon SageMaker 各项组件的使用方法,轻松玩转机器学习

6 月 2 日 20:00,AWS解决方案架构师尹振宇将带来第 3 课,详解如何利用SageMaker Operator简化Kubernetes 上的机器学习任务管理。

点击阅读原文或识别二维码,立即预约直播。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-05-30,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
安利一款开源 OCR 工具,可快速提取截屏文字!
今天我们就为大家介绍一款 GitHub 用户 ianzhao05 刚发布的小工具 ——textshot,只需要截屏就能实时生成文字。读者也可以通过此项目大致了解如何对图像中的文本进行识别。
程序猿DD
2020/12/18
2.6K0
安利一款开源 OCR 工具,可快速提取截屏文字!
超轻量级中文OCR,支持竖排文字识别、ncnn推理,总模型仅17M
光学字符识别(OCR)技术已经得到了广泛应用。比如发票上用来识别关键字样,搜题App用来识别书本上的试题。
AI科技大本营
2020/03/17
4.1K0
GitHub 热榜:文字识别神器,超轻量级中文 OCR!
光学字符识别(OCR)技术已经得到了广泛应用。比如发票上用来识别关键字样,搜题 App 用来识别书本上的试题。
GitHubDaily
2020/03/19
2.9K0
GitHub 项目推荐 | 轻量级中文 OCR
今天和大家介绍一个超轻量级的中文 OCR 项目,目前这个项目已在 GitHub 上标星 6.7k。
机器学习之禅
2022/07/11
3.1K0
GitHub 项目推荐 | 轻量级中文 OCR
它会不会成为OCR领域霸主?经过一个月的分析,我得出了这些结论
文章目录 《这是我见过最强的OCR开源算法模型了》 前言 一、来吧,展示! 二、OCR简介 (一)什么是OCR (二)应用举例 (三)OCR难点 三、PaddleOCR介绍 (一)总结介绍 (二)相关地址总结 四、PaddleOCR的使用 (一)PaddleOCR项目介绍 (二)测试自己的数据 五、多维度对比分析 (一)教程的完备性对比 (二)易用性对比 (三)运行速度对比 (四)精度对比 (五)多角度对比 (六)其他分析 六、总结 《这是我见过最强的OCR开源算法模型了》 前言 最近参加“中国软件杯”的一
手撕代码八百里
2020/10/26
3.5K2
实测超轻量中文OCR开源项目,总模型仅17M
光学字符识别(OCR)现在已经有很广泛的应用了,很多开源项目都会嵌入已有的 OCR 项目来扩展能力,例如 12306 开源抢票软件,它就会调用其它开源 OCR 服务来识别验证码。很多流行的开源项目,其背后或多或少都会出现 OCR 的身影。
OpenCV学堂
2020/03/10
1.9K0
实测超轻量中文OCR开源项目,总模型仅17M
GitHub开源:支持100多种语言的OCR文字识别
之前为给位朋友分享过:GitHub开源:17M超轻量级中文OCR模型、支持NCNN推理,该项目仅仅支持中文OCR识别,本篇博文将分享支持100多种语言的OCR文字识别项目:Tesseract OCR。
不脱发的程序猿
2021/01/20
1.8K0
免费的OCR识别工具就是香!
经常在网上查询文档资料的朋友一定有过这样的经历:好不容易找到了需要的内容,可是别说下载了,连复制一句话都不给复制的。尤其是 PDF 文档和图片类资料,就算我们充值下载到本地,很多也无法复制文本,只能手动敲出来。
永恒君
2022/12/06
6.3K0
免费的OCR识别工具就是香!
开源的OCR工具基本使用:PaddleOCR/Tesseract/CnOCR
因项目需要,调研了一下目前市面上一些开源的OCR工具,支持本地部署,非调用API,主要有PaddleOCR/CnOCR/chinese_lite OCR/EasyOCR/Tesseract/chineseocr/mmocr这几款产品。 本文主要尝试了EasyOCR/CnOCR/Tesseract/PaddleOCR这四款产品。
zstar
2024/05/24
3.1K0
开源的OCR工具基本使用:PaddleOCR/Tesseract/CnOCR
图像OCR技术实践,让前端也能轻松上手图像识别
首先和大家演示一下实现的效果,我们的最终目标是基于一张图片,通过技术的手段自动提取图片的信息,并展示到文档中,提高文档编写的效率。
徐小夕
2024/06/18
3660
图像OCR技术实践,让前端也能轻松上手图像识别
一个悄然崛起的国产 OCR 开源项目
经过多年累计后,该项目 GitHub Star 数量已超过 20000+,并频频登上 GitHub Trending 和 Paperswithcode 日榜月榜第一。
HelloGitHub
2022/05/22
1.3K0
一个悄然崛起的国产 OCR 开源项目
GitHub开源:17M超轻量级中文OCR模型、支持NCNN推理
近期GitHub上一位大神开源了一个叫做chineseocr_lite的OCR的项目,这是一个超轻量级中文OCR,支持竖排文字识别、NCNN推理,识别模型型仅17M(Psenet (8.5M) + crnn (6.3M) + anglenet (1.5M))。
不脱发的程序猿
2021/01/20
2.6K0
基于Tesseract组件的OCR识别
欲研究C#端如何进行图像的基本OCR识别,找到一款开源的OCR识别组件。该组件当前已经已经升级到了4.0版本。和传统的版本(3.x)比,4.0时代最突出的变化就是基于LSTM神经网络。Tesseract本身是由C++进行编写,但为了同时适配不同的语言进行调用,开放调用API并产生了诸如Java、C#、Python等主流语言在内的封装版本。本次主要研究C#封装版。
w4ngzhen
2023/10/18
8720
基于Tesseract组件的OCR识别
OCR光学字符识别方法汇总
文本是人类最重要的信息来源之一,自然场景中充满了形形色色的文字符号。光学字符识别(OCR)相信大家都不陌生,就是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。
小白学视觉
2022/04/06
1.9K0
OCR光学字符识别方法汇总
OCR提取图片中的文字
OCR (Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。
生信交流平台
2020/08/06
18.1K0
OCR提取图片中的文字
9款文字识别(OCR)工具推荐!涵盖移动端、网页端、PC端,满足您的所有需求!
在当今数字化时代,文字识别技术(OCR)已成为我们日常生活和工作中的重要工具。 OCR可以将图像或纸质文件中的文字转化为可编辑和可搜索的数字格式,为我们提供了便捷和高效的方式来处理大量的文本信息。
Python兴趣圈
2023/11/10
21.6K0
9款文字识别(OCR)工具推荐!涵盖移动端、网页端、PC端,满足您的所有需求!
飞桨文字识别模型套件PaddleOCR首次开源,带来8.6M超轻量中英文OCR模型!
OCR技术有着丰富的应用场景,包括已经在日常生活中广泛应用的面向垂类的结构化文本识别,如车牌识别、银行卡信息识别、身份证信息识别、火车票信息识别等等,此外,通用OCR技术也有广泛的应用,如在视频场景中,经常使用OCR技术进行字幕自动翻译、内容安全监控等等,或者与视觉特征相结合,完成视频理解、视频搜索等任务。
用户1386409
2020/06/04
3.1K0
飞桨文字识别模型套件PaddleOCR首次开源,带来8.6M超轻量中英文OCR模型!
GitHub Trending第一之后,PaddleOCR再发大招:百度自研顶会SOTA算法正式开源!
要说生活里最常见、最便民的AI应用技术,OCR(Optical Character Recognition,光学字符识别)当属其中之一。寻常到日常办理各种业务时的身份证识别,前沿到自动驾驶车辆的路牌识别,都少不了它的加持。
CV君
2020/08/21
1.6K0
GitHub Trending第一之后,PaddleOCR再发大招:百度自研顶会SOTA算法正式开源!
三年磨一剑——微信OCR图片文字提取
导语 | 2021年1月, 微信发布了微信8.0, 这次更新支持图片文字提取的功能。用户在聊天界面和朋友圈中长按图片就可以提取图片中文字,然后一键转发、复制或收藏。图片文字提取功能基于微信自研OCR技术,本文将介绍微信OCR能力是如何落地文字提取业务的。文章作者:伍敏慧,腾讯WXG研发工程师。 一、背景 微信8.0上线了图片提取文字的功能,用户在聊天界面和朋友圈中如果想提取图像中的文字,不用再辛苦打字了,只要简单几个步骤,就可以拿到图片中的文字内容,超级方便实用。 图1 微信客户端提取图片中的
腾讯云开发者
2021/03/08
22K3
GitHub 热点速览 Vol.11:回暖的 GitHub 迎来上千星的图片流项目
作者:HelloGitHub-小鱼干 摘要:连着两周成绩平平的 GitHub Trending 榜,终于和三月的天气一样进入全面变暖的模式,无论是本周刚开源搭乘 ocr 热点并获得 1,500+ star 的 chineseocr_lite,还是借着国外疫情大爆发这股“东风”一周获得近 5,000+ star 的可视化项目 COVID-19,或是 Google Drive 升级版可备份的云盘项目 MyDrive 都交上了不错的成绩单,500,1,000,2,000…这是本周 GitHub 新生项的成绩单,当
HelloGitHub
2021/05/14
7040
推荐阅读
相关推荐
安利一款开源 OCR 工具,可快速提取截屏文字!
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档