Loading [MathJax]/jax/input/TeX/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >我不信,这个项目 OCR 识别准确率居然能这么高!

我不信,这个项目 OCR 识别准确率居然能这么高!

作者头像
永恒君
发布于 2022-12-07 09:24:41
发布于 2022-12-07 09:24:41
2.5K00
代码可运行
举报
文章被收录于专栏:开源小分队开源小分队
运行总次数:0
代码可运行

大家好,我是爱撸码的开源大叔!

如果你经常使用某些 OCR API,肯定受够了调用次数限制问题。

那么,今天大叔给大家分享一个开源的 OCR 识别库:Tesseract.js

简介

Tesseract.js是基于Tesseract的一个纯 Javascript 编程语言的 ocr 识别库,简单实用。支持包括中英文等100多种语言(包括中文)的图片和视频文字识别,自动文本方向和脚本检测,用于读取段落,单词和字符边界框的简单界面,底层封装了Tesseract OCR引擎来实现。

Tesseract 从4.0版本之后增加了基于 LSTM 神经网络的识别引擎,可以通过训练出自己的词库,让识别的准确率接近100%!

这意味着,Tesseract.js同样能够继承如此牛逼的、接近100%的、超高准确率。目前 Github 上收获28.6k+ star

效果展示

图片识别 :

视频实时识别

安装

Tesseract.js可以在浏览器和具有 Node.js 服务器上安装使用。

在浏览器中,可以直接在 html 页面上通过 script 标签引入CDN 外链使用:

在 Node.js 中则输入如下代码:

注:Tesseract.js v3 要求 Node.js 的版本在 v14 及以上才行。

使用

一旦安装完成,就可以非常轻松的使用了

或者更加命令式编程的方式。

使用这种方式的好处就是可以自定义构建一个 worker,实现一些诸如如语言配置、训练数据词库等等的简单配置。

官方还给出了10种使用方式,你可以用在你任何想使用的地方。

关于项目的更多细节、功能,感兴趣的小伙伴可以去项目地址探索~~~

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
官网地址 https://tesseract.projectnaptha.com
github地址 https://github.com/naptha/tesseract.js
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-11-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 开源小分队 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
一款让OCR识别正确率趋近100%的库
Tesseract.js 一个 纯Javascript编程语言的 ocr 识别库,简单实用。
程序员老鱼
2022/12/02
3.6K0
免费的OCR识别工具就是香!
经常在网上查询文档资料的朋友一定有过这样的经历:好不容易找到了需要的内容,可是别说下载了,连复制一句话都不给复制的。尤其是 PDF 文档和图片类资料,就算我们充值下载到本地,很多也无法复制文本,只能手动敲出来。
永恒君
2022/12/06
6.5K0
免费的OCR识别工具就是香!
图像OCR技术实践,让前端也能轻松上手图像识别
首先和大家演示一下实现的效果,我们的最终目标是基于一张图片,通过技术的手段自动提取图片的信息,并展示到文档中,提高文档编写的效率。
徐小夕
2024/06/18
4830
图像OCR技术实践,让前端也能轻松上手图像识别
开源的OCR工具基本使用:PaddleOCR/Tesseract/CnOCR
因项目需要,调研了一下目前市面上一些开源的OCR工具,支持本地部署,非调用API,主要有PaddleOCR/CnOCR/chinese_lite OCR/EasyOCR/Tesseract/chineseocr/mmocr这几款产品。 本文主要尝试了EasyOCR/CnOCR/Tesseract/PaddleOCR这四款产品。
zstar
2024/05/24
3.7K0
开源的OCR工具基本使用:PaddleOCR/Tesseract/CnOCR
GitHub开源:支持100多种语言的OCR文字识别
之前为给位朋友分享过:GitHub开源:17M超轻量级中文OCR模型、支持NCNN推理,该项目仅仅支持中文OCR识别,本篇博文将分享支持100多种语言的OCR文字识别项目:Tesseract OCR。
不脱发的程序猿
2021/01/20
1.8K0
tesseract-ocr 实现图片识别功能
http://blog.sina.com.cn/s/blog_56d988430102w37c.html
bear_fish
2018/09/19
6.2K0
tesseract-ocr 实现图片识别功能
Rust 赋能前端:图片OCR识别,以后可以抛弃tesseract了
大家好,我是柒八九。一个专注于前端开发技术/Rust及AI应用知识分享的Coder
前端柒八九
2025/01/03
4100
Rust 赋能前端:图片OCR识别,以后可以抛弃tesseract了
WASM·技术趋势
今天看到一则故事,一名程序员@Andreas Kling 辞掉工作,全职开发操作系统。正如其签名档一样:I like computers! 对技术的热爱已经超越了工作本身,完全是兴趣所在
mixlab
2021/10/12
1.8K0
Java使用Tesseract-OCR实战
tesseract-ocr-w64-setup-v5.3.0.20221214.exe 选择安装目录,下一步,下一步默认安装
九转成圣
2024/04/10
6780
3.4K star!全能PDF处理神器开源!文档转换/OCR识别一键搞定
嗨,大家好,我是小华同学,关注我们获得“最新、最全、最优质”开源项目和高效工作学习方法
小华同学ai
2025/03/03
3840
3.4K star!全能PDF处理神器开源!文档转换/OCR识别一键搞定
基于Tesseract组件的OCR识别
欲研究C#端如何进行图像的基本OCR识别,找到一款开源的OCR识别组件。该组件当前已经已经升级到了4.0版本。和传统的版本(3.x)比,4.0时代最突出的变化就是基于LSTM神经网络。Tesseract本身是由C++进行编写,但为了同时适配不同的语言进行调用,开放调用API并产生了诸如Java、C#、Python等主流语言在内的封装版本。本次主要研究C#封装版。
w4ngzhen
2023/10/18
9580
基于Tesseract组件的OCR识别
爬取微信公众号所有历史文章 - (03) python结合tesseract-ocr做图文识别
前面我们讲到了adb的封装,里面具体讲到到了在一副图片中寻找目标的坐标并点击。这篇文章我们讲讲对一副图片的特定区域做截取,并利用开源库做图纹识别。
efonfighting
2019/08/02
1.5K0
爬取微信公众号所有历史文章 - (03) python结合tesseract-ocr做图文识别
Python OCR库:自动化测试验证码识别神器!
在接口自动化工作中,经常需要处理文字识别的任务,而OCR(Optical Character Recognition,光学字符识别)库能够帮助我们将图像中的文字提取出来。Python中有几个常用的OCR库,包括pyocr、pytesseract和python- tesseract、EasyOCR。本文将对它们进行比较,并提供一些示例代码来演示它们在实际接口自动化工作中的应用。
测试开发技术
2023/09/11
6.8K0
Python OCR库:自动化测试验证码识别神器!
Node.js识别图片验证码
当我们使用无头浏览器做自动化爬虫时经常会处理到一些表单的自动填写,被爬取的网站当然也少不了验证码过滤,目前Web端常用的还是传统的图片验证码。我这里讲解一个Node.js识别图片验证码的Demo,是我在内蒙古高考报名志愿时候需要时候自动填写验证码时候做的测试。
用户6256742
2022/07/06
4.2K0
Node.js识别图片验证码
Python 图片识别 OCR
文章目录 Python 图片识别 OCR #1 需求 #2 环境 #3 安装 #3.1 macOS #3.2 Linux(CentOS) #4 使用 #4.1 python安装pytesseract库 #4.2 Python代码 #5 在线案例 Python 图片识别 OCR #1 需求 识别图片中的信息,如二维码 #2 环境 macOS / Linux Python3.7.6 #3 安装 #3.1 macOS 安装 tesseract //只安装tesseract,不安装训练工具 brew install
Autooooooo
2020/11/07
18.2K0
图像版PDF文件OCR识别转换为文本的3款免费工具软件
图像版PDF文件里面都是图片,要先通过OCR技术识别出文本,然后才能进行进一步处理编辑。下面是3个免费的PDF文件OCR识别软件工具:
AIGC部落
2024/06/24
7670
图像版PDF文件OCR识别转换为文本的3款免费工具软件
[AI测试]python文字图像识别tesseract
github官网:https://github.com/tesseract-ocr/tesseract
梦无矶小仔
2023/09/08
1.8K0
[AI测试]python文字图像识别tesseract
OCR技术综述
最近入坑研究OCR,看了比较多关于OCR的资料,对OCR的前世今生也有了一个比较清晰的了解。所以想写一篇关于OCR技术的综述,对OCR相关的知识点都好好总结一遍,以加深个人理解。 什么是OCR? OCR英文全称是Optical Character Recognition,中文叫做光学字符识别。它是利用光学技术和计算机技术把印在或写在纸上的文字读取出来,并转换成一种计算机能够接受、人又可以理解的格式。文字识别是计算机视觉研究领域的分支之一,而且这个课题已经是比较成熟了,并且在商业中已经有很多落地项目了。比如汉
朱晓霞
2018/04/18
14.9K0
OCR技术综述
Tesseract Ocr文字识别
Tesseract的OCR引擎最先由HP实验室于1985年开始研发,至1995年时已经成为OCR业内最准确的三款识别引擎之一。2005年,Tesseract由美国内华达州信息技术研究所获得,并求诸于G
磊哥
2018/05/08
73.2K1
Tesseract Ocr文字识别
我的AI之路 —— OCR文字识别快速体验版
还记得前一阵某小盆友拿过来一个全是图片的ppt,让我把里面的文字给抠出来(我当时很震惊!!!),随后在网上随便找了个OCR的在线文档转换软件,就给转过来了——这里面用到的技术就是OCR文字识别,所以本篇就带大家宏观上了解一下文字识别的技术方案与实现过程。
用户1154259
2018/08/20
4.2K0
我的AI之路 —— OCR文字识别快速体验版
相关推荐
一款让OCR识别正确率趋近100%的库
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验