首页
学习
活动
专区
圈层
工具
发布

Tesseract-OCR识别中文与训练字库实例

关于中文的识别,效果比较好而且开源的应该就是Tesseract-OCR了,所以自己亲身试用一下,分享到博客让有同样兴趣的人少走弯路。 文中所用到的身份证图片资源是百度找的,如有侵权可联系我删除。...一、准备工作 1、下载Tesseract-OCR引擎,注意要3.0以上才支持中文哦,按照提示安装就行。 2、下载chi_sim.traindata字库。要有这个才能识别中文。...下好后,放到Tesseract-OCR项目的tessdata文件夹里面。 3、下载jTessBoxEditor,这个是用来训练字库的。 以上的几个在百度都能找到下载,就不详细讲了。...得到训练好的字库。....jpg mjorcen.normal.exp0 -l normal 3、效果 对比: 总结:肯定要自己训练过后的字库识别效果好,接下来要把整个项目弄进android,还要研究怎么将多个字库合并成一个字库

5.7K20
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    tesseract-ocr识别英文和中文图片文字以及扫描图片实例讲解

    .exe Windows cmd命令行使用Tesseract-OCR引擎识别手机号码和图片中的文字: 1、下载安装Tesseract-OCR引擎(3.0版本+才支持中文识别) tesseract-ocr-setup...附录: tessdata 目录存放的是语言字库文件,和在命令行界面中可能用到的参数所对应的文件. 这个安装程序默认包含了英文字库。...如果想能识别中文,可以到http://code.google.com/p/tesseract-ocr/downloads/list下载对应的语言的字库文件.一般google访问不了,请到这里下载即可,...例如: tesseract OCR.jpg result -l chi_sim -psm 7 nobatch -l chi_sim 表示用简体中文字库(需要下载中文字库文件,解压后,存放到tessdata...目录下去,字库文件扩展名为 .raineddata 简体中文字库文件名为: chi_sim.traineddata) -psm 7 表示告诉tesseract code.jpg图片是一行文本这个参数可以减少识别错误率

    9.7K70

    tesseract-ocr识别英文和中文图片文字以及扫描图片实例讲解

    .exe Windows cmd命令行使用Tesseract-OCR引擎识别手机号码和图片中的文字: 1、下载安装Tesseract-OCR引擎(3.0版本+才支持中文识别) tesseract-ocr-setup...附录: tessdata 目录存放的是语言字库文件,和在命令行界面中可能用到的参数所对应的文件. 这个安装程序默认包含了英文字库。...如果想能识别中文,可以到http://code.google.com/p/tesseract-ocr/downloads/list下载对应的语言的字库文件.一般google访问不了,请到这里下载即可,...例如: tesseract OCR.jpg result -l chi_sim -psm 7 nobatch -l chi_sim 表示用简体中文字库(需要下载中文字库文件,解压后,存放到tessdata...目录下去,字库文件扩展名为 .raineddata 简体中文字库文件名为: chi_sim.traineddata) -psm 7 表示告诉tesseract code.jpg图片是一行文本这个参数可以减少识别错误率

    10.1K20

    Tesseract OCR初探

    其安装目录中的 tessdata 目录存放的是语言字库文件,和在命令行界面中可能用到的参数所对应的文件. 这个安装程序默认包含了英文字库。...如果想能识别中文,可以到http://code.google.com/p/tesseract-ocr/downloads/list下载对应的语言的字库文件....简体中文字库文件下载地址为:http://tesseract-ocr.googlecode.com/files/chi_sim.traineddata.gz 下载完成后解压,然后将该文件剪切到tessdata...psm 7 nobatch -l chi_sim 表示用简体中文字库(需要下载中文字库文件,解压后,存放到tessdata目录下去,字库文件扩展名为 .raineddata 简体中文字库文件名为: chi_sim.traineddata...下载文字库 在手机中SD卡添加/mnt/sdcard/tesseract/tessdata路径,并且传入C:\Program Files (x86)\Tesseract-OCR\tessdata路径下的

    8.7K11

    用jTessBoxEditor制作训练库

    做课题的时候,用tesseract-ocr进行字符识别时,有官方提供的字库,但这些字库并不能满足我们所有的需求,例如手写字体以及一些其他的字体。...tesseract提供的字库中没有我们相应的字体时,就会出现识别错误的问题,这个时候就需要训练自己的字库进行训练了。...生成字库文件成功,会在当前目录生成num_1.traineddata文件,这个语言就是跟我们下载的官方字库一样,例如eng,chi_sim一样,不过这个字库专门用于识别图片中那种数字字体。...我们把这个字库num_1放到tesseract-ocr的tessdata目录下D:\jTessBoxEditor\tesseract-ocr\tessdata 8.验证生成的语言包字库 输入命令:tesseract...文件,我们打开这个txt文件,可以看到使用num_1字库识别这张图片的结果 打开out文件,发现识别结果与图片完全符合,至此,自己制作的字库就已经成功了,可以识别所有这种数字字体的图片。

    35500

    shell编程字库裁剪(1)——想法

    很多带有点阵液晶的硬件项目可能需要显示汉字、ASCII字符,有的廉价的液晶里没有字库,有的液晶里带有了字库但可能需要其他字体的支持。这种时候我们就需要使用外置的字库了。...SOC上的flash一般尺寸相对很小,几百K的字库很可能超标,甚至本身就没这么大。那么在这种情况下,如果还想使用字库,只好对字库进行裁剪,这也是笔者这个主题的背景情况。...如果是完整的汉字字库,那么显示汉字可以直接根据GB2312码来算出二进制编码,这个可以在baidu里面搜索GB2312字库的偏移,里面可以查到很多文章可以说明GB2312字库的偏移,细节不在这里讨论。...直接写结果,GB2312的编码为两个字节,假设某个汉字的GB2312编码第一个字节为GBH,第二个字节为GBL,并且每个汉字字体在字库中的大小为s,那么这个汉字在字库中的偏移为   offset = [...如果要用到繁体字,那么可以采用GBK编码和GBK字库,公式类似,本文只考虑GB2312。

    93690

    按键精灵二三事系列第九篇——图文识别+发邮件

    按上图的11,22,33,44,55,66顺序操作,11先抓一个文字或数字(也可以ctrl+1启动,跟按键抓抓以及聊天截图有点类似),然后22上方、新建一个自己的字库文件,接着33点一下取色,移动到44...点55的提取,二值化区域就会有个处理好的白色6了,点66处的按钮,就制作好了有一个数字的字库。同理,可以把另外9个数字外加小数点,也做出来,于是就有了一个数字库。...大漠插件OCR的原理,就是通过转换目标文字的色值,如有多个色值,可以讲其全部转换成白色,再通过白色值进行对比校验,判别白色值的点阵形状是否跟预设文字一致(比如按比例判别,符合度90%就算,当然也可以要求...100%) 字库有了,接下来就是文字识别了,很简单,大漠综合工具22左边有Ocr的按钮,点一下,就get到了图文识别的命令,一共有5行: set dm = createobject("dm.dmsoft...base_path = dm.GetBasePath() dm_ret = dm.SetPath(base_path) dm_ret = dm.SetDict(0,"dm_soft.txt") s = dm.Ocr

    4.9K31

    高效 OCR 图文识别工具盘点:熊猫 OCR 多引擎超便捷,Umi - OCR 开源可批量,天若 OCR 闪电识别!附下载攻略

    下载直接在这里获取,所有OCR文件都放这里了熊猫OCR熊猫精灵脚本助手简易上手、无需懂代码、完成复杂脚本操作功能:多窗口操作、AI找图找色、ocr识别、字库、验证码、键鼠录制后台操作、流程控制、Api对接...出了OCR,他还有更多功能图 色=>YoloAi找图、单张多张图片识别、单点多点找色识别等鼠 标=>录制、拖动、移动、单击、双击、滚动等键 盘=>录制、按键、按下、放开、组合按键等ocr 识别=>识别输入...、识别找字、验证码识别、字库识别Api 接口=>接口请求通知设置=>短信接收、邮件接收文字操作=>读入文件、输入文本、密码输入、变量输入、输入框等时间控制=>延迟时间、随机时间、定时操作流程控制=>运行次数...插件、umi-ocr、验证码识别、仿真驱动等生成脚本=>将制作好的脚本生成后发给客户、自定义软件页面内容Umi-OCR 截图OCR在 OCR(光学字符识别)领域,Umi-OCR 一直凭借其强大的功能和开源特性备受关注...功能:截图OCR / 批量OCR / PDF识别 / 二维码 / 公式识别界面:全局设置:识别效果天若OCR_本地版天若OCR_本地版 比较简单,运行后,是在后台运行的,基本没什么界面,只需要像截图一样

    1.7K10

    Android使用Tesseract-ocr进行文字识别

    前言 Tessseract是一款由HP实验室开发由 Google 维护的开源 OCR(Optical Character Recognition , 光学字符识别)引擎。能够支持中文十分难得。...Tesseract-OCR下载地址 文字识别一般都用的tesseract-ocr。...GitHub:https://github.com/tesseract-ocr/tesseract 我们今天在Android上应用推荐的有个tess-two GitHub:https://github.com...拷贝字库文件进Android设备 我们利用Device File Explorer打开我们的虚拟机,将chi_sim.traineddata的字库文件拷贝到mnt/sdcard/tesserart/tessdata...上图中mTess.init这个要重点说一下,我们开始的DATAPATH的路径是mnt/sdcard/tesserart,在拷贝字库文件时我们下面还创建了一个tessdata的文件夹才拷进去了,如果你这里设置为

    10.7K40
    领券