前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >tesseract-ocr验证码识别

tesseract-ocr验证码识别

作者头像
丁D
发布2022-08-12 21:38:22
1.5K0
发布2022-08-12 21:38:22
举报
文章被收录于专栏:老铁丁D

OCR安装工具

下载安装tesseract-ocr-setup-3.02.02 训练工具jTessBoxEditor-2.3.0 下载地址

代码语言:javascript
复制
https://download.csdn.net/download/u011356878/12639109 

OCR文字识别实现

参考 https://www.cnblogs.com/cnlian/articles/5765871.html

环境的安装及卸载

安装ocr比较简单,一直next下一步就行了。 需要java环境,所以需要安装jdk8。

注意如果要卸载的话,要注意环境变量有没有删除,不然重新安装不起来 TESSDATA_PREFIX和path

安装完成测试一下 打开命令行窗口,进入安装目录,输入如下命令 tesseract test.png output_1 –l eng output_1是将识别的结果写入这个文件(文件会自己创建) -l end 指定使用的语言库,,eng是英语

这里我使用的是亚马逊的验证码图片去识别,发现识别效果比较差。所以我们需要训练来提高我们的识别率。

jTessBoxEditor训练

1、我们将要训练的图片(样本)放在一个统一的文件夹

2、打开jTessBoxEditor,Tools->Merge TIFF,将样本文件全部选上,并将合并文件保存为 was.font.exp0.tif

3、生成BOX文件 tesseract was.font.exp0.tif num.font.exp0 batch.nochop makebox

【语法】:tesseract [lang].[fontname].exp[num].tif [lang].[fontname].exp[num] batch.nochop makebox lang为语言名称,fontname为字体名称,num为序号;在tesseract中,一定要注意格式。

ps: 如果前3个步骤报错,可以下来下面这样处理

样本图像文件格式必须为tif\tiff格式,否则在Merge样本文件的过程中会出现 Couldn’t Seek 的错误。 如果报错,使用下来方式 1、我们先用程序将图片转成tif\tiff格式 2、手动将第一步生成的图片,后缀改成tiff 打开jTessBoxEditor,Tools->Merge TIFF,将样本文件全部选上,并将合并文件保存为 was.font.exp0.tif

4、定义字符配置文件 在目标文件夹内生成一个名为font_properties的文本文件,内容为

font 0 0 0 0 0 【语法】: fontname为字体名称,italic为斜体,bold为黑体字,fixed为默认字体,serif为衬线字体,fraktur德文黑字体,1和0代表有和无,精细区分时可使用。

5、字符矫正 打开jTessBoxEditor,BOX Editor -> Open,打开num.font.exp0.tif;矫正上的字符,记得有好多页噢!,记得点save保存

6、新建was.bat,并且双击执行

代码语言:javascript
复制
rem 执行改批处理前先要目录下创建font_properties文件 
echo Run Tesseract for Training.. 
tesseract.exe was.font.exp0.tif was.font.exp0 nobatch box.train 
echo Compute the Character Set.. 
unicharset_extractor.exe was.font.exp0.box 
mftraining -F font_properties -U unicharset -O was.unicharset was.font.exp0.tr 
echo Clustering.. 
cntraining.exe was.font.exp0.tr 
echo Rename Files.. 
rename normproto was.normproto 
rename inttemp was.inttemp 
rename pffmtable was.pffmtable 
rename shapetable was.shapetable 
echo Create Tessdata.. 
combine_tessdata.exe was. 
echo. & pause 

测试 tesseract test.png output_2 -l num

合并训练库

我们昨天天训练了一个字体库,发现不够精确,今天又训练一个,可以将昨天和今天的合并起来 参考 https://www.jianshu.com/p/ea06f02195af

合并训练库 (合并需要tif文件和box文件)

一、先生成相对应的 .tr 文件(如果你之前训练的.tr 有的话,可以忽略这步) tesseract test.font.exp0.tif test.font.exp0 nobatch box.train tesseract was.font.exp0.tif was.font.exp0 nobatch box.train

二、从所有文件中提取字符 unicharset_extractor was.font.exp0.box test.font.exp0.box

三、生成字体特征文件(was.font.exp0.box font是第二部分) 3.1 新建的font_properties文件,内容如下 font 0 0 0 0 0 font 0 0 0 0 0

3.2 mftraining -F font_properties -U unicharset was.font.exp0.tr test.font.exp0.tr

四、聚集所有.tr 文件 cntraining was.font.exp0.tr test.font.exp0.tr

五、重命名文件,把unicharset, inttemp, normproto, pfftable,shapetable 这几个文件加了前缀aws. (目的是为了后面的聚集合并) rename normproto aws.normproto

rename inttemp aws.inttemp

rename pffmtable aws.pffmtable

rename shapetable aws.shapetable

rename unicharset aws.unicharset

六、合并所有文件 生成一个大的字库文件 combine_tessdata aws.

七、最后文件夹中就可以看到生成的.traineddata训练库 然后将aws.traineddata 拷贝到安装ocr的tessdata目录下 C:\Program Files (x86)\Tesseract-OCR\tessdata

测试 tesseract test1.jpg output_2 -l aws

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2020-07-07 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • OCR安装工具
  • OCR文字识别实现
    • 环境的安装及卸载
      • jTessBoxEditor训练
        • 合并训练库
        相关产品与服务
        文字识别
        文字识别(Optical Character Recognition,OCR)基于腾讯优图实验室的深度学习技术,将图片上的文字内容,智能识别成为可编辑的文本。OCR 支持身份证、名片等卡证类和票据类的印刷体识别,也支持运单等手写体识别,支持提供定制化服务,可以有效地代替人工录入信息。
        领券
        问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档