Python-tesseract是一个基于google’s Tesseract-OCR的独立封装包; Python-tesseract功能是识别图片文件中文字,并作为返回参数返回识别结果; Python-tesseract默认支持tiff、bmp格式图片,只有在安装PIL之后,才能支持jpeg、gif、png等其他图片格式。
安装PIL及pytesseract
安装tesseract-OCR软件
pytesseract实际上调用的是tesseract-OCR的内部函数,故在进行网站验证码识别时,需提前安装好tesseract-OCR软件。
安装包下载
安装包地址
安装
执行默认安装即可,需要记住安装目录,以便于后面配置环境变量。
配置环境变量
控制面板-系统-高级系统设置-环境变量-系统变量
‘Path’-新建-将tesseract-OCR安装目录添加进去,如’C:\Program Files (x86)\Tesseract-OCR’
cmd打开命令提示符界面,输入:
可以看到版本信息。
网站验证码识别
在源代码中设置训练数据集的路径
修改pytesseract.py,否则会报错:
修改部分如下:
测试
测试图片如下:
代码如下:
可以看出,识别结果有误,故需要对图片进行预处理:
处理后的图片如下:
此时,识别结果正确。
详细代码及说明可访问我的GitHub:https://github.com/Ruanshubin
领取专属 10元无门槛券
私享最新 技术干货