最近在抓取亚某逊的时候, 除了随机请求头之外, 还有时不时出现的验证码页面, 原来换个ip还可以, 但是时间长了, 出现的越来越频繁, 所以这次就来彻底解决这个验证码的问题
验证码长这样:
验证码识别常见方式...使用tesseract + pillow 这是最简单最直接的方式, 不过也是效率最低的, 识别特别正常的还是没问题的
使用第三方打码平台或者第三方OCR, 我使用过云打码, 还行(听说是一帮人在人工打码..., 所以也没必要使用pillow来进行降噪处理
所以这种方式就不多介绍了
百度OCR
下面介绍使用百度orc来进行识别
1....简单使用
百度文字识别官方文档: https://ai.baidu.com/ai-doc/OCR/Ek3h7xypm
from aip import AipOcr
# 你的 APPID AK SK..., 下篇来讲使用训练模型来进行验证码识别