Frida可视化工具Dwarf2[1]已经开源,大家有什么问题,可以一起交流。
本文内容仅用于学习,严禁用作非法目的。
验证码作为一种人机识别手段,其终极目的,就是区分正常人和机器的操作。 区分人机行为的作用不言而喻。互联行为的注册、登录、发帖、领优惠券、投票等等应用场景,都有被机器刷造成各类损失的风险,如果不对各类机器垃圾的行为加以防范,灌水内容、垃圾注册、恶意登录、刷票、撞库、活动作弊、垃圾广告、爬虫、羊毛党等用户行为一旦发生,将对产品自身发展、用户体验造成极大的影响。
很多网站都使用了验证码进行人机识别,给爬虫带来了一定的困扰。常见的验证码如下:
一个开源的ocr工具,非常强大。官方介绍是: 开源易用的中文离线OCR,识别率媲美大厂,并且提供了易用的web页面及web的接口,方便人类日常工作使用或者其他程序来调用~ 。笔者在github[2]上有关于它的使用。
通过一个例子来感受一下这个工具。以下是我2022虎年快乐这个公众号里面部分内容的截图:
trwebocr的识别结果:
所有的文字都被识别出来了!还是非常nice的。
有这么强大的工具,过验证码岂不是轻而易举。验证码的图片如下:
直接上代码:
import requests;
def main():
url = 'http://127.0.0.1:8089/api/tr-run/'
img1_file = {
'file': open("./imgs/yzm.jpg", 'rb')
}
res = requests.post(url=url, data={'compress': 0}, files=img1_file)
jsonObj = res.json()
if jsonObj['code'] != 200:
return
raw_out = jsonObj['data']['raw_out']
target_len = len(raw_out)
for i in range(target_len):
print(raw_out[i][1])
if __name__ == "__main__":
main()
JWYN被成功识别出来。大功告成!!!!!!!
python安装模块的时候建议使用豆瓣源,真的好快。
pip install requests -i https://pypi.douban.com/simple/
trwebocr的准确率达不到100%,不过依然不能掩盖它强大的OCR功能。当然也可以自己实现类似的功能,使用opencv+CNN效果也不错。
滑块验证码是在网站、APP等应用中常见的一种验证方式,通过按照一定规则滑动滑块到指定位置完成验证,才可以进行下一步操作。滑块验证码有两种设计,一种是在滑动框内“一滑到底”即完成验证的,还有一种是滑动滑块拼合拼图完成验证的,如下图所示。由于拼图式的滑块验证码安全性更高,趣味性更强,“一滑到底”式的滑块验证码已经基本被淘汰。
使用滑块机制的网站也有好多,增大了爬虫的难度,常见的滑块验证:
滑块验证第一步需要获取大图片,后面统称为target,以及小图片,后面称为template。具体可参见自动登陆QQ空间(3)。 (1) 如果target和template都可以正常下载的话,直接进行下载。 (2 ) 如果不能下载的话,可以使用两种方式进行获取:
第一种方式是使用chromeDriver的截图功能:
def get_imgs():
driver.save_screenshot('imgs/screenshot.png')
bigImage = driver.find_element_by_id('bigImage')
left = (int)(bigImage.location['x'])
top = (int)(bigImage.location['y'])
elementWidth = (int)(bigImage.location['x'] + bigImage.size['width'])
elementHeight = (int)(bigImage.location['y'] + bigImage.size['height'])
picture = Image.open('imgs/screenshot.png')
picture = picture.crop((left, top, elementWidth, elementHeight))
picture.save('imgs/big_full.png')
smallImage = driver.find_element_by_id('smallImage')
left = (int)(smallImage.location['x'])
top = (int)(smallImage.location['y'])
elementWidth = (int)(smallImage.location['x'] + smallImage.size['width'])
elementHeight = (int)(smallImage.location['y'] + smallImage.size['height'])
picture = Image.open('imgs/screenshot.png')
picture = picture.crop((left, top, elementWidth, elementHeight))
picture.save('imgs/small.png')
jigimgS = driver.find_element_by_class_name('jigimgS')
upper = (int)(jigimgS.value_of_css_property("top").split('px')[0])
letf = 58
right = 279
lower = upper + 57
picture = Image.open('imgs/big_full.png')
picture = picture.crop((letf, upper, right, lower))
picture.save('imgs/big.png')
time.sleep(0.5)
第二种方式是使用代理截获相应下载图片: 笔者使用的代理框架是Titanium[3](C#)框架。
proxyServer.BeforeResponse += OnResponse;
. . .
private async Task OnResponse(object sender, SessionEventArgs e)
{
// read response headers
var responseHeaders = e.HttpClient.Response.Headers;
//if (!e.ProxySession.Request.Host.Equals("medeczane.sgk.gov.tr")) return;
if (e.HttpClient.Request.Method == "GET" || e.HttpClient.Request.Method == "POST")
{
if (e.HttpClient.Response.StatusCode == 200)
{
string stringResponse = await e.GetResponseBodyAsString();
Console.WriteLine(e.HttpClient.Request.RequestUri.AbsoluteUri);
if ("http://***/jigsaw".Equals(e.HttpClient.Request.Url))
{
//exit的时候会走第二次。 在exit之前调用StopProxyServer,防止出现第二次走这个方法的情况。
if (!exit)
{
//截获响应下载图片,此时图片尚未删除
SaveImage(stringResponse);
}
}
}
if (e.UserData != null)
{
// access request from UserData property where we stored it in RequestHandler
var request = (Request)e.UserData;
}
}
private void SaveImage(String stringResponse)
{
var jo = JsonConvert.DeserializeObject(stringResponse) as JObject;
template = jo?["smallImage"]?.ToString();
target = jo?["bigImage"]?.ToString();
template = "http://***/upload/jigsawImg/" + template + ".png";
target = "http://***/upload/jigsawImg/" + target + ".png";
WebClient client = new();
//不加锁的话只能下载第一个图片,然后就去匹配去了,由于第二个图片还没有下载下来,导致匹配的时候报错。
Monitor.Enter(this);
client.DownloadFile(target, AppDomain.CurrentDomain.BaseDirectory + "\\target.png");
client.DownloadFile(template, AppDomain.CurrentDomain.BaseDirectory + "\\template.png");
Console.WriteLine("Finish download image ");
Monitor.Exit(this);
}
图片不能下载却可以显示出来使用到技术是img的onload属性,onload 事件在图片加载完成后立即执行。下面的代码就是当图片加载完成后立即删除。
<div class="jigimgB">
<img src="" id="bigImage" onload="clearB()">
</div>
<div class="jigimgS">
<img src="" id="smallImage" onload="clearS()">
</div>
文中代码具体可参见自动登陆QQ空间(3)和代码中相应的注释。 python版本:
def main():
otemp = 'template.png'
oblk = 'target.png'
identify_gap(oblk, otemp, "D:\\books\\plantuml_picture\\target.png");
def identify_gap(bg, tp, out):
'''
bg: 背景图片
tp: 缺口图片
out:输出图片
'''
# 读取背景图片和缺口图片
bg_img = cv2.imread(bg) # 背景图片
tp_img = cv2.imread(tp) # 缺口图片
# 转换图片格式
bg_pic = cv2.cvtColor(bg_img, cv2.COLOR_GRAY2RGB)
tp_pic = cv2.cvtColor(tp_img, cv2.COLOR_GRAY2RGB)
# 缺口匹配
res = cv2.matchTemplate(bg_pic, tp_pic, cv2.TM_CCOEFF_NORMED)
min_val, max_val, min_loc, max_loc = cv2.minMaxLoc(res) # 寻找最优匹配
# 绘制方框
th, tw = tp_pic.shape[:2]
tl = max_loc # 左上角点的坐标
br = (tl[0] + tw, tl[1] + th) # 右下角点的坐标
cv2.rectangle(bg_img, tl, br, (0, 0, 255), 2) # 绘制矩形
cv2.imwrite(out, bg_img) # 保存在本地
# 返回缺口的X坐标
return tl[0]
大部分验证码和滑块的问题可以通过文章中的方式搞定,如果是短信验证码,可能需要接码平台来搞定了。最后上一段代码,模拟人类滑动滑块行为的:
public static void MoveSlideByOffSet(Actions action, int distance)
{
Thread.Sleep(500);
int has_gone_dist = 0;
int remaining_dist = distance;
Random random = new();
int span;
while (remaining_dist > 0)
{
var ratio = remaining_dist / distance;
if (ratio < 0.1)
span = random.Next(3, 5);
else if (ratio > 0.9)
span = random.Next(5, 8);
else
span = random.Next(15, 20);
action.MoveByOffset(span, random.Next(-5, 5));
remaining_dist -= span;
has_gone_dist += span;
Thread.Sleep(random.Next(5, 20) / 100);
}
action.MoveByOffset(remaining_dist, random.Next(-5, 5));
}
[1]
Dwarf2: https://github.com/BurningTeng/Dwarf2
[2]
github: https://github.com/BurningTeng/OCR_frame
[3]
Titanium: https://github.com/justcoding121/titanium-web-proxy
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。