Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >2019年末逆向复习系列之知乎登录formdata加密逆向破解

2019年末逆向复习系列之知乎登录formdata加密逆向破解

作者头像
云爬虫技术研究笔记
发布于 2019-12-17 09:00:52
发布于 2019-12-17 09:00:52
1.3K00
代码可运行
举报
运行总次数:0
代码可运行

最有深度的研究笔记由程序员界最会排版的追星族运营

文章信息

作者: Lateautumn4lin 来源:云爬虫技术研究笔记

AKA 逆向小学生

郑重声明:本项目的所有代码和相关文章, 仅用于经验技术交流分享,禁止将相关技术应用到不正当途径,因为滥用技术产生的风险与本人无关。

这篇文章是公众号《云爬虫技术研究笔记》的《2019年末逆向复习系列》的第五篇:《知乎登录formdata加密逆向破解》

本次案例的代码都已上传到Review_Reverse上面,后面会持续更新,大家可以Fork一波。

逆向背景

知乎作为国内最大的、最优质的的问答平台之一,它的高质量回答是作为自然语言处理的最好的语料来源之一,不过想要获取更全的知乎回答数据必须要登录,涉及登录的话必然少不了做自动化登录的处理,不过知乎的登录post请求中的formdata是加密的

因此我们需要去寻找它的加密逻辑,本篇文章就是讲解如何寻找破解formdata的加密,实现自动化登录知乎。

分析流程与逆向破解

因为formdata只要一个加密后的字符串,对于我们来说,没有一个明显的特征让我们去全局搜索,因此我们采用的是xhr断点的方法去寻找哪里加密了formdata,我们通过initiator进入

根据登录api的url: /api/v3/oauth/sign_in来打xhr断点

重复我们之前的登录逻辑,可以看到,xhr断点打在如图所示位置

接下来,我们就可以通过call stack调用栈来寻找哪里加密了formdata,一个个调用分析之后,看到如图所示的地方比较符合我们期待的加密点

url确实是登录的api,并且在post请求的data处,使用了r.decamelizeKeys()方法来处理,初步估计是加密方法,我们再对r.decamelizeKeys打断点,同时去掉之前的xhr断点,这样能够帮助我们更快、更准确的定位到加密处

我们现在定位到decamelizeKeys的加密方法逻辑,这个方法包含两个参数,e和t,t现在我们还不能够准确了解它的含义,e参数的值可以直接在console里面进行打印

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
captcha: "mdgv"
clientId: "c3cef7c66a1843f8b3a9e6a1e3160e20"
grantType: "password"
lang: "en"
password: "asdd"
refSource: "people"
signature: "f45d273cd16f4f80e4fee3434d1c3009fb2248cf"
source: "com.zhihu.web"
timestamp: 1575300515085
username: "+8617610771895"
utmSource: undefined

我们分析,captcha和signature这两个参数相对其他参数来说还是比较重要,因此我们着重分析这两个参数

1. 寻找signature加密参数的加密逻辑

signature这个参数还是具有明显特征的,我们可以全局搜索

match的地方只有两个js文件,我们具体查看,可以在其中一个文件搜索signature关键字,发现它的相关代码段,这段代码很明显的是hmac算法

涉及到的值有clientId、timstamp、grandType等

插入一句:Hmac算法大致解释如下

Python的简单实现

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
import hmac
from hashlib import sha1


def hash_hmac(key, code, sha1):
    hmac_code = hmac.new(key.encode(), code.encode(), sha1)
    return hmac_code.hexdigest()

if __name__ == '__main__':
    print(hash_hmac('08F5B4886112BC6F1E04FE42DACDB2E8', 'xinxin', sha1)
代码语言:javascript
代码运行次数:0
运行
复制

大概了解hmac算法是什么之后,我们再回头看看signature的hmac算法的逻辑是什么

具体的思路如图所示,使用sha-1作为hash函数,key是写死的,使用其他四个参数值作为message进行加密,整理思路可以用python表达出来

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
def _get_signature(timestamp: int) -> str:
    ha = hmac.new(
        b"d1b964811afb40118a12068ff74a12f4",
        digestmod=hashlib.sha1
    )
    grant_type = _login_data["grant_type"]
    client_id = _login_data["client_id"]
    source = _login_data["source"]
    ha.update(
        bytes(
            (grant_type + client_id + source + str(timestamp)),
            "utf-8"
        )
    )
    return ha.hexdigest()
代码语言:javascript
代码运行次数:0
运行
复制

分析完signature参数之后,我们接着来分析captcha参数

2. 分析captcha的不同场景

captcha,顾名思义是验证码结果相关的参数,这个参数的值应该是验证码相关,如图所示,验证码图片是由这个接口来返回的

我们请求了这个接口,返回了图片的base64格式,我们可以这么进行保存

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
with open("./captcha.jpg", "wb") as f:
            f.write(base64.b64decode(img_base64))
代码语言:javascript
代码运行次数:0
运行
复制

关于captcha的分析呢不涉及到具体的js,因为captcha的值我们可以很明显的看出来

当我们请求中文验证码lang=cn-也就是翻转汉字点选,我们传的值是:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
captcha: "{"img_size":[200,44],"input_points":[[43.39996337890625,30.79999542236328],[135.39996337890625,22.79999542236328]]}"
clientId: "c3cef7c66a1843f8b3a9e6a1e3160e20"

当我们请求英文验证码lang=en-也就是四位英文字符,我们传的值是:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
captcha: "mdgv"
代码语言:javascript
代码运行次数:0
运行
复制

3. 分析剩余其他参数

其他的参数就比较好看出来了

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
clientId: "c3cef7c66a1843f8b3a9e6a1e3160e20"   多次试验,写死的
grantType: "password" 非第三方登录的话都是这个值
lang: "en" 针对不同验证码类型
password: "asdd" 密码
refSource: "people" 不变
source: "com.zhihu.web" 不变
timestamp: 1575300515085 时间戳
username: "+8617610771895" 用户名
utmSource: undefined 不变
代码语言:javascript
代码运行次数:0
运行
复制

到这里我们关于decamelizeKeys加密方法的e参数已经分析好了,t参数还未知,那我们就继续从刚才decamelizeKeys函数那里继续往下找,分析decamelizeKeys函数的加密逻辑

4. 分析decamelizeKeys的加密逻辑

同样是针对decamelizeKeys函数下断点,看到跳到这个地方,m方法返回n方法

查看o方法的具体逻辑

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
o = function e(t, n, r) {
        if (!d(n) || p(n) || h(n) || v(n) || l(n)) //基本没什么用,可以跳过
            return n;
        var i, o = 0, a = 0;
        if (f(n))  //这里做逻辑判断,可以扣具体js
            for (i = [],
            a = n.length; o < a; o++)
                i.push(e(t, n[o], r));
        else
            for (var s in i = {}, // 循环n(也就是data),不断的和下面那个c函数做处理
            n)
                Object.prototype.hasOwnProperty.call(n, s) && (i[t(s, r)] = e(t, n[s], r));
        return i
    }
c = function(e, t) {
        return function(e, t) {
            var n = (t = t || {}).separator || "_"
              , r = t.split || /(?=[A-Z])/;
            return e.split(r).join(n)
        }(e, t).toLowerCase()
    }
代码语言:javascript
代码运行次数:0
运行
复制

加密的逻辑主要是上面这个部分,没有混淆和平坦化什么的,大家可以自行扣扣

代码实战

根据上面的思路,我们完善代码

关于加密部分

注意下图我们在请求headers中加了两个参数

  • "x-zse-83": "3_1.1" 这个参数是用来验证客户端的版本,大概是和clientId相关,如果我们不传的话,会提示请求参数异常,请升级客户端后重试这个错误
  • "x-xsrftoken": _get_xsrf() 这个参数是跟跨域相关,是为了防Xsrf跨站的Token认证,访问首页时从Response Headers的Set-Cookie字段中可以找到

关于实战部分

注意,我们获取的是加密方法返回的headers、data、session,之所以要拿headers,是因为我们在请求验证码的时候,返回的Response Headers的Set-Cookie中有个CAPSION_TICKET字段,如果我们在post的时候不传这个cookie字段,会报错

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
{"error":{"message":"缺少验证码票据","code":120002,"name":"ERR_CAPSION_TICKET_NOT_FOUND"}}

最后注意请求的顺序,先获取验证码,再post,如果你成功的看完这篇文章,那么你会收到登录成功的结果。

复习要点

从这个复习的案例我们可以总结下思路:

  1. 在参数没有明显特征的时候,打xhr断点。
  2. 在做自动化登录的时候,每一步的header都很重要,如果你算出加密的结果却还是报错,看看是不是你漏了哪一个请求返回给你的某样东西。

号主介绍

多年反爬虫破解经验,AKA“逆向小学生”,沉迷数据分析和黑客增长不能自拔,虚名有CSDN博客专家和华为云享专家。

私藏资料

呕心沥血从浩瀚的资料中整理了独家的“私藏资料”,公众号内回复“私藏资料”即可领取爬虫高级逆向教学视频以及多平台的中文数据集

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-12-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 云爬虫技术研究笔记 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
【验证码逆向专栏】某亭雷池 waf 验证码逆向分析
本文章中所有内容仅供学习交流使用,不用于其他任何目的,不提供完整代码,抓包内容、敏感网址、数据接口等均已做脱敏处理,严禁用于商业用途和非法用途,否则由此产生的一切后果均与作者无关!
K哥爬虫
2025/05/06
1460
【验证码逆向专栏】某亭雷池 waf 验证码逆向分析
【爬虫】模拟浏览器模仿登录新版知乎
知乎是爬虫的一个经典案例,因为他经常改版,越来越难爬,可能我这个教程写完他就又改版了。
天道Vax的时间宝藏
2021/08/11
1.4K1
python学习教程:模拟登录知乎
项目源码 # -*- coding:UTF-8 -*- import requests , time import hmac ,json from bs4 import BeautifulSou
python学习教程
2019/10/22
7800
python学习教程:模拟登录知乎
Python模拟登陆新版知乎
目前网上很多模拟登录知乎的代码已经无法使用,即使是二、三月的代码也已经无法模拟登陆知乎,所以我现在将新版知乎的模拟登录代码和讲解发布出来。
喵叔
2020/09/08
9380
Scrapy爬取知乎------模拟登录
从今天开始更新关于爬取知乎的一系列文章,最近一直在优化代码,奈何代理IP有用的都是要钱的,所以已经不知道怎么优化了,发出来大家也参考参考,顺便提点意见。
andrew_a
2019/07/30
1.4K0
Scrapy爬取知乎------模拟登录
知乎模拟登陆
经常在简书上写作,写完后再发布到其他网站,非常麻烦,所以准备搞一下自动发布文章的工具。那么第一步先要模拟登陆几个网站。今天先从知乎开始。
星星在线
2018/08/21
2.2K0
知乎模拟登陆
JS逆向 | 防脱发的秘诀
Chrome 开发者工具我觉得还是有必要学一下的,毕竟工欲善其事,必先利其器。做好爬虫,做好 JS 逆向,工具是第一位。 先看抓包情况:
州的先生
2019/08/29
5290
JS逆向 | 防脱发的秘诀
2019年末逆向复习系列之拼夕夕Web端anti_content参数逆向分析
这篇文章是公众号《云爬虫技术研究笔记》的《2019年末逆向复习系列》的第八篇:《拼夕夕Web端anti_content参数逆向分析》
云爬虫技术研究笔记
2019/12/24
1.4K0
2019年末逆向复习系列之拼夕夕Web端anti_content参数逆向分析
知乎最新版模拟登陆详解之fromdata加密
看了之后是不是很痛苦?你是不是就想使用 selenium 来模拟登陆?不过好像知乎对 selenium 也进行了相应的反爬处理,哈哈。但是我不也想用 selenium,效率太慢了,直接破解 js 才是我最喜欢挑战的。好,我现在教你如何用 js 硬撸破解,废话不多说,直接进入正题。
青南
2019/03/11
1.1K0
知乎最新版模拟登陆详解之fromdata加密
模拟登陆知乎(最新版)
为啥要写这一篇文章呢? (主要是qq群内有人在模拟登陆知乎,一直不成功)然后我抓包看了下,发现知乎登陆页已经改版了,而且难度大大提高了。 开始抓包 首先内,还是打开知乎首页,然后输入账号密码,登陆(记
爬虫
2018/04/08
1.2K0
模拟登陆知乎(最新版)
模拟登录知乎,新版登录2020/1/13版本
该文章主要提供交流学习使用,请勿利用其进行不当行为! 如本篇文章侵犯了贵公司的隐私,请联系我立刻删除! 知乎相信很多人都知道,里面的文章也是不错的,今天我们来做一下知乎的模拟登陆。 知乎改版后的加密
懒py夏洛
2022/06/01
4270
模拟登录知乎,新版登录2020/1/13版本
Scrapy爬取知乎------获取用户主页信息
新建一个scrapy项目,scrapy startproject zhihuspider
andrew_a
2019/07/30
7290
Scrapy爬取知乎------获取用户主页信息
JS逆向之某视频网站登录
很久没更新JS逆向方面的文章了,一个原因是因为最近爬虫这方面管的比较严,相信大家都看过很多违法的案例了,就不细说了。另一个原因是我换坑了,现在的工作内容基本上和爬虫不相关了。
Python编程与实战
2019/12/23
1.7K0
JS逆向之某视频网站登录
python3爬虫-知乎登陆
参考的是这位博主的博客:https://home.cnblogs.com/u/zkqiang
py3study
2020/01/17
9430
2019年末逆向复习系列之努比亚Cookie生成逆向分析
这篇文章是《2019年末逆向复习系列》的第二篇:《努比亚Cookie生成逆向分析》
云爬虫技术研究笔记
2019/11/28
1.5K0
【验证码逆向专栏】房某下登录滑块逆向分析
本文章中所有内容仅供学习交流使用,不用于其他任何目的,不提供完整代码,抓包内容、敏感网址、数据接口等均已做脱敏处理,严禁用于商业用途和非法用途,否则由此产生的一切后果均与作者无关!
K哥爬虫
2023/09/13
5130
【验证码逆向专栏】房某下登录滑块逆向分析
【验证码逆向专栏】某验四代滑块验证码逆向分析
本文章中所有内容仅供学习交流,抓包内容、敏感网址、数据接口均已做脱敏处理,严禁用于商业用途和非法用途,否则由此产生的一切后果均与作者无关,若有侵权,请联系我立即删除!
K哥爬虫
2023/01/12
8620
【验证码逆向专栏】某验四代滑块验证码逆向分析
【JS 逆向百例】XHR 断点调试,Steam 登录逆向
本文章中所有内容仅供学习交流,抓包内容、敏感网址、数据接口均已做脱敏处理,严禁用于商业用途和非法用途,否则由此产生的一切后果均与作者无关,若有侵权,请联系我立即删除!
K哥爬虫
2021/09/09
1.9K0
【JS 逆向百例】XHR 断点调试,Steam 登录逆向
Python爬虫模拟登录并跳过二次验证
模拟登录是指通过程序模拟用户在浏览器中的登录操作,向服务器发送登录请求,获取登录后的会话信息(如Cookie)。这通常涉及发送用户名、密码等登录凭证,并处理服务器返回的响应。
小白学大数据
2025/03/31
2410
2019年末逆向复习系列之今日头条WEB端_signature、as、cp参数逆向分析
这篇文章是公众号《云爬虫技术研究笔记》的《2019年末逆向复习系列》的第四篇:《今日头条WEB端_signature、as、cp参数逆向分析》
云爬虫技术研究笔记
2019/12/17
1.2K0
2019年末逆向复习系列之今日头条WEB端_signature、as、cp参数逆向分析
相关推荐
【验证码逆向专栏】某亭雷池 waf 验证码逆向分析
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验