淘宝对于h5的访问采用了和客户端不同的方式,由于在h5的js代码中保存appsercret具有较高的风险,mtop采用了随机分配令牌的方式,为每个访问端分配一个token,保存在用户的cookie中,通过cookie带回服务端分配的token, 客户端利用分配的token对请求的URL参数生成摘要值sign,
MTOP利用这个摘用值和cookie中的token来防止URL篡改。
关于cookie中的token的自我检查,由于token在cookie中是明文的,可能会被仿冒,在输出的cookie中包含一个用非对称密钥的公钥加密后的token, MTOP在每次请求时会先检查cookie中的token是否是由服务端分配出去的(利用加密后的token和私钥还原token,与回传的明文token比较)
关于sign的生成公式:
md5Hex(token&t&appKey&data)
如:md5Hex(“645d1f414d4914297dfaab40f3f76016 &1234&4272&{"itemNumId":"1500011132496"}”)
sign=d2b2f818a03496b296b899a230c03abd
关于cookie的有效时长,cookie的有效时长为7天,但是token的有效时长目前为60分钟
m_h5tk: 格式为 明文token_expireTime, 从response.cookies
处获取,如: 2fcd2baa62fc60f73c0487a9f8a0a9d1_1362559577301
token就是2fcd2baa62fc60f73c0487a9f8a0a9d1
很简单,即时间戳 int(time.time()*1000)
一般是固定数值
一般是提交的参数
example
import requests
headers = {
'accept-encoding': 'gzip, deflate, br',
'accept-language': 'zh-CN,zh;q=0.9,en;q=0.8,zh-TW;q=0.7',
'user-agent': 'Mozilla/5.0 (iPhone; CPU iPhone OS 10_3 like Mac OS X) AppleWebKit/602.1.50 (KHTML, like Gecko) CriOS/56.0.2924.75 Mobile/14E5239e Safari/602.1',
'accept': '*/*',
'referer': 'https://h5.m.taobao.com/?sprefer=sypc00',
'authority': 'h5api.m.taobao.com',
'cookie': 't=cff5759b3198bafb639030a7296d6bff; cna=OOz3EwDBHU8CAS9eVNkZGaaY; thw=cn; _m_h5_tk=4dab06478749cf71bcb31296c169e46f_1534260967070; _m_h5_tk_enc=eb5abdfc8a3e52d0f7982d2ab34eb471; isg=BH9_A4W7GMQHLxzbVJKP32QcDlqleywDp44sWxFMGy51IJ-iGTRjVv02ZvbeeKt-',
}
params = (
('jsv', '2.4.11'),
('appKey', '12574478'),
('t', '1534253767277'),
('sign', '12c6fac6a03cf98c8f912413feeaeaaf'),
('api', 'mtop.taobao.wireless.home.load'),
('v', '1.0'),
('type', 'jsonp'),
('dataType', 'jsonp'),
('callback', 'mtopjsonp2'),
('data', '{"containerId":"main","ext":"{\\"h5_platform\\":\\"h5\\",\\"h5_ttid\\":\\"60000@taobao_h5_1.0.0\\"}"}'),
)
response = requests.get('https://h5api.m.taobao.com/h5/mtop.taobao.wireless.home.load/1.0/', headers=headers, params=params)
看下面这段js
# https://g.alicdn.com/hollywood/hollywood-lib/2.0.2/mtop.js
if (d.H5Request === !0) {
var f = "//" + (d.prefix ? d.prefix + "." : "") + (d.subDomain ? d.subDomain + "." : "") + d.mainDomain + "/h5/" + c.api.toLowerCase() + "/" + c.v.toLowerCase() + "/"
, g = c.appKey || ("waptest" === d.subDomain ? "4272" : "12574478")
, i = (new Date).getTime()
, j = h(d.token + "&" + i + "&" + g + "&" + c.data)
, k = {
jsv: w,
appKey: g,
t: i,
sign: j
}
, l = {
data: c.data,
ua: c.ua
};
你可能会问,如何寻找,答案是js断点,一步步调试。
有兴趣的可以持续关注,以后会深入。
好久都没法东西了,主要是最近太忙,加班比较多;自己也变懒了,也在学一些新东西,就不知道写什么好,以后还是勤快点吧。
本文分享自 Python爬虫与算法进阶 微信公众号,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与 腾讯云自媒体同步曝光计划 ,欢迎热爱写作的你一起参与!