Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >抖音app的抓取------准备工作

抖音app的抓取------准备工作

作者头像
andrew_a
发布于 2019-07-30 05:08:05
发布于 2019-07-30 05:08:05
3.7K00
代码可运行
举报
运行总次数:0
代码可运行

好久没更新爬虫了,今天来抓取抖音app.

抓取app的话,首先需要一个手机或者在自己的电脑上安装模拟器,模拟器你需要知道各个模拟器的默认端口

这个后面会说哪里会用到。

第二步,抓包

抓包的工具很多,找到自己觉得方便的就行,我这里推荐大家的是mitmproxy

mitmproxy是一个支持HTTP和HTTPS的抓包程序,有类似Fiddler、Charles的功能,只不过它是一个控制台的形式操作。

mitmproxy还有两个关联组件。一个是mitmdump,它是mitmproxy的命令行接口,利用它我们可以对接Python脚本,用Python实现监听后的处理。另一个是mitmweb,它是一个Web程序,通过它我们可以清楚观察mitmproxy捕获的请求。

手机和PC在同一个局域网内,设置代理为mitmproxy的代理地址,这样手机在访问互联网的时候流量数据包就会流经mitmproxy,mitmproxy再去转发这些数据包到真实的服务器,服务器返回数据包时再由mitmproxy转发回手机,这样mitmproxy就相当于起了中间人的作用,抓取到所有Request和Response,另外这个过程还可以对接mitmdump,抓取到的Request和Response的具体内容都可以直接用Python来处理,比如得到Response之后我们可以直接进行解析,然后存入数据库,这样就完成了数据的解析和存储过程。

安装mitmproxy(建议换到国内源安装,方法自行百度)

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
pip3 install mitmproxy

这个最简单,其他方式参考:https://cuiqingcai.com/5391.html

对于mitmproxy来说,如果想要截获HTTPS请求,就需要设置证书。mitmproxy在安装后会提供一套CA证书,只要客户端信任了mitmproxy提供的证书,就可以通过mitmproxy获取HTTPS请求的具体内容,否则mitmproxy是无法解析HTTPS请求的。

首先,运行以下命令产生CA证书,并启动mitmdump:进入到目录cmd中直接运行,

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
mitmdump

然后在用户目录下找到CA证书

证书一共5个,表1-1简要说明了这5个证书。

表1-1 5个证书及其说明

mitmproxy-ca.pem

PEM格式的证书私钥

mitmproxy-ca-cert.pem

PEM格式证书,适用于大多数非Windows平台

mitmproxy-ca-cert.p12

PKCS12格式的证书,适用于Windows平台

mitmproxy-ca-cert.cer

与mitmproxy-ca-cert.pem相同,只是改变了后缀,适用于部分Android平台

mitmproxy-dhparam.pem

PEM格式的秘钥文件,用于增强SSL安全性

Windows

双击mitmproxy-ca.p12,就会出现导入证书的引导页,如图1-61所示。

直接点击“下一步”按钮即可,会出现密码设置提示,

这里不需要设置密码,直接点击“下一步”按钮即可。

接下来需要选择证书的存储区域,这里点击第二个选项“将所有的证书都放入下列存储”,

然后点击“浏览”按钮,选择证书存储位置为“受信任的根证书颁发机构”,

接着点击“确定”按钮,然后点击“下一步”按钮。

最后,如果有安全警告弹出,直接点击“是”按钮即可。

这样就在Windows下配置完CA证书了。

图我都没有贴,感觉没必要,基本都是下一步,傻瓜式

Android

将刚才,我图中圈出来的发到手机上安装,mitmproxy-ca-cert.cer。如果这个在手机上安装失败,则去将mitmproxy-ca-cert.pem发到手机上安装。

可能会有安全警告,直接忽略就行,完成。

配置代理IP。连接同一局域网,在WiFi的设置中添加代理IP和端口,代理IP是电脑的IP,端口是抓包监控的端口。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
cmd运行着段代码   mitmdump -s decode_douyin_fans.py -p 8889  说明:mitmdump -s py文件 -p 模拟器代理端口

也可以直接运行mitmdump, 默认端口是8080;

py文件,我贴点,可以参考这个:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
import json
# 这个地方必须这么写 函数名:response
def response(flow):
    # 通过抓包软包软件获取请求的接口
    if 'aweme/v1/user/follower/list' in flow.request.url:
        # 数据的解析
        for user in json.loads(flow.response.text)['followers']:
            douyin_info = {}
            douyin_info['share_id'] = user['uid']
            douyin_info['douyin_id'] = user['short_id']
            douyin_info['nickname'] = user['nickname']
            print('粉丝列表:', douyin_info, '---------------------------')

运行时的截图,没有。

大家有什么问题,可以留言, 我看到了都会回复。

然后就是以后我们只会写关于Python的内容,爬虫、数据分析机器学习,后面可能会有深度学习


回复‘机器学习’,获取最新资源。


关于Python的资源及爬虫的资源我都会更新,欢迎关注!


后面我会给打赏的同学分享我每次爬到的数据,只能这么感谢大家的支持,谢谢!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-03-19,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Python爬虫scrapy 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
面试官问我会不会APP抓包,我..
App抓包应该是每个爬虫工程师都避不开的话题,在之前我也写过关于自动参与「抽奖助手」 抽奖的文章,当时使用的抓包工具是Charles,有需要的朋友可以翻下之前的文章。
猴哥yuri
2019/04/25
1.3K0
面试官问我会不会APP抓包,我..
[602]app抓包之mitmproxy的安装和使用
mitmproxy是一个支持HTTP和HTTPS的抓包程序,类似Fiddler、Charles的功能,只不过它通过控制台的形式操作。
周小董
2022/04/13
5.4K0
[602]app抓包之mitmproxy的安装和使用
【保姆级教程】万字详解App定向爬虫
‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍
857技术社区
2022/05/17
2.9K0
【保姆级教程】万字详解App定向爬虫
使用 mitmproxy 做拦截代理
mitmproxy 就是用于 MITM 的 proxy,MITM 即中间人攻击(Man-in-the-middle attack)。用于中间人攻击的代理首先会向正常的代理一样转发请求,保障服务端与客户端的通信,其次,会适时的查、记录其截获的数据,或篡改数据,引发服务端或客户端特定的行为。
赵云龙龙
2020/02/24
3.7K0
Python3网络爬虫实战-7、APP爬
MitmProxy 是一个支持 HTTP 和 HTTPS 的抓包程序,类似 Fiddler、Charles 的功能,只不过它是一个控制台的形式操作。 同时 MitmProxy 还有两个关联组件,一个是 MitmDump,它是 MitmProxy 的命令行接口,利用它我们可以对接 Python 脚本,用 Python 实现监听后的处理。另一个是 MitmWeb,它是一个 Web 程序,通过它我们可以清楚地观察到 MitmProxy 捕获的请求。 本节我们来了解一下 MitmProxy、MitmDump、MitmWeb 的安装方式。
py3study
2020/01/03
7200
Python3网络爬虫实战-7、APP爬
Python3网络爬虫实战-8、APP爬
MitmProxy 是一个支持 HTTP 和 HTTPS 的抓包程序,类似 Fiddler、Charles 的功能,只不过它是一个控制台的形式操作。 同时 MitmProxy 还有两个关联组件,一个是 MitmDump,它是 MitmProxy 的命令行接口,利用它我们可以对接 Python 脚本,用 Python 实现监听后的处理。另一个是 MitmWeb,它是一个 Web 程序,通过它我们可以清楚地观察到 MitmProxy 捕获的请求。 本节我们来了解一下 MitmProxy、MitmDump、MitmWeb 的安装方式。
py3study
2020/01/03
8910
Python3网络爬虫实战-8、APP爬
关于手机App的Https抓包
我喜欢用 Mitmproxy 来处理手机 App 抓包之类的工作,本来用它来抓 Https 包是很容易的一件事,只要设置好代理,浏览 mitm.it 按提示安装证书即可,可是当 Android 版本升
LA0WAN9
2021/12/14
1.5K0
关于手机App的Https抓包
APP爬虫-mitmproxy安装与简单使用
我们通常使用的抓包工具就是Fiddler和Charles这种图形化的,Charles的优点是跨平台,Windows和Mac都可以使用,Fiddler的优点是功能“极其”强大,不仅拥有抓包功能,还拥有中间人攻击的功能,但是使用成本太高了,我们做爬虫开发,使用到Fiddler的功能不过十之二三罢了。今天我们主要讲的是mitmproxy这款工具,这是一款专业的中间人攻击工具,mitmproxy 不仅可以截获请求帮助开发者查看、分析,最最重要的是支持Python进行定制化二次开发。例如:截获浏览器的请求内容,并将数据处理后存储到数据库,再将内容交给浏览器;如果出现异常时,发出邮件通知,并返回给浏览器一个空的页面。 mitmproxy有以下几个特点:
星星在线
2020/05/22
2.3K0
实战|手把手教你如何使用抓包神器MitmProxy
玩爬虫的小伙伴都知道,抓包工具除了MitmProxy外,还有Fiddler、Charles以及浏览器netwrok等
Python研究者
2021/05/13
4.9K0
实战|手把手教你如何使用抓包神器MitmProxy
[601]app抓包Charles安装之爬取微信小程序
Charles,一个HTTP代理服务器,HTTP监视器,反转代理服务器,当程序连接Charles的代理访问互联网时,Charles可以监控这个程序发送和接收的所有数据。它允许一个开发者查看所有连接互联网的HTTP通信,这些包括request, response和HTTP headers (包含cookies与caching信息)。
周小董
2022/04/13
3.2K0
[601]app抓包Charles安装之爬取微信小程序
App爬虫神器mitmproxy和mitmdump的使用
mitmproxy是一个支持HTTP和HTTPS的抓包程序,有类似Fiddler、Charles的功能,只不过它是一个控制台的形式操作。 mitmproxy还有两个关联组件。一个是mitmdump,它是mitmproxy的命令行接口,利用它我们可以对接Python脚本,用Python实现监听后的处理。另一个是mitmweb,它是一个Web程序,通过它我们可以清楚观察mitmproxy捕获的请求。 下面我们来了解它们的用法。 一、准备工作 请确保已经正确安装好了mitmproxy,并且手机和PC处于同一个
崔庆才
2018/06/25
12.7K0
python轻松抓取app接口
我们使用代理软件拦截 http 或者 https 请求常见的有 Fiddler 和 Charles。这两款软件虽然比较强大,但是如果我们想实现 python 抓取一些 app 数据进行分析的话,今天介绍一款更方便的工具 mitmproxy
赵云龙龙
2019/11/28
2.4K0
Mitmproxy 的安装与使用案例
上篇文章简单介绍了手机端的抓包工具fiddler的使用,实现了抓取抖音某用户“喜欢”的视频列表的操作。
singleli
2020/10/22
2.4K0
Mitmproxy 的安装与使用案例
以羊了个羊为例,浅谈小程序抓包与响应报文篡改
在前面的文章中,我们一起制作了一个天眼查小程序,其中涉及到了微信小程序的抓取过程,应众多读者的要求,今天我们一起来看看微信小程序的抓包流程
AI科技大本营
2022/12/10
1.3K0
以羊了个羊为例,浅谈小程序抓包与响应报文篡改
mitmproxy 抓包神器-1.环境准备与抓取浏览器请求
常见的抓包工具有fiddler 和 charles, 这些工具都是需要安装本地客户端,python 版的抓包工具可以用 mitmproxy。 mitmproxy 相比Charles、fiddler的优点在于,它可以命令行方式或脚本的方式进行mock
上海-悠悠
2023/01/03
1.5K0
mitmproxy 抓包神器-1.环境准备与抓取浏览器请求
如何在macOS上监听单个应用HTTPS流量
写在前面的话 如果你准备对网络协议进行逆向分析或进行任何与网络安全有关的活动时,可能是为了了解协议运行机制,也有可能是为了查找敏感信息,你或多或少都需要收集一定量的网络通信数据。在此之前,我们只需要打开tcpdump就可以查看到所有的明文数据包流量了,但是现在几乎每一个人的网络流量都经过了加密处理,看样子之前的好日子一去不复返了。话虽如此,但现在仍然有很多用户的在线服务账号被黑,而他们的个人信息随后便会在暗网市场<点击阅读原文查看链接>中出售,这又是为何呢? 如今,只要你打算做网络分析,那么你绝对需要H
FB客服
2018/02/26
1.8K0
如何在macOS上监听单个应用HTTPS流量
【原创】mitmdump 安装证书至手机系统证书
雷电模拟器从4.X版本之后设置代理是不起作用的,可以通过Postern之类的VPN代理来做中转
拉灯的小手
2022/12/05
2.1K0
一篇文章教会你用Python抓取抖音app热点数据
今天给大家分享一篇简单的安卓app数据分析及抓取方法。以抖音为例,我们想要抓取抖音的热点榜数据。
Python进阶者
2020/03/26
1.1K0
一篇文章教会你用Python抓取抖音app热点数据
云函数实现代理
博客貌似有很久很久没有更新了。但是其实并没有停止学习(笔记大部分写到了语雀上,有空闲时间同步到博客)。今天看了公众号里的一篇文章,自己实际操作了一下发现有一些坑,所以来做个记录
用户2700375
2022/06/09
2K0
云函数实现代理
Mitmproxy 抓包工具安装使用
Mitmproxy是一个使用python编写的中间人代理工具,跟Fiddle、Charles等等的抓包工具是差不多的,同样可以用于拦截、修改、保存http/https请求。比起Fiddle、Charles,mitmproxy有一个最大的特点是支持python自定义脚本。
清风穆云
2021/10/18
1.5K0
Mitmproxy 抓包工具安装使用
相关推荐
面试官问我会不会APP抓包,我..
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档