前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >「docker实战篇」python的docker-抖音视频抓取-总结(下)(26)

「docker实战篇」python的docker-抖音视频抓取-总结(下)(26)

作者头像
IT架构圈
发布2019-04-26 17:56:59
1.2K0
发布2019-04-26 17:56:59
举报
文章被收录于专栏:IT架构圈

从19到24节都说的抖音数据的抓取,从web端用户信息抓取,app端粉丝数据抓取,视频数据。

(一)抓取三大块
  • 1.web端用户信息抓取

技术困难: 个人数据界面-TTF混淆

解决方案: 枚举的方式分析出来数字

注意事项: 通过TTF字体数据对应,如果抖音TTF字体库发生改变,爬虫也需要做对应修改。

  • 2.app端粉丝数据获取

技术困难: appium模拟滑动+mitmdump解析数据 通过一台设备抓取比较慢,多设备多进程抓取抖音的数据

注意事项: 1.appium模拟滑动抖音粉丝数据,一个名人一般仅能获取5000条粉丝数据。 2.移动设备设置代理进行抓包后,如遇到无法联网或无法解析https数据时,需要安装Xposed框架+JustTrustme组件进行屏蔽证书的校验。如果用真实手机建议直接刷个带Xposed框架和开通Root权限的系统,为了避免【变砖】。 3.在设置多设备,多进程数据抓取时,需要设置appium服务端的bootstrap端口,以及客户端的udid字段。

  • 3.web端视频数据抓取

技术困难:

技术困难: 破解js获取signature,通过浏览器获取到signature

注意事项: 视频抓取,需要破解signature字段,使用拼接html,解析js

技术参考: https://douyin.wlansq.cn/

2个请求中,getjs里面有个tac,最早的时候一直获取不到数据,后来才知道原来是tac 没有获取。

PS:

1.数据抓取的时,需要加上代理,伪装爬虫 2.条件允许最好还是使用真实移动设备,最好使用小米,华为的安全性太高了。国产的华为手机安全要求很高,不插入手机卡,usb调试模式都打不开。破解系统还需要收费。 3.小米刷机一般使用【刷机大师】,【刷机精灵】,(【线刷宝】会安装一些流氓软件,但是线刷宝确实好用,忍着吧)

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-04-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 编程坑太多 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • (一)抓取三大块
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档