Part1
数据说明
数据源:抖音移动端数据分析
数据爬取:python3
数据量:10万条
开放量:2万条
数据应用:短视频生态行业分析,如各行业抖音号分布、短视频传播规律、短视频制作技巧等。
开放数据说明:开放Top20000的头部KOL抖音用户数据,包含单用户下如排名、作品数、平均播放量等数据纬度:
数据实例:
Part2
数据爬虫说明
获取抖音数据源:原本获取到抖音源想通过正则来对诸如抖音号等信息的匹配,但发现匹配效率比较低,但是后面发现一旦正则表达式写的有问题,得到的可能就不是我们想要的结果了。而且对于一个网页来说,都有一定的特殊结构和层级关系,而且很多节点都有id或class来作区分,所以借助它们的结构和属性来提取不也可以吗?
这里可以用XPath或Beautiful Soup,具体依据各位的熟悉程度了。我这里用的是XPath。
Part3
数据获取方式
本文评论区或关注公号留言,当然要是黑豹没有及时回复也请见谅。
领取专属 10元无门槛券
私享最新 技术干货