简介
大家好!最近刚刚开始接触Python爬虫,做了一个爬虫的小练习。我只知道豆瓣电影,却不知道豆瓣音乐,今天就分享如何爬取豆瓣音乐的数据?
目标总览
主要做三件事:
抓取网页数据
解析数据
存数据
软件环境:
Python3.6.0
Pycharm5.0.5
库(requests(获取)/BeautifulSoup(解析)/random/json/time/re)
定
义
方
法
爬取豆瓣音乐
def process_request()
随机获取user_agent
def main()
输入关键词和页数
def generate_allurl(user_in_nub,search_keywords,user_header)
获取该网页的标签
形参:
user_in_nub 爬取的页数
search_keywords 爬取音乐的标签
user_headerUSER_AGENTS随机列表的元素
翻页
def get_allurl(generate_allurl,user_header)
正则获取网页
形参:
generate_allurl 方法
user_headerUSER_AGENTS随机列表的元素
def open_url(re_get,user_header)
形参:
re_get 网页
user_headerUSER_AGENTS随机列表的元素
def writer_to_text(text)
保存文件为豆瓣音乐.txt
完整代码
抓取效果:
今天的分享就到这里
希望大家能够喜欢
如果您喜欢我们的文章、有数据相关的idea,来吧!和我们一起,在【Data室工作】微信公众号私信或留言。
——我是余白,我为团队代言
领取专属 10元无门槛券
私享最新 技术干货