写在开始 :
为什么选择Scrapy?
Scrapy 是一套基于Twisted的异步处理框架,是纯python实现的爬虫框架,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容或者各种图片。相对入门简单,当然如果你足够了解正则,bs4 ,beautifulsoup 也是个不错的选择。
PS:需要一定的Python基础 简单的xpath 基础
创建项目(以音悦台榜单为例)
Url=http://vchart.yinyuetai.com/vchart/trends?area=ALL
启动 Anaconda Prompt
创建工程
进入工程目录
定义工作域爬虫名称
修改文件
itmes.py
定义要爬取的数据内容
Musiclist.py
爬虫主程序
分析HTML
标记为我们需要的信息
详细信息在ul 标签下的li 标签
依此找到标题歌手时间的 xpath 修改原始 musiclist.py 文件
Pipelines.py setting.py
运行爬虫
数据结果
已使用 Microsoft OneNote 2016 创建。
领取专属 10元无门槛券
私享最新 技术干货