这个信息传递非常快的时代, 学会信息和数据快速采集和爬取都是非常必要的。
python web scraper可以说是这个时代的火箭头了,设置简单,非常高效,采集咪蒙文章标题仅需2分钟,采集58同城5000条租房信息也就5分钟而已。
Web scraper是google强大插件库中非常强大的一款数据采集插件,有强大的反爬虫能力,只需要在插件上简单地设置好,可以快速抓取知乎、简书、豆瓣、大众、58等大型、中型、小型的90%以上的网站,包括文字、图片、表格等内容,最后快速导出csv格式文件。Google官方对webscraper给出的说明是:使用我们的扩展,您可以创建一个计划(sitemap),一个web站点应该如何遍历,以及应该提取什么。使用这些sitemaps,Web刮刀将相应地导航站点并提取所有数据。稍后可以将剪贴数据导出为CSV。Webscraperk课程将会完整介绍流程介绍,用知乎、简书等网站为例介绍如何采集文字、表格、多元素抓取、不规律分页抓取、二级页抓取、动态网站抓取,以及一些反爬虫技术等全部内容。我也将在近期开始web scraper课程,web scraper的安装Web scraper是google浏览器的拓展插件,它的安装和其他插件的安装是一样的。
如果无法下载webscraper或其他python资料,可以联系小编。
1、准备工作: Python、scrapy、一个IDE编译器
随便建一个工作目录,然后用命令行建立一个工程,工程名为miao,可以替换为你喜欢的名字。
scrapy startproject miao
随后你会得到如下的一个由scrapy创建的目录结构
在spiders文件夹中创建一个python文件,比如miao.py,来作为爬虫的脚本。
内容如下:
import scrapy
class NgaSpider(scrapy.Spider):
name = "NgaSpider"
host = "http://bbs.ngacn.cc/"
# start_urls是我们准备爬的初始页
start_urls = [
"http://bbs.ngacn.cc/thread.php?fid=406",
]
# 这个是解析函数,如果不特别指明的话,scrapy抓回来的页面会由这个函数进行解析。
# 对页面的处理和分析工作都在此进行,这个示例里我们只是简单地把页面内容打印出来。
def parse(self, response):
print response.body
2、跑一个试试?
如果用命令行的话就这样:
cd miao
scrapy crawl NgaSpider
你可以看到爬虫君已经把你坛星际区第一页打印出来了,当然由于没有任何处理,所以混杂着html标签和js脚本都一并打印出来了。
以下是几个比较重要的地方:
scrapy的架构:
http://scrapy-chs.readthedocs.io/zh_CN/0.24/topics/architecture.html
xpath语法:
http://www.w3school.com.cn/xpath/xpath_syntax.asp
Pipeline管道配置:
http://scrapy-chs.readthedocs.io/zh_CN/0.24/topics/item-pipeline.html
Middleware中间件的配置:
http://scrapy-chs.readthedocs.io/zh_CN/0.24/topics/downloader-middleware.html
settings.py的配置:
http://scrapy-chs.readthedocs.io/zh_CN/0.24/topics/settings.html
python是一个世界的大门,我相信在这里面,你一定能找到你喜欢的,人生程序。
领取专属 10元无门槛券
私享最新 技术干货