一个 Chrome 插件
其实就是一个配置(入口)文件
manifest.json
和一系列 html、css、js、图片文件的集合
所以只要有前端基础
写一个简单的 Chrome 扩展是分分钟的事情
很巧,我正好有这些基础
分分钟写个bug出来看看
先看官方教程
https://developer.chrome.com/extensions
额。。。
不够语言友好
听说360是偷的Chrome的内核
http://open.chrome.360.cn/extension_dev/overview.html
没想到啊
360也有立功的时候
先花一个小时扫完这个教程
然后按照惯例
写一个Hello World出来
哎,突然发现已经有人做出来我想要的插件了
真是
总是比别人慢一步
直接拿来用吧
https://chrome.google.com/webstore/detail/web-scraper/jnhgnonknehpejjnehehllkliplmbmhn?hl=en
第一步
Chrome浏览器打开安装上面这个叫Web Scraper的插件
哎,继续叹气
忘了描述需求了
我们需要获取微博关键词搜索“不想长大”的前50页结果的所有数据并汇总
第二步
打开这个页面
https://s.weibo.com/weibo?q=%E4%B8%8D%E6%83%B3%E9%95%BF%E5%A4%A7&Refer=SWeibo_box
空白处右键
检查元素或者inspect element
切换到web scraper小标签
第三步
create new site map
取个名字 weibo_50_page_scrap
因为要50页
start url里需要输入
https://s.weibo.com/weibo?q=%E4%B8%8D%E6%83%B3%E9%95%BF%E5%A4%A7&Refer=SWeibo_box&page=[1-50]
第四步
create new selector
定义单个微博
type选element
selector。。。
哎,操作比较复杂,你们就跳过吧
文末我直接放现成的
import去用就好了
第五步
逐个添加
作者
正文
时间
点赞评论转发数
第六步
爬取数据
第七步
下载为csv文件
50页,差不多977个结果
done
附上sitemap
这样直接在web scraper下面import就好
唯一需要修改的就是自己的关键词和页码了
当然也可以对六大爬取数据做一些增减
生命在于运动
技术改变生活
爬虫提高效率