学习爬虫之前,它给我的感觉一直很高深莫测。由于工作性质,业余时经常浏览日本各大网站以获取各种最新资讯。其中日本Yahoo是偶常去的网站。
今天就用Python,用其简单粗暴的爬虫手法抓取Yahoo日本每日最新娱乐资讯。
首先看一下Yahoo每日娱乐新闻的页面地址,从下方图片可以看到页面地址前面是固定的,就末尾的日期是变数。所以如果你要抓取哪天的新闻只要把末尾的日期一改就行了。
那让我们抓取今天的娱乐新闻吧。另外抓完之后直接保存到文本文件里以便查看内容是否OK。
页面地址如下
https://news.yahoo.co.jp/list/?c=entertainment&d=20180111
下面是简单粗暴的爬虫代码
执行爬虫命令
没有报什么错误,说明爬虫代码没有编译错误。那现在就马上确认一下是否生成了文本文件以及文本内容是否是自己想要的。
确认到下方已经生成了页面文件。
再看看里边的内容,确实抓取到所要的页面内容。
好了,今天介绍的简单粗暴的爬虫方法就到这里了。如果要抓取更细的内容还是需要用爬虫框架来实现。
欢迎报名Scratch课程
报名方式
(一)微信小程序报名
报名入口
pmp140108(请注明:编程)
睿启编程学堂
RICH the imagination
of all possibilite
领取专属 10元无门槛券
私享最新 技术干货