首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

python爬虫初探

学习爬虫之前,它给我的感觉一直很高深莫测。由于工作性质,业余时经常浏览日本各大网站以获取各种最新资讯。其中日本Yahoo是偶常去的网站。

今天就用Python,用其简单粗暴的爬虫手法抓取Yahoo日本每日最新娱乐资讯。

首先看一下Yahoo每日娱乐新闻的页面地址,从下方图片可以看到页面地址前面是固定的,就末尾的日期是变数。所以如果你要抓取哪天的新闻只要把末尾的日期一改就行了。

那让我们抓取今天的娱乐新闻吧。另外抓完之后直接保存到文本文件里以便查看内容是否OK。

页面地址如下

https://news.yahoo.co.jp/list/?c=entertainment&d=20180111

下面是简单粗暴的爬虫代码

执行爬虫命令

没有报什么错误,说明爬虫代码没有编译错误。那现在就马上确认一下是否生成了文本文件以及文本内容是否是自己想要的。

确认到下方已经生成了页面文件。

再看看里边的内容,确实抓取到所要的页面内容。

好了,今天介绍的简单粗暴的爬虫方法就到这里了。如果要抓取更细的内容还是需要用爬虫框架来实现。

欢迎报名Scratch课程

报名方式

(一)微信小程序报名

报名入口

pmp140108(请注明:编程)

睿启编程学堂

RICH the imagination

of all possibilite

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180111G0RCC900?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券