Day02_python数据分析入门
(本系列所有开发环境均默认为Mac)
鄙人在IT公司做过java后台开发,深感疲惫,但也充实。不过结束之后回想,这种充实在某种程度上是个假像,因为做后台开发太多的重复劳动,把别人造好的轮子略作修改就成自己的了。据说90%的程序员到35岁后都要转行,而一旦届时转行,前期的IT积累几乎为零,因为技术变革异常飞速,传统开发在人工智能的兴起下正愈发岌岌可危。相比之下,金融业却一直是各行各业的顶端,那些出入写字楼的金融精英,视金钱为数字的人,他们才能永葆行业青春,一直笑傲于世界之巅。
要做金融,必须学会数据分析,本文将讲述最简单的Python爬取网页信息。
1,下载anaconda,让anaconda接管你的一切python事务。Anaconda是南美洲的一种蟒蛇,可谓管理Python的一条Python。它提供了包管理和环境管理功能。
2,使用anaconda中的Jupyter作为Python编译器来跑程序。在iTerm中输入jupternotebook按回车。
3,编写获取网页HTML的代码。首先Importrequest.把Python的request包导入,然后使用request.get(link, headers = headers)获取网页。其中Link就是你要爬取的网页地址,headers则是HTTP请求和响应的核心,它承载了关于客户端浏览器、请求页面、服务器等相关信息。使用chrome浏览器,在网页任意地方右键菜单点击审查元素打开chrome自带的调试工具,选择Network标签,刷新网页,刷新后在左边找到该网页url,点击后右边选择headers就可以看到当前网页的header了。
4,代码如下:
importrequests
headers ={'User-Agent' : 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6)Gecko/20091201 Firefox/3.5.6'}
r =requests.get(link, headers= headers)
print (r.text)
r是requests的Response回复对象,我们从中可以获取我们想要的信息。r.text是获取的网页内容代码。
5,from bs4 import BeautifulSoup #从bs4这个库中导入BeautifulSoup
soup=BeautifulSoup(r.text,"lxml")#使用BeautifulSoup解析这段代码
title=soup.find("h1",class_="post-title").a.text.strip()
print(title)
加上下段代码可解决中文编码问题
太简单了…不写了….
领取专属 10元无门槛券
私享最新 技术干货