前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >python网络爬虫(6)爬取数据静态

python网络爬虫(6)爬取数据静态

作者头像
嘘、小点声
发布2019-07-31 17:24:54
4240
发布2019-07-31 17:24:54
举报
文章被收录于专栏:嘘、小点声

爬取静态数据并存储json

代码语言:javascript
复制
import requests
import chardet
from bs4 import BeautifulSoup
import json
user_agent='Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0'
headers={'User-Agent':user_agent}
r=requests.get('http://seputu.com/',headers=headers)
r.encoding=chardet.detect(r.content)['encoding']
soup=BeautifulSoup(r.text,features='html.parser')
content=[]
for mulu in soup.find_all(class_='mulu'):
    h2=mulu.find('h2')
    if(h2!=None):
        h2_title=h2.string
        list=[]
        for a in mulu.find(class_='box').find_all('a'):
            href=a.get('href')
            box_title=a.get('title')
            print(href,'|||',box_title)
            list.append({'href':href,'box_title':box_title})
            pass
        content.append({'title':h2_title,'content':list})
        pass
    pass
with open('1.json','w') as fp:
    json.dump(content, fp=fp,indent=4)
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2019-06-04 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 爬取静态数据并存储json
相关产品与服务
对象存储
对象存储(Cloud Object Storage,COS)是由腾讯云推出的无目录层次结构、无数据格式限制,可容纳海量数据且支持 HTTP/HTTPS 协议访问的分布式存储服务。腾讯云 COS 的存储桶空间无容量上限,无需分区管理,适用于 CDN 数据分发、数据万象处理或大数据计算与分析的数据湖等多种场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档