Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Python爬取百度知道数据进行解析、存库

Python爬取百度知道数据进行解析、存库

作者头像
kenvie
发布于 2022-01-20 08:31:59
发布于 2022-01-20 08:31:59
1K00
代码可运行
举报
文章被收录于专栏:kenviekenvie
运行总次数:0
代码可运行

在百度知道搜索板蓝根,爬取前75页,并存入数据库

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
import requests
from lxml import etree
import pymysql
from fake_useragent import UserAgent

def zhidao(s,c):
    url = 'https://zhidao.baidu.com/search?word=%B0%E5%C0%B6%B8%F9&pn='+str(s)+'0'
    headers = {
        'User-Agent':str(UserAgent().Chrome),
        'Referer': 'https://zhidao.baidu.com/'
    }
    res = requests.get(url=url, headers=headers)
    res.encoding = 'GBK'
    html = etree.HTML(res.text)
    num = 0
    data_i = html.xpath('//dl[@class="dl"]')
    for i in data_i:
        num+=1
        a = i.xpath('./dt/a//text()')
        data_title="".join(a)
        data_time = i.xpath('./dd/span[@class="mr-7"]/text()')
        data_url = i.xpath('.//dt/a/@href')
        sql='insert into zhidao values (%s,%s,%s,%s)'
        c.execute(sql,(num,data_title,data_time,data_url))
        conn.commit()

if __name__ == '__main__':
    conn = pymysql.connect(host='这里填数据库ip',port=3306,user='root',passwd='S7865324.',db='test',charset='utf8')
    c = conn.cursor()
    for s in range(0,76):
        print(s)
        zhidao(s,c)
    c.close()
    conn.close()

版权属于:kenvie

本文链接:https://cloud.tencent.com/developer/article/1937748

商业转载请联系作者获得授权,非商业转载请注明出处。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2021 年 11 月,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Python爬取某壁纸网站的壁纸
import requests from lxml import etree import os url = 'http://simpledesktops.com/browse/' headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36' } r = requests.ge
kenvie
2022/01/20
1.3K0
Python爬取某壁纸网站的壁纸
Python解析京东评论到数据库中及从数据库中获取数据
解析京东评论到数据库中:0 import requests import json import pymysql def jd_data(cursor): url = 'https://cl
kenvie
2022/01/20
3.7K0
手把手教你用python爬取猫眼TOP100电影信息
在生活中,我们如果想要对网站上的数据进行使用的话,一般我们都会使用复制粘贴的方法进行复制过来,但如果数据量很多的话,你就会像个机械人一样做着重复的事,而使用Python爬虫可以轻松的从网站上抓取我们想要的数据,不必要做重复的事情。本文将基于爬取猫眼TOP100电影信息并存储为例,介绍Python爬虫的基本流程。
Python与Excel之交
2021/08/05
1.9K1
Python解析百度贴吧,去掉代码注释
爬取百度贴吧的时候遇到的问题就是爬下来有数据的代码都被注释掉了,python获取不到,所以要把代码注释取消掉
kenvie
2022/01/20
8050
Python解析百度贴吧,去掉代码注释
爬取百度问答目的分析网页总结
由于最近再开发问答系统,数据获取是一个问题,所以想通过爬虫爬取百度知道里面的问题和最优答案。
DC童生
2018/12/27
1.2K0
实战讲解四种不同爬虫解析数据方法,必须掌握!
爬虫解析数据有很多种,爬取不同的数据,返回的数据类型不一样,有html、json、xml、文本(字符串)等多种格式!
Python研究者
2021/05/13
5070
实战讲解四种不同爬虫解析数据方法,必须掌握!
Python简单爬取58同城
爬取网站为:https://jn.58.com/chuzu/?PGTID=0d100000-0010-997a-6ba0-3b2a61df3202&ClickID=2 import requests
kenvie
2022/01/20
1.1K0
Python简单爬取58同城
Python素材下载爬虫,ui素材下载爬取采集源码
Uimaker是为UI设计师提供学UI设计的专业UI平台,拥有UI教程、UI素材、ICON、图标设计UI、手机UI、ui设计师招聘、软件界面设计、后台界面、后台模版等相关内容,快来uimaker学UI设计。
二爷
2020/07/22
2.5K0
Python素材下载爬虫,ui素材下载爬取采集源码
类及数据库的应用,G-MARK网站数据Python爬虫系统的构建
“Good Design Award”创立于1957年,也是日本国内唯一综合性的设计评价与推荐制度,通称为G-mark,中文称之为日本优良设计大奖。
二爷
2020/07/22
6420
类及数据库的应用,G-MARK网站数据Python爬虫系统的构建
分享一份抓取某东商品名称、价格和评论数的代码
前几天在Python白银交流群【邮递员】问了一个Python网络爬虫的问题,提问截图如下:
前端皮皮
2024/04/26
1840
分享一份抓取某东商品名称、价格和评论数的代码
Python简单爬取永劫无间官方网站公开插画
import requests import os from lxml import etree url = 'https://www.yjwujian.cn/media/#/pic' headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36' } response = re
kenvie
2022/01/20
1.2K0
Python简单爬取永劫无间官方网站公开插画
python3爬虫-通过requests
import requests from fake_useragent import UserAgent from lxml import etree from urllib.parse import urljoin import pymysql import time ua = UserAgent() class MyException(Exception): def __init__(self, status, msg): self.status = status
py3study
2020/01/16
4090
Python|简单爬取豆瓣网电影信息
在掌握一些基础的爬虫知识后,就可以尝试做一些简单的爬虫来练一练手。今天要做的是利用xpath库来进行简单的数据的爬取。我们爬取的目标是电影的名字、导演和演员的信息、评分和url地址。
算法与编程之美
2020/05/16
1.3K0
Python爬虫教程,爬取小说网站
得到每个分类的页面的链接只有上面箭头指的地方变了下,因此这里使用Python自动生成了分类的链接:
python学习教程
2020/03/02
1.6K0
【爬虫】爬取豆瓣电影信息
import requests from lxml import etree import re import pymysql import time conn = pymysql.connect(host='localhost', user='root', passwd='123456', db='mydb', port=3306, charset='utf8') cursor = conn.cursor() headers = { 'User-Agent':'Mozilla/5.0 (Win
天道Vax的时间宝藏
2021/08/11
6600
爬虫实例十三:python爬取海量PPT模板
到了大学,经常会因为课外活动,学校活动,团课活动,等一系列活动做一些PPT。经常要找PPT模板来应急(不会还有人自己做PPT模板吧,哈哈哈 ),为了省事,于是,我想到了爬虫,把目标网页全部爬下来,供自己使用。
远方的星
2021/05/06
2K0
爬虫实例十三:python爬取海量PPT模板
requests----爬取虎嗅网站
# -*- coding:utf-8 -*- # author: street import re
用户2337871
2019/07/19
6230
一起学爬虫——使用xpath库爬取猫眼电
之前分享了一篇使用requests库爬取豆瓣电影250的文章,今天继续分享使用xpath爬取猫眼电影热播口碑榜
py3study
2020/01/21
9580
手把手带你Python爬虫 | 爬取起点小说网
用python爬取一本仙侠类的小说下载并保存为txt文件到本地。本例为“大周仙吏”。
快学Python
2021/08/09
3.8K0
requests项目实战--抓取百度热搜
注意:123是搜索关键字。这不是重点,因为必须要搜索,才能在网页右侧出现百度热搜。
py3study
2020/08/24
9080
requests项目实战--抓取百度热搜
推荐阅读
相关推荐
Python爬取某壁纸网站的壁纸
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验