首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >02_输入检索词自动爬取百度搜索页标题信

02_输入检索词自动爬取百度搜索页标题信

作者头像
py3study
发布于 2020-01-17 06:40:05
发布于 2020-01-17 06:40:05
49800
代码可运行
举报
文章被收录于专栏:python3python3
运行总次数:0
代码可运行
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
背景:
在百度每次输入关键词检索后,会出现很多的检索页,不利于有效阅读,
为更方便收集检索信息,编写了一个可以收集每个检索页与检索词相关的十条检索信息(百度在每个检索页放置十条检索标题信息)。
可以根据需要选择爬取多少检索页,通过修改main()函数的depth变量

 1 import urllib.request
 2 import re
 3 
 4 def get_html_text(url,data_lst,depth):
 5  
 7     for i in range(depth):
 8         
 9         # 根据分析构造网址
10         url_kw = url + '&pn=' + str(i*10) #切记:这里不能使用'i*10'来表示,如果那样的话将无法将i通过for循环传递参数。
11         
12         # 获取每页的网页数据
13         data = urllib.request.urlopen(url_kw).read().decode('utf-8', 'ignore')
14         
15         # 测试代码:print(len(data))
16         print('正在爬取第',str(i+1),'页网页信息')
17         
18         # 构造正则表达式,提取目标信息
19         html_title_pat = '"title":"(.*?)"'
20         title_info = re.compile(html_title_pat, re.S).findall(data)
21         # 测试代码:print(len(title_info))
22         for i in range(0,len(title_info)):
23             print('第'+str(i+1) + '条网页标题:' + str(title_info[i]))
24             print('-'*20)
25             data_lst.append(title_info[i])
26 
27         
28 def main():
29     keyword = input('请输入要检索的关键词:')
30     
31     # #对关键词进行编码,因为URL中需要对中文等进行处理.
32     # 我们平时输入网址的时候有汉字是因为搜索框会自动解析汉字,但是python不会,所以我们需要对关键词进行编码。
33     key_code = urllib.request.quote(keyword) # 对关键词编码
34     
35     url = 'http://www.baidu.com/s?&ie=utf-8&wd='+ key_code
36     depth = 5 # 爬取网页的深度,可以自行设置
37     data_lst = list()
38     get_html_text(url,data_lst,depth)
39   
    # 保存到本地路径
40     with open('baidu_keyword.txt', 'a', encoding='utf-8') as f:
41         data_raw = [str(i) for i in data_lst] #使用列表推导式保证列表内的每个元素都是字符串,因为文件写入时要求每个元素都是字符串格式。
42         #data_content = ' '.join(data_raw)
43         for i in data_raw:
44             f.write(i+'\n') #‘\n’写入一条信息就进行换行,使爬取的数据规整
45 
46 
47 if __name__ == '__main__':
48     main()
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
请输入要检索的关键词:清华大学
检索的文本信息截取
- 职业圈清华大学
清华大学信息门户系统
清华大学本科招生网
清华大学研究生招生网
清华大学百年校庆_百度百科
清华大学 - Tsinghua University
清华大学学生职业发展指导中心
清华校友网 
清华大学学生职业发展指导中心
清华大学地球系统科学系-首页
清华大学新闻网 - 清华人物
Tsinghua University
清华大学法学院
清华大学教育研究院
清华大学环境学院
清华大学
清华大学_清华大学录取分数线,专业介绍,图片_新浪院校库_新浪教育
清华大学bbs 水木社区-源于清华的高知社群
北京清华大学攻略,清华大学门票_地址,清华大学游览攻略 - 马蜂窝
清华大学吧-百度贴吧 
供应室平台_助力科研,让世界更美好 
【清华大学】清华大学招聘|待遇|面试|怎么样-看准网
清华大学开源软件镜像站 | Tsinghua Open Source Mirror
清华大学精密仪器系 - 首页 
清华大学科技园
浙江清华长三角研究院
清华大学精密仪器系 - 首页 
清华x-lab - 清华大学创意创新创业教育平台
清华大学经济管理学院
清华大学建筑学院景观学系
清华大学简介_清华大学介绍 
深圳清华大学研究院
2019北京清华大学校园概况-清华大学自助游-清华大学门票交通天气...
清华大学量子信息中心
清华大学历史研究所
清华大学
2018清华大学录取分数线_清华大学各省高考分数线_高考院校库
北京清华大学攻略,北京清华大学门票/游玩攻略/地址/图片/..._携程
★清华大学校园招聘-2018年清华大学校园招聘会
清华大学专升本 - 育鹏专升本教育信息网
清华大学门票,清华大学门票价格,清华大学门票团购【携程门票】
清华大学卡内基全球政策中心
清华大学历史研究所
清华大学在职研究生_中国在职研究生招生信息网
清华大学量子信息中心
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2019/05/12 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
使用MATLAB爬取网页数据
之前讲了用python如何爬取网页数据,仅简单的爬取了纯文本网页,不涉及模拟登录等操作。因此实现起来比较简单。
bugsuse
2020/04/21
4.8K0
使用MATLAB爬取网页数据
百度新闻热搜词及其对应新闻的抓取 原
转载请注明出处:Gaussic(一个致力于AI研究却不得不兼顾项目的研究生)。 代码已放到Github:Gaussic Github 1、关键词来源 百度新闻的首页显示了当前的热搜新闻词:
Gaussic
2018/08/17
1.6K0
百度新闻热搜词及其对应新闻的抓取
                                                                            原
写文章不会起标题?爬取虎嗅5万篇文章告诉你
摘要: 不少时候,一篇文章能否得到广泛的传播,除了文章本身实打实的质量以外,一个好的标题也至关重要。本文爬取了虎嗅网建站至今共 5 万条新闻标题内容,助你找到起文章标题的技巧与灵感。同时,分享一些值得关注的文章和作者。
1480
2019/08/05
6310
写文章不会起标题?爬取虎嗅5万篇文章告诉你
【保姆级教程】爬取网站上“气候变化”关键词新闻个数
具体的实施步骤是:明确爬取目标网站——明确爬取关键词——单页新闻标题获取——批量新闻标题获取——把新闻标题存到list中统计数量。
阿黎逸阳
2024/05/09
2290
【保姆级教程】爬取网站上“气候变化”关键词新闻个数
AI网络爬虫:deepseek爬取百度新闻资讯的搜索结果
https://www.baidu.com/s?rtt=1&bsst=1&cl=2&tn=news&ie=utf-8&word=%E8%85%BE%E8%AE%AF%E4%BA%91%E6%99%BA%E8%83%BD%E8%AF%AD%E9%9F%B3+++%E9%87%91%E8%9E%8D
AIGC部落
2024/06/28
3320
AI网络爬虫:deepseek爬取百度新闻资讯的搜索结果
python爬取百度新闻:分析共享单车火爆背后有哪些规则?
从12月份起,“共享单车”作为新生事物开始大量进入人们的视野,并且越来越多的上班族愿意接受、尝试。 本文将教与大家利用python爬虫抓取新闻页面,从媒体反映角度去了解,“共享单车”为何有井喷式发展,
机器学习AI算法工程
2018/03/14
1.7K0
python爬取百度新闻:分析共享单车火爆背后有哪些规则?
Python 爬虫系列教程一爬取批量百度图片[通俗易懂]
很久之前就学习了Python的爬虫了,也用来做过一些项目(主要是一些课程项目),但时间比较紧,一直没有空把它写下来,这个暑假,我可能会逐渐更新Python爬虫的相关知识。
全栈程序员站长
2022/08/18
1.6K0
Python 爬虫系列教程一爬取批量百度图片[通俗易懂]
爬虫入门经典(二十四) | 爬取当当网图书信息并进行数据清洗
  ♥各位如果想要交流的话,可以加下QQ交流群:974178910,里面有各种你想要的学习资料。♥
不温卜火
2020/12/03
4.8K1
爬虫入门经典(二十四) | 爬取当当网图书信息并进行数据清洗
爬取1907条『课程学习』数据,分析哪类学习资源最受大学生青睐
上一篇文章以『B站』为实战案例!手把手教你掌握爬虫必备框架『Scrapy』利用了scrapy爬取B站数据。本文将在此基础上完善代码,爬起更多的内容并保存到csv。
Python研究者
2021/03/05
4010
爬取1907条『课程学习』数据,分析哪类学习资源最受大学生青睐
Python爬虫之requests库网络爬取简单实战实例1:京东商品页面的爬取实例2 : 亚马逊商品页面爬取实例3: 百度/360搜索关键词提交爬虫实例4 网络图片的爬取和存储实例5 IP地址归属地查
首先,我们按照之前的步骤进行爬取 引入requests库,然后get,判断status_code
desperate633
2018/08/22
3.4K0
Python爬虫之requests库网络爬取简单实战实例1:京东商品页面的爬取实例2 : 亚马逊商品页面爬取实例3: 百度/360搜索关键词提交爬虫实例4 网络图片的爬取和存储实例5 IP地址归属地查
【教程】爬取和统计Google Scholar上指定关键词的文章信息
小锋学长生活大爆炸
2023/07/24
2.7K0
【教程】爬取和统计Google Scholar上指定关键词的文章信息
[PHP] 网盘搜索引擎-采集爬取百度网盘分享文件实现网盘搜索(二)
前情提要:最近使用PHP实现了简单的网盘搜索程序,并且关联了微信公众平台,名字是网盘小说。用户可以通过公众号输入关键字,公众号会返回相应的网盘下载地址。就是这么一个简单的功能,类似很多的网盘搜索类网站,我这个采集和搜索程序都是PHP实现的,全文和分词搜索部分使用到了开源软件xunsearch。
唯一Chat
2019/09/10
4.9K0
Python网络爬虫与信息提取
​ 需要注意的是,淘宝网站本身有反爬虫机制,所以在使用requests库的get()方法爬取网页信息时,需要加入本地的cookie信息,否则淘宝返回的是一个错误页面,无法获取数据。
py3study
2020/01/15
2.6K0
Python网络爬虫与信息提取
[Python从零到壹] 十.网络爬虫之Selenium爬取在线百科知识万字详解(NLP语料构造必备)
随着互联网和大数据的飞速发展,我们需要从海量信息中挖掘出有价值的信息,而在收集这些海量信息过程中,通常都会涉及到底层数据的抓取构建工作,比如多源知识库融合、知识图谱构建、计算引擎建立等。其中具有代表性的知识图谱应用包括谷歌公司的Knowledge Graph、Facebook推出的实体搜索服务(Graph Search)、百度公司的百度知心、搜狗公司的搜狗知立方等。这些应用的技术可能会有所区别,但相同的是它们在构建过程中都利用了Wikipedia、百度百科、互动百科等在线百科知识。所以本章将教大家分别爬取这三大在线百科。
Eastmount
2021/12/02
2K0
[Python从零到壹] 十.网络爬虫之Selenium爬取在线百科知识万字详解(NLP语料构造必备)
知识图谱+Recorder︱中文知识图谱API与工具、科研机构与算法框架
版权声明:博主原创文章,微信公众号:素质云笔记,转载请注明来源“素质云博客”,谢谢合作!! https://blog.csdn.net/sinat_26917383/article/details/66473253
悟乙己
2019/05/29
4.6K0
百度搜索 “Java面试题” 前200页(面试必看)
本文中的题目来源于网上的一篇文章《百度搜索 “Java面试题” 前200页》,但该文章里面只有题目,没有答案。因此,我整理了一些答案发布于本文。本文整理答案的原则是尽量做到精简、点到即止(因为一般面试题的试卷里面的作答区域有限)。如果你有更好的答案,欢迎在评论区指出,或者给Github仓库提PR。
nnngu
2018/03/05
2.6K0
深入搜索引擎之 Elasticsearch 必知必会(一):开发视角
两句话了解它是什么 1. 搜索引擎。提供了数据存储、数据处理、数据查询、聚合统计的能力。 2. 创始人说:“不要求你必须是一个数据科学家才能把它用好” 前言 Elasticsearch 是一个很有意思的产品,不同岗位的人,对它的关注维度区别比较大 主要可以分三个层面 开发 基本功能 底层工作原理 数据建模最佳实践 运维 容量规划 性能优化 问题诊断 滚动升级 搜索结果优化 查全率、查准率等指标 搜索与如何解决搜索的相似性问题 具体场景下的调优 对比传统数据库的区别主要在于 传统关系型数据库 事务性 Joi
QQ音乐技术团队
2022/01/06
1.4K0
20个超级好用的Kimi+官方提示词模板
你是一个专业的提示词工程师,擅长将常规的 Prompt 转化为结构化的 Prompt,并
AIGC部落
2024/06/24
2.6K0
20个超级好用的Kimi+官方提示词模板
美国工程院士、谷歌首席架构师、结对编程榜样杰夫·迪恩(JeffDean)博士简历(5k字)
关键词:杰夫·迪恩(Jeff Dean),杰弗里·阿德盖特·迪恩(Jeffrey Adgate Dean),简历(Resume),博士(Doctor),谷歌人(Googler),结对编程(Pair Programming),首席架构师(Chief Architecture Officer),工程院院士(Engineering Academician)。
秦陇纪
2020/03/11
4.3K0
美国工程院士、谷歌首席架构师、结对编程榜样杰夫·迪恩(JeffDean)博士简历(5k字)
如何做职业规划并进行求职准备(持续更新)「建议收藏」
总结:就现在情况,大学我不考研,安心求职 考研=我要“它”+我现在就要 我不要“它”:测试是个实践性很强的工作,测试招聘学士学位占比低,研究型的测试研究生学历比起小本并不能带来太大优势 我现在不要:不可否认,学历可以突破职业瓶颈,所以我要考研,但是是在很多年以后,而不是现在。(等以后进入管理阶层,有了丰富的经验,考取工商管理MBA,得到的相关的文凭技能人脉会更加有价值)
全栈程序员站长
2022/11/01
3.3K0
如何做职业规划并进行求职准备(持续更新)「建议收藏」
推荐阅读
使用MATLAB爬取网页数据
4.8K0
百度新闻热搜词及其对应新闻的抓取 原
1.6K0
写文章不会起标题?爬取虎嗅5万篇文章告诉你
6310
【保姆级教程】爬取网站上“气候变化”关键词新闻个数
2290
AI网络爬虫:deepseek爬取百度新闻资讯的搜索结果
3320
python爬取百度新闻:分析共享单车火爆背后有哪些规则?
1.7K0
Python 爬虫系列教程一爬取批量百度图片[通俗易懂]
1.6K0
爬虫入门经典(二十四) | 爬取当当网图书信息并进行数据清洗
4.8K1
爬取1907条『课程学习』数据,分析哪类学习资源最受大学生青睐
4010
Python爬虫之requests库网络爬取简单实战实例1:京东商品页面的爬取实例2 : 亚马逊商品页面爬取实例3: 百度/360搜索关键词提交爬虫实例4 网络图片的爬取和存储实例5 IP地址归属地查
3.4K0
【教程】爬取和统计Google Scholar上指定关键词的文章信息
2.7K0
[PHP] 网盘搜索引擎-采集爬取百度网盘分享文件实现网盘搜索(二)
4.9K0
Python网络爬虫与信息提取
2.6K0
[Python从零到壹] 十.网络爬虫之Selenium爬取在线百科知识万字详解(NLP语料构造必备)
2K0
知识图谱+Recorder︱中文知识图谱API与工具、科研机构与算法框架
4.6K0
百度搜索 “Java面试题” 前200页(面试必看)
2.6K0
深入搜索引擎之 Elasticsearch 必知必会(一):开发视角
1.4K0
20个超级好用的Kimi+官方提示词模板
2.6K0
美国工程院士、谷歌首席架构师、结对编程榜样杰夫·迪恩(JeffDean)博士简历(5k字)
4.3K0
如何做职业规划并进行求职准备(持续更新)「建议收藏」
3.3K0
相关推荐
使用MATLAB爬取网页数据
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档