首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

携程,去哪儿评论,攻略爬取

具体思路 采用selenium+BeautifulSoup(以下简称BS,注释中为靓)+pandas 思路是通过使用selenium库打开浏览器,进入相关网页,然后采用BS进行解析获取其中评论。...": "f_left"}).find(name="h1").find_all(name="a")[0].string; # tmp["name"] = tmp["name"].replace("...": "b_strategy_list"}).find_all(name="li", attrs={"class": "list_item"}) # 5.将路径获取出来(data-url),并构成完整攻略路径...结果 1. 携程网 2. 去哪儿网 4.总结 在了解selenium+BeautifulSoup+pandas基础上要完成爬取就比较简单。...其实当初委托中还有要爬马蜂窝评论,但马蜂窝反爬机制相对较强,试了很多方法都不成功。因此最后爬了去哪儿网和携程网。本蒟蒻知识有限,按传统功夫,点到为止,权当兴趣了解,勿喷。

1.6K10
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    干了这碗“美丽”,网页解析倍儿爽

    考虑到“收藏不看党”阅读体验,先给出一个“嫌长不看版”总结: 随anaconda附带,也可以通过pip安装 指定不同解析器在性能、容错性上会有差异,导致结果也可能不一样 基本使用流程:通过文本初始化...元素父节点标签 # body 并不是所有信息都可以简单地通过结构化获取,通常使用 findfind_all 方法进行查找: soup.find_all('a') # 所有 a 元素 # [<...</a findfind_all 可以有多个搜索条件叠加,比如find('a', id='link3', class_='sister') find 返回是一个bs4.element.Tag 对象...如果有多个满足结果find返回第一个;如果没有,返回 None。...find_all 返回是一个由 bs4.element.Tag 对象组成 list,不管找到几个或是没找到,都是 list。

    97720

    干了这碗“美丽”,网页解析倍儿爽

    考虑到“收藏不看党”阅读体验,先给出一个“嫌长不看版”总结: 随anaconda附带,也可以通过pip安装 指定不同解析器在性能、容错性上会有差异,导致结果也可能不一样 基本使用流程:通过文本初始化...# body 并不是所有信息都可以简单地通过结构化获取,通常使用 findfind_all 方法进行查找: soup.find_all('a') # 所有 a 元素# [<a class="sister.../a <em>find</em> 和 <em>find</em>_<em>all</em> 可以有多个搜索条件叠加,比如<em>find</em>('a', id='link3', class_='sister') <em>find</em> 返回<em>的</em>是一个bs4.element.Tag 对象...如果有多个满足<em>的</em><em>结果</em>,<em>find</em><em>只</em>返回第一个;如果没有,返回 None。...<em>find</em>_<em>all</em> 返回<em>的</em>是一个由 bs4.element.Tag 对象组成<em>的</em> list,不管找到几个或是没找到,都是 list。

    1.3K20

    动态加密?看我如何见招拆招爬取某点评全站内容!

    在前几天文章中,我针某点评商家搜索页面的字体反爬给出了解决方案,但是还有一个问题,那就是当时给出方法是下载对应woff字体文件,然后建立加密字体与编码之间映射关系来进行破解。...url,headers = headers,proxies = get_ip()) soup = BeautifulSoup(r.text) page_num = int(soup.find_all...第二行代码使用requests请求css内容 最后两行代码使用正则提取woff字体文件所在URL ” 如果你传进去页面是正常,那么现在我们就有地址、均价字段字体所在URL,下面就可以使用requests...'鱼', '平', '彩', '上', '吧', '保', '永', '万', '物', '教', '吃', '设', '医', '正', '造', '丰', '健', '点', ''...'排', '实', '分', '间', '甜', '度', '起', '满', '给', '热', '完', '格', '荐', '喝', '等', '其', '再', '几', ''

    62620

    盘点一个Pandas处理Excel表格实战问题(下篇)

    今 日 鸡 夜月一帘幽梦,春风十里柔情。 大家好,我是皮皮。 一、前言 继续接着上一篇文章说,这一篇文章我们一起来看看大佬们解决办法。...二、实现过程 这里【郑煜哲·Xiaopang】和【瑜亮老师】给了一个提示,如下图所示: 后来【隔壁山楂】给出了代码,如下所示: from requests_html import HTMLSession...url = "https://www.sge.com.cn" + i.find('a[href]')[0].attrs.get('href').lstrip('.')...(data) df_all = pd.concat(df_all) df_all.to_excel("最终数据.xlsx") 顺利地解决了粉丝问题。...这篇文章主要盘点了一个Python打包处理问题,文中针对该问题,给出了具体解析和代码实现,帮助粉丝顺利解决了问题。

    17610

    商汤自曝近况:明年或IPO、无人车大单、不寻常研、C轮将完

    包括:IPO时间表、1亿美元无人车大单、不寻常研设立目的…… 首谈IPO:可能明年,也可能后年 “我们并不着急,资金从来都不是问题。我们想要多少就能有多少,大牌投资人都在排着队等着进入。...晓鸥说,目前正寻找一名合适财务负责人。 可能教授这次披露一些消息,商汤也不是人尽皆知。例如当时只有路透两段话快讯发布时候,商汤给量子位发来回应是: 公司有未来上市计划,但是并无具体时间表。...路透新闻里写“as early as next year”仅指在建立研发中心。另外C轮融资计划年底结束,目前无更多信息分享。...非常欢迎“熟悉内情消息人士”悄悄跟量子位说一声~ 不寻常晓鸥表示明年年初,商汤会在美国设立研发中心——这有些不同寻常。...通常国内AI公司设立美国研究院,都是为了更好在当地招募人才。不过,晓鸥谈及这次商汤决定开设研,却给出一个不同寻常理由。 晓鸥说,商汤研目的是为了与合作伙伴们更好地一起工作。

    97970

    Python自动统计微博抽奖中奖男女比例(附代码)

    JSON,但是这个JSON内数据却又没有那么友好,并不是我们常见直接给出了每个用户数据字典,而是给了我们一个HTML标签包裹代码块。...BeautifulSoup(html, 'lxml') # 113 spans = bsObj.find_all...html = jsonObj['data']['html'] bsObj = BeautifulSoup(html, 'lxml') dt = bsObj.find_all...这边结构很规范,用XPATH也可以,当然如果我们取性别的话,正则也是够用。其余信息像是姓名、地区、生日、标签、简介等等,大家可以相应地自己实现。...最后就是简单数据分析。因为一来数据总量不大,二来我们不打算进行太深入数据分析,在不考虑存储情况下,我们直接使用了列表来存结果

    89630

    团 2025 届校招开始了,岗位 and 原题抢先看!!

    团校招 - 启动 前几天我们写了 阿里巴巴 开启 2025 届校招计划,其实比阿里巴巴更早团。 你看,互联网大厂启动校招计划尚且争先恐后,你还有什么理由不马上行动?!...然后再详细列举一下于公主号读者相关性更高几个岗位: 前端 & 客户端 后端 自然语言处理 计算机视觉 除了这些常规校招岗位,团本次还延续了「北斗计划」开展,都是一些细分领域算法岗。...北斗计划是团面向全球精尖校园科技人才招聘项目,性质有一点点类似于华为「天才少年」,但难度和待遇自然是不能和华为比,可简单将「北斗计划」理解为算法岗中 SP/SSP 吧。...不管是开发还是算法,常规还是北斗,算法都是在校招中无法绕过环节。 来都来了,做一道和「团」相关算法原题,这是一道去年校招原题。...最终答案为 f[n][n] 为最终答案,考虑任意项存在为 0 情况时边界情况: 若 i = 0 且 j = 0 ,结果为 0 + \frac{1}{2} = \frac{1}{2} ,

    72010

    python爬虫从入门到放弃(六)之 BeautifulSoup库使用

    beautifulSoup “美味,绿色浓汤” 一个灵活又方便网页解析库,处理高效,支持多种解析器。...这里有个问题需要注意,通过这种方式获取标签,如果文档中有多个这样标签,返回结果是第一个标签内容,如上面我们通过soup.p获取p标签,而文档中有多个p标签,但是返回了第一个p标签内容 获取名称...('ul')) print(type(soup.find_all('ul')[0])) 结果返回是一个列表方式 ?...同时我们是可以针对结果再次find_all,从而获取所有的li标签信息 for ul in soup.find_all('ul'): print(ul.find_all('li')) attrs...()、find_all() 查询匹配单个结果或者多个结果 如果对CSS选择器熟悉建议使用select() 记住常用获取属性和文本值方法

    1.8K100

    【LeetCode】LeetCode 547. 省份数量(Java版 什么是并查集)

    喜羊羊和沸羊羊大战一场,突然一条情报传入到他们耳中:“报告门主,门门主羊羊被灰太狼抓走了,请求支援!”...喜羊羊和沸羊羊一听,立感不妙,现在不是内战时候,要去救援羊羊,为了防止内战,于是两羊商量,决定选出一羊作为另一上层,这样喜门和沸门就完成了合并过程,双方羊在交战前再次询问上层时候,都会是喜羊羊或者沸羊羊...这就是一个简单“查”和“并”过程。并查集关键就是这两个过程。 定义以下find函数。p是一个数组,用于记录每一上层是谁。当一上层就是自己时候,那这只羊就是门派老大。...find函数用一句话来解释,就是查找一老大是谁。 int find(int x){ while(p[x] !...= x) p[x] = find(p[x]); //查找老大时候顺便将这个人上层直接修改为门主 return p[x]; } 再来看看结果。 代码。

    12010

    Python爬虫入门教程:豆瓣读书练手爬虫

    开始工作 现在我们要用到BeautifulSoupfind_all()选择器,因为我们这一页有很多书,而每一本书信息都包含在class=pl2div标签内,我们使用find_all()就可以直接得到本页所有书书名了...) 运行结果find_all(): 追风筝的人find_all(): 小王子# ...# ...省略部分# ...find_all(): 三体Ⅲfind(): 追风筝的人 Process finished...with exit code 0 我们通过结果就可以看到两者之间差距了,前者输出了一页数据,而后者输出了第一条数据。...上面的代码写优雅点,就是这样实现,注意结果是一个 list: # 书名, 注意是L小写,不是阿拉伯数字1alldiv = soup.find_all('div', class_='pl2')names...= [p.get_text() for p in allp] 运行结果: ['[] 卡勒德·胡赛尼 / 李继宏 / 上海人民出版社 / 2006-5 / 29.00元', '[法] 圣埃克苏佩里

    70110

    神经网络P图新神器:摘墨镜戴瞳都能搞定,加首饰换发型真假难分 | 代码开源

    不过这次AI修图师,还有一些新本领。 例如,对于色彩掌握。 可以根据要求,改变眼球颜色,轻松告别瞳或者红眼。 还能改变发型。...甚至,给光头P上秀发,而且头发可以是不同颜色混搭,直接生成一种挑染风范~ 不仅如此,这个AI还能按照需求,定制生成搭配首饰。 耳坠啊什么,全都不在话下。...这个AI能脑补范围可不只是一点点,而是一大片。 即便你给它这样一张图片。 只要给出要求。 AI修图师也能很好重建出来。...左边是脑补结果,右边是真实照片,对比一下,你会点赞…… 再展示一组。 甚至,给一个颜色简笔画,AI修图师也能生成接近原照片结果。...数据集 在这项研究中,训练使用是中国香港中文大学晓鸥组收集的人脸数据集CelebA-HQ数据集。 在其中随机选择两组共29000张图像用于训练,1000张图像用于测试。

    1.1K10

    用BeautifulSoup来煲美味

    BeautifulSoup搜索文档树 搜索文档树有很多方法,match,find,find_all...,这里介绍比较常用fnd_all()。...find_all()语法格式: find_all(name, attrs , recursive , text , **kwargs) 通过一个简单例子,来感受一下它魅力: soup.find_all.../lacie" id="link2">Lacie] 这里找到了href属性里含有“lacie”字样a标签信息,我们也可以同时定义多个关键字来进行更严格过滤: soup.find_all(href...:你只要记住match 方法用于查找字符串头部(也可以指定起始位置),它是一次匹配,只要找到了一个匹配结果就返回,而不是查找所有匹配结果。...好了本篇关于用BeautifulSoup来煲美味介绍就到此为止了,感谢你赏阅!

    1.8K30

    爬虫实践: 获取百度贴吧内容

    本次要爬贴吧是>,西部世界是我一直很喜欢一部剧,平时有空也会去看看吧友们都在聊些什么。所以这次选取这个吧来作为实验材料。...,我们需要做就是: 1、从网上爬下特定页码网页 2、对于爬下页面内容进行简单筛选分析 3、找到每一篇帖子 标题、发帖人、日期、楼层、以及跳转链接 4、将结果保存到文本。...,最后筛选出数据就可以了。...soup.find()方法得到我们想要结果 具体代码实现: ''' 抓取百度贴吧---西部世界吧基本内容 爬虫线路: requests - bs4 Python版本: 3.6 OS: mac os...liTags = soup.find_all('li', attrs={'class': ' j_thread_list clearfix'}) # 通过循环找到每个帖子里我们需要信息

    2.3K20

    1029 旧键盘 (20 分)

    1029 旧键盘 (20 分) 旧键盘上坏了几个键,于是在敲一段文字时候,对应字符就不会出现。现在给出应该输入一段文字、以及实际被输入文字,请你列出肯定坏掉那些键。...输入格式: 输入在 2 行中分别给出应该输入文字、以及实际被输入文字。每段文字是不超过 80 个字符串,由字母 A-Z(包括大、小写)、数字 0-9、以及下划线 _(代表空格)组成。...输出格式: 按照发现顺序,在一行中输出坏掉键。其中英文字母输出大写,每个坏键输出一次。题目保证至少有 1 个坏键。...这里使用了vector来进行输出结果接受,因此需要保证不能重复,就使用了find函数,如果找不到对应字符串,则find函数会指向end迭代器。当然,在此之前需要将英文类字符全部同意为大写字母。...最后输出即可。

    55230
    领券