Loading [MathJax]/jax/input/TeX/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >问答首页 >Python BeautifulSoup不会抓取任何信息,也不会产生错误或警告

Python BeautifulSoup不会抓取任何信息,也不会产生错误或警告
EN

Stack Overflow用户
提问于 2020-11-13 09:44:16
回答 2查看 33关注 0票数 1

我试图用BeautifulSoup从一个网站上抓取一些信息,但我遇到了很大的麻烦。我已经搜索并试图弄清楚这一点,现在已经有好几个小时了,但我还是弄不明白。我正在试着从(https://www.duckduckgo.com/privacy)中抓取公司的标题,上面写着红色粗体文本以及提供的数量(描述底部的数字)。我知道代码目前只查找"h2“而不是段落,我也知道精确匹配的是一个超链接"a”,但我找不到一次在一个标记中搜索多个类的解决方案,因为超链接的原始类是"class="link ng-binding"“,我不知道如何同时引用它们中的多个,所以我试图指出包含超链接本身的单个类"h2”标题。这是我遇到问题的代码:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
from urllib.request import urlopen
from bs4 import BeautifulSoup

# Scrape company names, offers

toScrape = "https://www.duckduckgo.com/privacy"

requestPage = urlopen(toScrape)
pageHTML = requestPage.read()
requestPage.close()

HTMLSoup = BeautifulSoup(pageHTML, 'html.parser')

scrapedItems = HTMLSoup.find_all('h2')

CSVExport = 'ConectHeader.csv'
save = open(CSVExport, 'w')

CSVHeaders = 'Price, stock\n'

for item in scrapedItems:
    company = item.find('h2', class_="title").text
    offers = item.find('p', class_="estates-cnt").text

    save.write(company + '' + stock)

在我的IDE中,我没有收到任何错误甚至警告。该过程以退出代码0结束,但是当我打开最终的.csv文件时,它并没有包含任何信息。我不明白为什么输出没有保存到csv文件中。我也试过通过print运行它,print返回了"[]“,这可能意味着问题不是由保存到csv文件中的数据直接引起的。感谢任何人对此的任何帮助,我现在正因为这个而撕裂我的头发!

EN

回答 2

Stack Overflow用户

发布于 2020-11-13 09:57:04

BeautifulSoup看不到动态呈现的内容,就像本例中一样。但是,有一个API可以查询,它会返回所需的所有数据。

下面是操作步骤:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
import time

import requests

data = requests.get(f"https://www.sreality.cz/api/cs/v2/companies?page=2&tms={int(time.time() * 1000)}").json()

for company in data["_embedded"]["companies"]:
    print(f"{company['url']} - {company['locality']}")

这将打印:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
Sklady-cz-Praha-Stodulky - Praha, Stodůlky, Bucharova
PATOMA-Praha-Nove-Mesto - Praha, Nové Město, Washingtonova
Molik-reality-s-r-o-Most - Most, Moskevská
ERA-Reality-Praha-Holesovice - Praha, Holešovice, Jankovcova
LOKATIO-Praha-Zizkov - Praha, Žižkov, Kubelíkova
REAL-SPEKTRUM-Brno-Veveri - Brno, Veveří, Lidická
FARAON-reality-Praha-Vinohrady - Praha, Vinohrady, Polská
108-AGENCY-s-r-o-Praha-Zizkov - Praha, Žižkov, Příběnická
Realitni-spolecnost-Mgr-Jan-Vodenka-Praha-Nove-Mesto - Praha, Nové Město, Václavské náměstí
RapakCo-s-r-o-Praha-Zizkov - Praha, Žižkov, Žerotínova
Euro-Reality-Plzen-s-r-o-Plzen-Vychodni-Predmesti - Plzeň, Východní Předměstí, Šafaříkovy sady
Happy-House-Rentals-s-r-o-realitni-kancelar-Praha-Vinohrady - Praha, Vinohrady, Uruguayská
VIAGEM-servisni-s-r-o-Praha-Karlin - Praha, Karlín, Sokolovská
I-E-T-Reality-s-r-o-Brno-Brno-mesto - Brno, Brno-město, náměstí Svobody
RK-NIKA-realitni-kancelar-Semily - Semily, Sokolská
FF-Reality-2014-s-r-o-Praha-Karlin - Praha, Karlín, Pernerova
REALITY-PRORADOST-Breclav - Břeclav, Lidická
ORCA-ESTATE-a-s-Kyjov - Kyjov, Jungmannova
RAZKA-reality-Tachov - Tachov, náměstí Republiky
LUXENT-Exclusive-Properties-Praha-Josefov - Praha, Josefov, Pařížská

您可以更进一步,首先发出一个获取结果总数的请求,然后循环遍历每个页面。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
import time

import requests

api_endpoint = "https://www.sreality.cz/api/cs/v2/companies?"
query = f"tms={int(time.time() * 1000)}"

initial_request = requests.get(f"{api_endpoint}{query}").json()
total_results = initial_request["result_size"]

for page in range(1, total_results + 1):
    current_url = f"{api_endpoint}page={page}&tms={int(time.time() * 1000)}"
    data = requests.get(current_url).json()
    for company in data["_embedded"]["companies"]:
        print(f"{company['url']} - {company['locality']}")
票数 0
EN

Stack Overflow用户

发布于 2020-11-13 09:48:31

Selenium要好得多,也更容易使用它们BeautifulSoup

还有更多对selenium的支持。

票数 -1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/64818657

复制
相关文章
使用Python和BeautifulSoup抓取亚马逊的商品信息
Beautiful Soup 是一个 Python 库,可让您轻松地从 HTML 页面中提取数据。它可以使用各种解析器解析 HTML,例如内置的 Python 解析器、lxml 或 html5lib。 Beautiful Soup 可以帮助您通过标签、属性或文本内容找到特定元素。您还可以使用 .parent、.children 或 .next_sibling 等方法导航 HTML 树结构。 Beautiful Soup 对于网络抓取很有用,因为它可以获取 URL 的内容,然后解析它以提取您需要的信息。例如,您可以使用 Beautiful Soup 从亚马逊网站上抓取商品的标题、价格等信息。
jackcode
2023/05/31
1.6K0
使用Python和BeautifulSoup抓取亚马逊的商品信息
不会写Python代码如何抓取豆瓣电影 Top 250
说到爬虫,大多数人会想到用Python来做,毕竟简单好用,比如想抓取豆瓣电影top250 的所有电影数据。
苏生不惑
2019/10/24
1.7K0
不会写Python代码如何抓取豆瓣电影 Top 250
有一只狗名叫WAF,不会跳也不会叫......
本号提供的工具、教程、学习路线、精品文章均为原创或互联网收集,旨在提高网络安全技术水平为目的,只做技术研究,谨遵守国家相关法律法规,请勿用于违法用途,如有侵权请联系小编处理。
网络安全自修室
2022/05/16
9220
有一只狗名叫WAF,不会跳也不会叫......
SaaS 公共责任:云不会永存,你的数据也不会
当我开启我的技术运营职业生涯(也就是现在的 DevOps),世界发生了翻天覆地的变化。那是在新千年到来之前,当时,世界上最大、最知名的软件即服务公司 Salesforce 还窝在旧金山的一间公寓里。
深度学习与Python
2022/03/23
4440
SaaS 公共责任:云不会永存,你的数据也不会
阻塞队列 BlockingQueue 我也不会啊
为了应对不同的业务场景,BlockingQueue 提供了4 组不同的方法用于插入、移除以及对队列中的元素进行检查。如果请求的操作不能得到立即执行的话,每组方法的表现是不同的。这些方法如下:
韩旭051
2021/04/14
7480
阻塞队列 BlockingQueue 我也不会啊
Python警告信息捕捉
异常和警告处理案例 # -*- coding: UTF-8 -*- import MySQLdb #警告信息try except是无法捕捉的 from warnings import filterwarnings filterwarnings('error', category = MySQLdb.Warning) #当然也可以屏蔽警告filterwarnings("ignore") try: conn = MySQLdb.connect(host='127.0.0.1',user='test',p
苦咖啡
2018/04/28
1.6K0
【python爬虫 2】BeautifulSoup快速抓取网站图片
学习,最重要的是要了解它,并且使用它,正所谓,学以致用、本文,我们将来介绍,BeautifulSoup模块的使用方法,以及注意点,帮助大家快速了解和学习BeautifulSoup模块。有兴趣了解爬虫的小伙伴们,赶快学起来吧。
大家一起学编程
2022/01/25
1.3K0
【python爬虫 2】BeautifulSoup快速抓取网站图片
Python忽略warning警告错误
从网上整理了一下Python忽略warning警告错误 方法一:直接运行脚本的时候加入参数 python -W ignore yourscript.py 方法二:代码中加入参数 import warnings with warnings.catch_warnings(): warnings.filterwarnings("ignore",category=DeprecationWarning) import pymssql #需忽略警告的模块 yourcode()
py3study
2020/01/07
1.4K0
你不会还不会安装Maven吧
(一般会用阿里云的镜像库,但不知道是我电脑还是网络的原因,下载jar包总会出错,换了很多阿里云镜像都不管用,最后换了腾讯云的就好了,所有这里给出了三个镜像)
爱学习的小超人
2023/03/11
6260
你不会还不会安装Maven吧
突然掉电,为啥MySQL也不会丢失数据?(收藏)
MySQL采用buffer机制,避免每次读写进行磁盘IO,提升效率: 《缓冲池(buffer pool)》 《写缓冲(change buffer)》 《日志缓冲(log buffer)》 MySQL的buffer一页的大小是16K,文件系统一页的大小是4K,也就是说,MySQL将buffer中一页数据刷入磁盘,要写4个文件系统里的页。 如上图所示,MySQL里page=1的页,物理上对应磁盘上的1+2+3+4四个格。 那么,问题来了,这个操作并非原子,如果执行到一半断电,会不会出现问题呢? 会,这就是所谓
架构师之路
2022/04/19
1.7K0
突然掉电,为啥MySQL也不会丢失数据?(收藏)
翻译神器 | 不会外语也可环游全球
3月29日,谷歌翻译在APP Store正式更新了5.8.0版本,中国用户可以直接使用谷歌翻译APP的全部功能。也就是说现在,在中国的用户无须梯子,也能正常使用该应用了,新版本中的黑科技--摄像头即时翻译,AR效果的实时翻译哦,先看一下宣传视频吧,主播嗓音我给满分!
用户2559057
2018/08/27
4050
翻译神器 | 不会外语也可环游全球
如何利用BeautifulSoup选择器抓取京东网商品信息
昨天小编利用Python正则表达式爬取了京东网商品信息,看过代码的小伙伴们基本上都坐不住了,辣么多的规则和辣么长的代码,悲伤辣么大,实在是受不鸟了。不过小伙伴们不用担心,今天小编利用美丽的汤来为大家演示一下如何实现京东商品信息的精准匹配~~
Python进阶者
2018/08/03
1.4K0
如何利用BeautifulSoup选择器抓取京东网商品信息
会 Python 和不会 Python 的区别
Python 官方在今年 2 月做了一份报告,从官方的角度说明了 Python 的使用状况和受欢迎程度:
崔庆才
2019/05/06
6830
会 Python 和不会 Python 的区别
用智能技术语言python抓取赶集网列表,学不会你找我?
Python开发者们从事以下三种开发:Web开发(38%)、通用开发(22%)、科学类开发和数据分析(21%)。这和其他一些独立研究的结果相吻合,揭示了这么一个事实:科学类的 Python 开发者数量正在稳步增长。
Python编程大咖
2019/03/26
4470
用智能技术语言python抓取赶集网列表,学不会你找我?
PDF文件信息不会提取怎么办??别急!Python帮你解决
在大多数常规数据文件中,pdf文件因其特殊的性质导致对其信息进行智能解析、提取、甚至批量化处理造成一定的困难,本期推文就教你如何使用Python第三方库pdfplumber (https://github.com/jsvine/pdfplumber) 对pdf文件进行解析及提取。
DataCharm
2021/02/22
1.5K0
PDF文件信息不会提取怎么办??别急!Python帮你解决
会Python和不会Python的区别
Python官方在今年2月做了一份报告,从官方的角度说明了Python的使用状况和受欢迎程度:
龙哥
2019/04/25
9730
会Python和不会Python的区别
ChatGPT等不会很快接管人类工作,易出错,AI也不会免费打工
选自IEEE 机器之心编译 编辑:王楷 ChatGPT 等大模型的相继发布,让很多人倍感压力,害怕 AI 会很快接管他们的工作。对此,OpenAI 也曾发表过一项研究,表明 ChatGPT 的影响涵盖所有收入阶层,且高收入工作可能面临更大的风险。事实到底如何呢?本文表明,人工智能不能很快取代所有人的工作,因为模型仍然运行昂贵,难以使用,而且经常出错。 我们应该将所有的工作,即使是那些令人满意的工作都实现自动智能化吗? 这是未来生命研究所 (Future of Life Institute) 最近提出的几个
机器之心
2023/05/16
2190
ChatGPT等不会很快接管人类工作,易出错,AI也不会免费打工
不会写代码也能实现赏金自动化
最近一直在研究自动化漏洞发现的技术,github 也有非常多优秀的集成工具,本着学习研究的心态,对这些工具进行了学习,今天来分享其中的一个,通过 bash 脚本将各种工具集成到一起,实现无需自己实现相关功能也能自动化漏洞发现。项目地址:
信安之路
2022/05/23
1.3K0
不会写代码也能实现赏金自动化
不会装双系统也能让你用上双系统
这个软件是在公司看到领导在用,才知道原来 Windows,已经支持 Linux 系统这么强大了。使用的名字是 WSL。我们也可以百度下这个怎么使用。
CSDN技术头条
2019/11/19
3K0
不会装双系统也能让你用上双系统
有时间学学JSP也不会太亏
JSP全名为Java Server Pages,java服务器页面。JSP是一种基于文本的程序,其特点就是HTML
BWH_Steven
2019/09/10
1.8K0
有时间学学JSP也不会太亏

相似问题

python代码不会执行,也不会产生任何错误

20

Python BeautifulSoup不会抓取多个页面

112

隐藏声明不会产生任何警告。

12

推送功能不会警告用户,也不会警告任何功能

10

BeautifulSoup不会从网页中抓取任何内容

28
添加站长 进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

扫码加入开发者社群
关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

扫码关注腾讯云开发者公众号
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文