BeautifulSoup，我想要抓取与其真实形状完全相同的文本

文章/答案/技术大牛

发布

1回答

、

我正在尝试从几个页面中抓取一个文本，一个示例-页面:< https://www.centerwatch.com/directories/1067-fda-approved-drugs/listing/3092-afinitor-everolimus> 我不需要标题，我只需要跟在每个"h2“后面的"p”标签。问题是，如果我使用"get_text()“函数，我可能会

浏览 32提问于2020-09-07得票数 1

1回答

如何抓取这个标签

、

我试图抓取一个真实的状态网，但是我抓不到它。这是我想要抓取的： ? 下面是我的代码： URL = requests.get('https://www.fincaraiz.com.co/finca-raiz/venta/cali/?ad=30|1||||1|||||82|8200006||||||||||||||||1|||

浏览 17提问于2021-05-06得票数 1

回答已采纳

1回答

如何在美丽的汤中引入容错

、

我对尽可能快地抓取许多不同的网站感兴趣。URL可能存在大量的web抓取问题；例如，它们可能引用文件而不是站点，或者它们可能根本没有指向任何真实的内容。我一直未能解决的问题是，当BeautifulSoup挂起或由于某种原因而失败并没有退出时，该怎么办。如果html解析在X秒后似乎无法完成，则需要有一种方法来停止它。这似乎非常重要，但似乎我不是唯一一个，这个网站似乎提供了最相关的信息：

浏览 2提问于2014-12-24得票数 2

回答已采纳

3回答

使用漂亮汤解析HTML会得到"None“

、、

我可以清楚地看到我需要的标签，以便获得我想要抓取的数据。那么，当我只是想在li类之间显示代码时，它为什么会给我"None“呢？from bs4 import BeautifulSoup response = requests.get("https://www.governmentjobs.com

浏览 21提问于2019-11-10得票数 1

回答已采纳

1回答

查询:漂亮的汤+ href模式，不是我想要的那样。

、、

我有下面的html模式，我想用BeautifulSoup去掉它。html模式是：我想要抓取标题和显示在链接中的信息。也就是说，如果您单击了该链接，则会显示标题的描述。我想要那个描述。一开始，<

浏览 2提问于2013-02-03得票数 0

回答已采纳

2回答

提取标记内的所有内容，但不提取标记本身

、、

我正在使用BeautifulSoup从网站抓取文本，但我只需要用于组织的<p>标记。但是，我不能使用text.findAll('p')，因为还有其他我不需要的<p>标记。我想要的文本都被包装在一个标记中(假设是body)，但是当我解析它时，它也需要包含该标记。link = requests.get('link') te

浏览 6提问于2017-02-02得票数 1

2回答

使用Item的Word VBA形状

、、

我有以下代码：Dim topShape As shape我不知道.item(1)是做什么的。我在Word文档中有相同的文本框。在某些页面上，.item(1)将给出一个"0“的sr.count，但是如果我更改为.item(2)或.item(3)，文本框将在特定的页

浏览 1提问于2016-08-19得票数 1

回答已采纳

3回答

抓取Google搜索结果

、、

我正在尝试使用beautifulsoup抓取谷歌搜索结果。我得到的结果与屏幕上显示的结果不同。需要什么才能将结果转换为我在屏幕上看到的真实文本？response = requests.get(url) soup = BeautifulSoup(response.te

浏览 0提问于2019-08-21得票数 1

2回答

我希望找到一个驻留在包含多个<span>标记的<h1>标记中的<span>标记，并获取其中的文本。

、、、

我想要做的是选择第二个跨度并抓取它的文本来打印它。下面是HTML代码和BeautifulSoup代码 <a href="https://www.example.com/product/"> <span id="productBrand">BRAND

浏览 2提问于2019-10-14得票数 0

回答已采纳

1回答

网络抓取:我只得到我想要的文本的1/10 (使用BeautifulSoup)。

、、、、

我试图从网页中抓取数据，我想要的所有文本都放在<p class="heading2">和More...之间。Info about grant 1Info about grant 1 Info about grant 3 etc.这是我用的密码。

浏览 1提问于2014-11-21得票数 2

回答已采纳

1回答

连接不同div标记中的文本时不使用空格

、、、、

我已经抓取了html文件的一部分，并将其转换为BeautifulSoup对象。我想要获取它的文本内容，但是当有相邻的div标签时，它们的连接没有空格，这很烦人，对我来说听起来也不合理。例如： BeautifulSoup('<div>Hello</div><div>World</div>').ge

浏览 17提问于2017-08-09得票数 1

回答已采纳

1回答

如何使用BeautifulSoup从网页中获取整个正文文本？

、、、

我想从一个自然语言处理项目的医学文档的网页上获取一些文本，并且有问题使用BeautifulSoup提取必要的信息。我正在浏览的网站可以在以下地址找到：我想要做的是从这个页面抓取整个文本正文，然后用我的光标这样做，简单地应用一个副本/粘贴就可以给我我感兴趣的合适的文本</em

浏览 0提问于2019-07-14得票数 1

回答已采纳

3回答

使用BeautifulSoup抓取Javascript注入的文本

、、

我想要从网页中抓取日期，而日期的文本(脚本标记之后)是由JavaScript注入的:我想只使用Beautifulsoup来抓取它，而不是使用selenium <div class="row">javascript">formatDate('2020,5,23,09,00,00',1)</script>6/23/2020&

浏览 50提问于2020-06-29得票数 2

回答已采纳

1回答

Python:漂亮的汤:无法从解析中获得完整的标题

、、、、

我正在尝试通过浏览一个视频网站来练习抓取，并在主页上抓取所有的视频标题。我唯一的问题是，如果标题太长，就会使用.string函数在BeautifulSoup中剪短。</a> </div> </div>下面是我试图用以下方

浏览 3提问于2016-07-23得票数 0

回答已采纳

2回答

我的解析美汤上没有文本

、、

我想要抓取电子商务网站，我已经解析了html，但是为什么我的解析没有包含div类中的任何文本？from bs4 import BeautifulSoupprint (type(html))

浏览 11提问于2020-05-28得票数 1

回答已采纳

2回答

你能用BeautifulSoup编写一个css选择器，使用类或样式来标识div中所需的信息吗？

、、、、

我正在使用BeautifulSoup抓取网页，有一条我想要的信息包含在<div>中，有时只有class的值，有时只有style的值，如下所示： <div class="text-one"></div> Text I want </div>

浏览 11提问于2021-01-30得票数 0

回答已采纳

1回答

读取Raspberry Pi中的URL

、、、、

我想读取URL中的数据。例如，如果我有这个URL：我想读状态'ON'，留下其余的URL。这是如何做到的呢？

浏览 5提问于2015-12-07得票数 0

回答已采纳

3回答

来自find_all的BeautifulSoup* get_text*

、、

这是我第一次使用网络抓取。到目前为止，我能够导航并找到我想要的HTML部分。我也可以打印出来。问题是只打印文本，这将不起作用。当我尝试它时，我得到了以下错误：AttributeError: 'ResultSet' object has no attribute 'get_text'from bs4 importBeautifulSoup i

浏览 0提问于2014-02-25得票数 7

1回答

BeautifulSoup将刮取的字符串拆分为三行

、、

当我通过BS抓取文本时，它会将所有数据打印为一个字符串。例如，它打印<td>2</td> ...<td>99</td>1.991 2 3. . .自动取款机我的</e

浏览 1提问于2014-11-18得票数 0

回答已采纳

9回答

BeautifulSoup抓取可见网页文本

、、、

基本上，我想使用BeautifulSoup严格抓取网页上的可视文本。例如，就是我的测试用例。我主要想获取正文文本(文章)，甚至这里和那里的一些选项卡名。我已经尝试了这个中的建议，它返回了很多我不想要的<script>标签和html注释。我想不出函数需要什么参数才能获得网页上的可视<

浏览 95提问于2009-12-21得票数 139

回答已采纳

点击加载更多