Python -使用Beautifulsoup从网页中提取数据

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

1回答

使用python代码从IEEEXplore网站提取DOI

、、、

无法从网页中提取字段数据，这不是常见的web抓取问题。它也与javascript相关联。我也尝试了python-request，但是无法解决这个问题。我正在尝试从网页中提取doi。doi位于javascript中。我能够读懂页面，代码一直运行到{print(Soup)}。当我试图提取DOI值(在给定代码中，示例网页的doi如下：“doi”：“10.1109/LAwr20

浏览 4提问于2019-02-09得票数 0

1回答

因此，我在电子表格中有很多数据，我需要获取一个值(一个数字)，并将其输入到供应商给我的订购单中的web表单中。这样我就可以把它加到我的订单里了。他们是一个脚本，vbs，或一小段代码，可以从csv文件中提取这些值，将它们运行到表单中，返回第一组值，然后返回到表单，并再次执行此操作，直到EOF？(我搜索了它)，它具有……并将每种产品的价格放入电子表格中。一旦我有了需要的信息，我需要返回到上一页(我只需在浏览器上使用back键)，并在表单中提交下一个值。(需

浏览 2提问于2012-09-06得票数 0

回答已采纳

1回答

、

我正在尝试使用bs4从网页中抓取一些数据，下面是我到目前为止所做的工作。import requests response = requests.get(url)soup = BeautifulSoup(response.text, "html.parser") for article in soup.find_all(

浏览 5提问于2019-12-01得票数 0

回答已采纳

1回答

使用Python远程运行脚本命令

、

我有一个Python程序，它使用BeautifulSoup从网站提取一些数据。在Google Chrome中，有一个名为开发人员控制台的选项；它用于在网页上实时执行javascript命令。有没有办法或者变通的办法使用Python远程执行javascript命令？比如将网页转换为对象，然后在后台运行javascript命令(无需启动新的Chrome窗口)？

浏览 5提问于2018-01-13得票数 1

2回答

使用python中的美观汤从具有更多文本内容的Web页面中提取数据

、、、、

我一直在尝试提取网页中数据丰富的节点。有没有办法从网页中提取文本？import requestsfrom bs4 import BeautifulSoupurl = "http://www.amazon.in"r = requests.get(url)print html.t

浏览 7提问于2015-04-22得票数 1

回答已采纳

2回答

如何使用BeautifulSoup提取html标记之外的数据

、、

我正在尝试从以下网页中提取数据--我一直在看关于如何使用BeautifulSoup从网页中收集数据的教程，到目前为止，我有以下代码：from bs4 import BeautifulSoupurl = 'http://www.ndbc.noaa.gov/data/latest_obs/46011.rss&#

浏览 2提问于2014-09-28得票数 0

回答已采纳

3回答

在浏览器(由BeautifulSoup生成)中直接从Python启动HTML代码

、、、

我已经使用Python3.3的BeautifulSoup成功地从网页中提取了所需的信息。我还使用了BeautifulSoup生成新的超文本标记语言代码来显示此信息。目前，我的Python程序打印出HTML代码，然后我必须复制、粘贴并另存为HTML文件，然后我可以在浏览器中测试它。所以我的问题是，有没有办法用Python语言在浏览器中启动由BeautifulSoup

浏览 2提问于2014-01-30得票数 26

回答已采纳

1回答

使用python中的美观汤提取网页中数据丰富的节点

、、、、

使用python中的美丽汤提取网页中数据丰富的节点，有没有方法计算页面中标签的频率，from bs4 import BeautifulSoup r = requests.get(url) 现在我想数一数所获得的html中所有标签的频率。

浏览 0提问于2015-04-21得票数 2

回答已采纳

1回答

为什么无法使用Jupyterlab中的BeautifulSoup4解析本地文件

、、

我正在遵循一个网络教程，尝试使用BeautifulSoup4从Jupyterlab中的html文件(存储在我的本地PC上)中提取数据，如下所示： from bs4 import BeautifulSoup()) 不管html文件中是什么，而不是预期的html，我都会得到以下输出 <html> <p> </p> </body>

浏览 19提问于2020-10-03得票数 1

回答已采纳

5回答

从URL中提取HTML信息

、、

我试图用python编写一个程序，该程序读取网页中的所有数据，并通过<h6>将任何标题标记的内容附加到列表中。到目前为止，我只是试图获取网站的信息在第一，这已经证明是困难的。编辑2:谢谢你的所有建议。该程序现在成功地读取给定网站的HTML。有没有人建议在<H>中搜索特定的字符串(即webPage标记)？

浏览 2提问于2015-12-13得票数 0

回答已采纳

2回答

如何在html源代码中提取href属性

、、、

这是我正在处理的HTML源代码： <a href="/people/charles-adams" class="gridlist__link"> 所以我想要做的是提取href属性，在本例中应该是"/people我需要这个，因为我想获得的特定网页的soup.findAll方法的html源代码。但是我正在努力从网页中提取这样的属性。有人能帮我解决这个问题吗？附言:我正在使用这个方法，

浏览 24提问于2019-09-23得票数 0

5回答

如何使用Python将数据输入到网页以抓取结果输出？

、

我熟悉从网页抓取数据的BeautifulSoup和urllib2。但是，如果在返回我想要抓取的结果之前需要在页面中输入一个参数，该怎么办？我正在尝试使用这个网站获取两个地址之间的地理距离：我希望能够转到页面，输入两个地址，单击“显示”，然后提取“按乌鸦飞的距离”和“按陆路运输的距离”值，并将它们保存到字典中。有没有办法用Python把数据输入到网页中？

浏览 2提问于2011-08-13得票数 8

回答已采纳

1回答

Python -循环遍历HTML标记并使用IF

、、、、

我使用python从网页中提取数据。该网页有一个带有class = "result“的重新出现的html div标记，其中包含其他数据(例如位置、组织等)。我可以使用漂亮的汤成功地遍历html，但是当我添加一个条件时，比如某个单词(例如，“NHS”)存在于段中，它不返回任何内容--尽管我知道某些段包含它。这是代码：details

浏览 1提问于2015-07-30得票数 1

回答已采纳

1回答

如何使用BeautifulSoup拾取想要的短信？

、

(我是Python的新手。阅读BeautifulSoup DOC，但是仍然不知道如何使用它)。<TD class=genmed align=left><A href="http://m.harveynorman.com.au/ipod-shuffle-2gb.htmlclass=genmed

浏览 1提问于2013-11-12得票数 0

回答已采纳

1回答

使用python中的BeautifulSoup从url的源代码中提取特定部分下的文本

、、、、

我是python的初学者，对HTML没有真正的经验。我刚看了一段关于网络抓取的youtube视频()，并对从python的URL中提取文本感兴趣。from bs4 import BeautifulSoup url = "https://rtk.rjifuture.org(str_cells

浏览 4提问于2021-08-23得票数 0

回答已采纳

4回答

如何使用python检测网页内容的语言

我必须测试一堆网址，这些网页是否有各自的翻译内容。是否有任何方法可以通过使用Python语言返回网页中的内容语言？就像如果页面是中文的，那么它应该返回`“中文”。

浏览 13提问于2015-06-25得票数 1

回答已采纳

1回答

美丽的汤，巨蟒和瑞典语

、、

我正在使用BeautifulSoup抓取一个瑞典网页。在网页上，我要提取的信息如下所示：当我从Python脚本打印信息时，它看起来如下所示：我是Python的新手，我已经找到了答案，并在代码的开头尝试使用# -- coding: utf-8

浏览 1提问于2012-11-11得票数 3

回答已采纳

1回答

注释在网页上可见，但BeautifulSoup返回的html对象不包含注释部分

、、、

我尝试使用网址链接从网页中提取评论的文本内容，并使用BeautifulSoup进行抓取。当我单击URL链接时，在页面上可以看到注释的内容，但是BeautifulSoup返回的HTML对象不包含这些标记和文本。我使用带有'html.parser‘的BeautifulSoup来做网页抓取。我成功地提取了给定网页中视频的点赞/浏览量/评论数，但评论部分的信

浏览 19提问于2019-03-25得票数 1

回答已采纳

1回答

如何使用python bs4提取javascript变量

、、、

:bf8be784734837a64a47fcc30b9df99,162591180";var csrfMagicName = "__csrf_magic";</script>通过使用上面的代码行，我能够提取我想要的脚本标记，但是我需要在python脚本中提取变量的值，我在python脚本中使用<em

浏览 3提问于2021-07-10得票数 0

4回答

如何使用Python从网页的检查元素中获取数据

、、

我想使用Python从I元素中获取数据。我可以使用BeautifulSoup下载源代码，但现在我需要网页的检查元素中的文本。如果你能建议我怎么做，我会非常感激的。编辑:我的意思是，在google中，右键单击就会给出一个名为in元素的选项，它的代码与特定页面中的每个元素相关。我想提取这段代码/只是它的文本字符串。

浏览 12提问于2014-07-30得票数 6

回答已采纳

点击加载更多