用美汤获取第二个属性_用美汤替换FInd_美汤用&lt代替<； - 腾讯云开发者社区

、、

我正在学习BeautifulSoup，发现了许多"html2text“解决方案，但我正在寻找的解决方案应该模仿格式： <ul> <li>One</li> <li>Two</li> </ul> 会变成 * One * Two 和 Some text <blockquote> More magnificent text here </blockquote> Final text 至 Some text More magnificent text here Final text 我在看

浏览 0提问于2013-03-25得票数 11

回答已采纳

1回答

从我自己的页面解析HTML

、、

我已经构建了一个键盘快捷键:选择文本，然后按ctrl+alt+m -将文本灰显并将所选文本插入注释框中。但一旦刷新，灰色部分就消失了；如何将修改后的灰色文本保存回我的数据库？我想在用户提交评论时保存它。灰色部分是使用完成的。我似乎找不到一种方法来解析新的数据，而不使用漂亮汤，但美丽汤将要求我“获取与发出请求的URL相同的URL”。有没有更好的方法从我自己的页面获取数据？对其他可以达到类似结果的建议持开放态度。我在webapp2和jinja2中使用python。该页面的地址为：

浏览 0提问于2013-05-31得票数 0

回答已采纳

1回答

JSSoup是否支持提取文本？

、

JSSoup是否支持提取类似于美汤soup.findAll(text=True)的文本文档没有提供关于这个用例的任何信息，但在我看来应该有一种方法。为了澄清我想要的是从页面上抓取所有可见的文本。

浏览 19提问于2021-11-20得票数 1

回答已采纳

1回答

内部网络刮板库

、

是否有不是用户或外部库的python web刮刀库？我发现了漂亮的汤、硒和请求作为用户创建的python web抓取库。在我开始做这个之前，我只想知道我是否不需要安装不同的库。

浏览 3提问于2022-03-13得票数 -1

回答已采纳

1回答

如何使用漂亮的汤将javascript添加到html中？

、、、

我正在使用美汤来编辑一个html文件。我已经能够添加标记，但是在script元素中添加javascript代码时遇到了问题。我有以下代码： soup = BeautifulSoup(differencehtml, 'html.parser') # create a new tag tag = soup.new_tag("script") tag.append = jscodestring # this is not adding the javascript to the html file # tag.string = jscodestring # al

浏览 33提问于2018-08-30得票数 1

1回答

在BeautifulSoup 4.6中，从两个超文本标记之间提取超文本标记语言

、、

我想用bs4得到两个标签之间的超文本标记。有没有办法在美汤里做javascript的.innerHTML？这是一段代码，用于查找具有类"title“的span，并从中获取文本。 def get_title(soup): title = soup.find('span', {'class': 'title'}) return title.text.encode('utf-8') 此函数错误地返回不带下标的跨度文本。'Title about H2O and CO2' 以下代码是title = soup.fin

浏览 1提问于2017-10-05得票数 1

1回答

不要从汤中获取数据

、、

我用python创建了bs4网络抓取应用程序。我的程序返回空列表以供审阅。因为汤程序正常运行。 from bs4 import BeautifulSoup import requests import pandas as pd data = [] usernames = [] titles = [] comments = [] result = requests.get('https://www.kupujemprodajem.com/review.php?action=list') soup = BeautifulSoup(result.text, 'html.

浏览 7提问于2021-12-10得票数 -1

1回答

使用BeaufifullSoup同时清理300多个页面

、

我有一个来自webget的txt文件，里面有300个html文件。(utf.txt) 我怎么才能清理它..。我试过美汤，但它只清洗了第一个。我需要的标签是"font“。 from bs4 import BeautifulSoup with open("utf.txt", encoding='utf-8') as fp: soup = BeautifulSoup(fp) print (soup.find_all('font')) 致以敬意，

浏览 12提问于2019-04-29得票数 0

2回答

发布到页面，使用漂亮的汤登录

、

我正在使用python和漂亮汤(这两个都是新手！)，我想登录一个供应商网站。所以它们的形式看起来像(简化的)： <form name=loginform action=/index.html method="post"> <input name=user> <input name=pass"> </form> 有没有办法跟踪cookie？

浏览 2提问于2010-07-27得票数 7

回答已采纳

2回答

BeautifulSoup :提取'img alt‘文本

、

我正在尝试解析img alt文本。下面是HTML代码： [<p class="number"> <img alt="1" src="/img/common_new/ball_1.png"/> <img alt="10" src="/img/common_new/ball_10.png"/> <img alt="13" src="/img/common_new/ball_13.png"/> <img alt="26"

浏览 0提问于2018-05-19得票数 0

1回答

一个特定的href爬行在python中的美丽的汤

、、、、

我正在努力学习美汤。在网站上，它有相同的href，但结果不同。例如，我的代码的结果是： 0001545654 6798 嗨 0001459640 发送 0001269765 CA 0001456527 CA 0001001379 气体我只想带上数字数字的URL =a href="/cgi-bin/browse-edgar?action=getcompany&CIK=0001545654&owner=exclude&count=40&hidefilings=0">0001545654 区域URL =a href="/cgi-b

浏览 3提问于2020-05-25得票数 0

1回答

使用Jinja过滤器创建内容片段

、、、

我想为我的主页创建内容片段。一个示例文章看起来就像 <p>Your favorite Harry Potter characters enter the Game of Thrones universe, and you'll never guess what happens!</p> <readmore/> <p>...they all die</p> 在主页上，我只希望<readmore/>出现之前的内容。我在想，我可以在金佳过滤器中使用美丽的汤来删除阅读和之后的所有内容。如果没有<readmore

浏览 2提问于2015-06-05得票数 3

回答已采纳

1回答

漂亮汤在使用正则表达式的文件中找不到href

、

我有一个html文件，如下所示： <form action="/2811457/follow?gsid=3_5bce9b871484d3af90c89f37" method="post"> <div> <a href="/2811457/follow?page=2&gsid=3_5bce9b871484d3af90c89f37">next_page</a>  <input name="mp" type="hidden" valu

浏览 0提问于2012-06-17得票数 7

回答已采纳

2回答

美丽的汤找到一个标签，它的属性的压力，但它的价值未知

、、、

假设我想检索获得属性ID但属性值未知的所有标记p？ <p id=?, ... > 用漂亮的汤做这件事最好的方法是什么？

浏览 13提问于2017-02-22得票数 0

回答已采纳

2回答

为什么美丽的汤忽略了CDATA

、

我正在为雅虎天气API (python2.7)使用Beautiful： url = 'http://weather.yahooapis.com/forecastrss?w=2344116' page=urllib2.urlopen(url).read() soup = BeautifulSoup(page) 但在此之后，在解析的url中，没有任何CDATA。为什么美汤忽视了这一点？如何防止忽略CDATA？在xml中： <img src="http://l.yimg.com/a/i/us/we/52/11.gif"/> 在已分析的页面中：正如

浏览 4提问于2014-10-26得票数 0

回答已采纳

1回答

如何提取文本html标记以保持其顺序

、

我想在字符串中处理带有html标记的文本。考虑一下字符串 str = "before <b>This text is bold</b> after. <i>italic</i>" 为了提供更多的上下文，我使用PIL ImageDraw对象来编写具有指定宽度的包装文本。代码的一部分如下所示 rect = Rectangle(x,y,width,height) curx = rect.x cury = rect.y for word in allWords: wordWidth, wordHight = fo

浏览 2提问于2021-11-30得票数 1

回答已采纳

1回答

BeautifulSoup刮擦:我很困惑

、

我正在尝试刮，我想检查所有的锚标记。我已经导入了漂亮汤4.3.2，下面是我的代码： url = """http://www.civicinfo.bc.ca/bids?pn=1""" Html = urlopen(url).read() Soup = BeautifulSoup(Html, 'html.parser') Content = Soup.find_all('a') 我的问题是，内容总是空的(即内容= [])。有人有什么想法吗？

浏览 9提问于2016-02-02得票数 0

回答已采纳

1回答

问题:如何使用漂亮汤获取标记属性值的列表

、、、、

我想从当地一家电影院的网站上刮点东西，当某部电影在运行时，我会一直拍下去。我找到了一张表格，其中列出了如下形式的时间： [<time datetime="2020-01-31T21:15:00+01:00">21:15</time>]. 如果我用漂亮汤作为x.find_all(“时间”)。我得到了上面所示的所有时间。但我只想要“日期时间”，所以在本例中，2020-01-31T21: 15: 00 + 01: 00。现在当我搜索x.find_all(‘time’)‘日期时间’时，我得到以下错误： TypeError: list indices must

浏览 3提问于2020-01-30得票数 0

回答已采纳

4回答

将HTML分解为链接文本和目标

、、、

给定一个HTML链接，如 <a href="urltxt" class="someclass" close="true">texttxt</a> 我如何隔离网址和文本？更新我用的是美汤，我想不出该怎么做。我做到了 soup = BeautifulSoup.BeautifulSoup(urllib.urlopen(url)) links = soup.findAll('a') for link in links: print "link content:", link.con

浏览 4提问于2008-11-13得票数 5

回答已采纳

1回答

如何使用美汤选择特定的“跨度”内容

、、

浏览 2提问于2018-07-27得票数 0

1回答

漂亮的汤自动将字符串转换为时间格式？

、、、、

我试着从一个网站上抓取一个有‘时间’信息的div (使用漂亮的汤+ selenium)： options = webdriver.ChromeOptions() options.add_argument('--no-sandbox') options.add_argument('--window-size=1420,1080') options.add_argument('--headless') options.add_argument('--disable-dev-shm-usage') options.add_argume

浏览 0提问于2020-04-10得票数 1

1回答

Python3-用BS4抓取内部分区的信息

、、

我在试着刮擦一些网站上有很好的汤，但是我不能让它工作。在网站上有一个主要的div，我用下面的代码实现了这个div： for divs in soup.find_all('div', {'class': 'row div-1'}): #I'm taking main div innerDivs = divs.find_all('div') #Taking inner div's in main div for inner in innerDivs: #loop for all inner

浏览 25提问于2018-06-05得票数 0

回答已采纳

1回答

Python HTML解析，获取带有其值的标记名。

、、

我用的是Python的漂亮汤。是否有一种方法可以获得具有其值的属性名，如： name=title value=This是标题 name=link值=./style.css soup.html.head= <meta content="all" name="audience"/> <meta content="2006-2013 webrazzi.com." name="copyright"/> <title> This is title</title> <link href=

浏览 4提问于2014-02-25得票数 4

回答已采纳

1回答

如何在漂亮的汤中返回标签的元素？

、、、

最基本的问题是：我从下面返回001,002...101： <us-applicant sequence="001" app-type="applicant" designation="us-only"> ... <us-applicant sequence="101" app-type="applicant" designation="us-only"> 用漂亮的汤吗？我知道在两个标记之间返回内容的基本外观，但我不确定这个元素到底是什么

浏览 1提问于2017-08-01得票数 2

2回答

如何通过python webdriver从<em>中获取文本？

、、

有没有什么方法可以让我像下面那样获取文本"ABCD“？我只知道获取emement，但不知道如何获取其文本。 element1= find_element_by_xpath("//caption/em") 那么我怎么才能得到"ABCD"，有没有像gettext()这样的方法呢？ <table class='1'> <caption> <em> ABCD </em> </caption> </table>

浏览 1提问于2013-07-12得票数 0

回答已采纳

2回答

解析多篇新闻文章

、、、

我已经建立了一个摘要程序，它利用一个解析器一次解析多个网站。我在每篇文章中只提取<p>。这抛出了许多与文章无关的随机内容。我见过几个人可以完美地解析任何文章。我该怎么做呢？我用的是美汤

浏览 3提问于2014-05-04得票数 0

1回答

如何刮表及其链接

、、

我想做的是把下面的网站 view-source: 并选择执行的年份，输入最后一个语句链接，并检索语句.也许我会创建两个字典，都是以执行号为键的。之后，我会根据语句的长度对语句进行分类，除了“标记”之外，还会拒绝给它，或者只是没有给出。最后，所有这些都将在一个SQLite数据库中编译，我将显示一个图表，显示每年按类型分组的消息数量。美汤似乎是要走的路，我已经有麻烦了，只是印刷一年的执行.当然，我对打印执行年数并不感兴趣，但这似乎是检查至少我的代码是否正确地定位了我想要的标记的好方法。 tags = soup('td') for tag in tags: print(

浏览 2提问于2020-11-17得票数 1

回答已采纳

1回答

用BS4进行网络抓取:无法获取表

、

在浏览器中打开下面的URL时，你会看到一个紫色的图标，名字是“复制”。当您选择此图标(“复制”)时，您将实现一个完整的表，您可以粘贴到Excel中。如何将此表作为Python中的输入？我的代码在下面，它没有显示任何内容： import requests from bs4 import BeautifulSoup url = "http://www.kianfunds2.com/" + "ارزش-دارایی-ها-و-تعداد-واحد-ها" result = requests.get(url) soup = BeautifulSoup(result

浏览 1提问于2018-03-19得票数 0

回答已采纳

1回答

美丽的汤刮不出所有的东西

、

我正在尝试从第一个图像中获取img标记，这样我就可以获取图像链接。当我用漂亮的汤抓取站点时，没有img标签(如图2所示)。我不明白为什么每个网站都有一个img标签，但美丽的汤却没有。

浏览 1提问于2020-03-02得票数 1

2回答

如何获取div标记中的内容

、、

当我使用漂亮汤获取下面所示的“目标”内容时，我想知道我需要在.find参数中放什么内容。 <div class="item" the-target="this text" another-target="not this text"> 这是我所说的.find美丽汤参数 help = soup.find('div‘)，’我应该在这里放什么？‘).get_text() 谢谢

浏览 1提问于2019-07-15得票数 0

1回答

美汤类名有多个空格，find_all提供[]

、

使用漂亮的汤，我试图提取值(317.69)，但得到的结果是空的。我试图提取的html代码块是： <span class="Trsdu(0.3s) Fw(b) Fz(36px) Mb(-4px) D(ib)">317.69</span> 我尝试了以下两种编码方式： value = soup.find_all(attrs={'class': 'Trsdu(0.3s) Fw(b) Fz(36px) Mb(-4px) D(ib)'}) 和 value = soup.find_all('span', class_=

浏览 18提问于2020-01-29得票数 0

2回答

重定向到新地址但不发送3XX代码的网站

、、

如果我们将上述地址输入到web浏览器中，则该地址将自动更改为。我尝试使用响应代码将我的程序重定向到上面的网站，但是响应代码是200。有没有办法检索上面的地址。我用汤爬行。提前谢谢。

浏览 2提问于2014-01-07得票数 4

回答已采纳

1回答

美汤元内容标签

、、、

浏览 5提问于2015-12-16得票数 4

回答已采纳

1回答

如何用漂亮汤提取代码的某一部分

、、

我在做一个私人项目，我有一个关于美汤的问题。我使用python 3.9.2和BeautifulSoup4.9.3。我的html代码是：style="transform-origin:50% 50%;transform:rotate(382deg)，我想得到零件:382 get。现在有谁用美丽的汤来做这个吗？谢谢。

浏览 5提问于2022-09-28得票数 -1

回答已采纳

1回答

哪个类最适合读取和表示HTML文件？

、、

这是个初学者的问题。基础课程中的平台和课程数量非常庞大，所以我希望so社区有一个现成的答案。这是我的用例：我希望读取html文件并提取p标记中的所有文本。我不需要显示html标记。但是如果Webkit有一个解决方案，我很乐意使用它。在蟒蛇世界里，答案将是美丽的汤。我正在寻找OSX基础套件的等价物或任何可能达到目标的类。

浏览 2提问于2013-05-29得票数 1

回答已采纳

2回答

使用pandas读取下载的html文件

、、、

作为标题，我尝试使用read_html，但出现以下错误： In [17]:temp = pd.read_html('C:/age0.html',flavor='lxml') File "<string>", line unknown XMLSyntaxError: htmlParseStartTag: misplaced <html> tag, line 65, column 6 我做错了什么？更新01 HTML在顶部包含一些javascript，然后是一个html表。我使用R来处理它，通过解析html by XML

浏览 2提问于2014-07-31得票数 8

回答已采纳

1回答

BeautifulSoup，递归地寻址带有字符串参数的标记

、

假设我的XML如下所示： <a> <b>Some</b> <c>Content</c> <d>Here</d> </a> <a> <b>Some2</b> <c>Content</c> <d>Here</d> </a> <a> <b>Some3</b> <c>Content</c>

浏览 1提问于2016-03-26得票数 1

回答已采纳

2回答

如何抓取以text/html格式返回的ajax的特定内容？

、、、、

我能够得到ajax的网址和响应。响应不是JSON和dev。工具说明其内容类型: text/html;charset=UTF-8 这是我的问题是这是一个很大的文本块，我想要抓取/解析出一段非常具体的文本。我还在代码块中看到了许多pythonic字典和列表。我的目标是提取“ASINList”部分：并最终拥有该列表中的所有asin。我该怎么做呢？我用的是美汤我已经尝试过soup.find(‘脚本’)，但是看着html，我不知道如何接近它。 </div> </div> <script> P.when("stores-widget-productgri

浏览 18提问于2019-07-06得票数 0

回答已采纳

2回答

如何使用python获取维基百科页面上的页面创建日期？

、、、

我有一个问题，那就是如何在表格中得到一个特定的文本。在本例中，维基百科页面上的页面创建日期。例如，在此链接中我正在用漂亮的汤，但我仍然有麻烦，因为剩下的课文都在那里。我只需要页面创建的日期。

浏览 9提问于2022-06-25得票数 0

1回答

获取一个接一个的标签？

、

我正在尝试获取另一个标签之后的第一个标签，其中包含漂亮的汤。假设我有这样的结果： <span class="number">5</span> <span class="b">xxx</span><span class "number">10</span> 我可以使用正则表达式在第二个.number上获取数字，这将是非常可靠的。但是我们都知道regex是不应该解析html的，所以我在做这件事的时候用了漂亮汤。目前我正在做这件事 soup('span', {&#

浏览 2提问于2013-06-02得票数 5

回答已采纳

4回答

Telerik下拉列表

我已经用viewbag绑定了一个Telerik下拉列表。它工作得很好。但是列出的项目是包装的。它不是像‘阿联酋’这样的单行，而是像这样美联航阿拉伯人阿联酋航空我如何解开行项目？提前感谢

浏览 0提问于2013-04-04得票数 0

3回答

如何在HTML中选择没有标签的文本(JSoup)

、、、

我想在强标签中选择文本，但是没有div在下面. 是否有可能直接用汤汁做这件事？我对选择的尝试(不起作用，在强标记中选择完整的内容)： Elements selection = htmlDocument.select("strong").select("*:not(.dontwantthatclass)"); HTML： <strong> I want that text <div class="dontwantthatclass"> </div> </strong>

浏览 0提问于2016-06-23得票数 6

回答已采纳

3回答

如何在python中解析字符串

、

没有任何第三方库(比如漂亮的汤)，用PYTHON解析字符串的最干净的方法是什么。鉴于下面的文字，我希望把"uber_token“的内容解析出来。"123456789“ …… <form id="blah" action="/p-submi.html" method="post"><input type="hidden" id="" name="uber_token" value="123456789"/><div class="

浏览 3提问于2014-06-26得票数 0

回答已采纳

4回答

BS4:在标签中获取文本

、、、、

我用的是漂亮的汤。有这样的标签： <li><a href="example"> s.r.o., <small>small</small></a></li> 我只想在锚<a>标记中获取文本，而不是输出中的<small>标记；即“s.r.o.,”。我试过find('li').text[0]，但它不起作用。在BS4中有一个命令可以做到这一点吗？

浏览 8提问于2014-08-11得票数 17

回答已采纳

1回答

从美美汤中获得价值

、

我试着用漂亮的汤从中提取温度值。但是当我把汤的全文打印出来的时候，它只给我看了一个iframe： <iframe frameborder="0" height="100%" src="https://www.weatherlink.com/embeddablePage/show/c7ea9161378346e18d2e4c0ea056c55b/summary" width="100%"></iframe> 因此，我尝试使用iframe中显示的src地址:但是它只显示一些其他代码，没有任何我可以用漂亮汤选择的

浏览 1提问于2019-04-21得票数 1

回答已采纳

2回答

如何删除美汤中特定模式中的html标记

、、、

<p> A <span>die</span> is thrown $x = {-b \pm <span>\sqrt</span> {b^2-4ac} \over 2a}$ twice. What is the probability of getting a sum 7 from both the throws? </p> 在上面的html中，我只需要删除“(标记)”中的标记，即\(x = {-b \pm <span>\sqrt</span> {b^2-4ac} \

浏览 5提问于2017-02-04得票数 2

回答已采纳

1回答

遇到python筛选器问题

我只想在没有$的情况下提取价格数据。文件中有多个价格，我只想要那些在class="price price-label ">之后的价格，而不是那些在class="strike">“之后的价格我粘贴了完整的代码-我正在从file.txt拉取信息-我希望输出的是名称和价格并排。我以前没有用过美汤。 data-default-alt="Ford Truck"> </h3> </a> </div> <div class="tileInfo&

浏览 0提问于2016-04-02得票数 0

1回答

如何在漂亮汤的多个div中找到所需的数据

、、

这是我试图在多个div标记中选择数据的html代码 <div class="details-wrapper apps-secondary-color"> <div class="details-section metadata"> <div class="details-section-heading"> <div class="details-section-contents"> <div class=

浏览 0提问于2016-03-09得票数 2

2回答

如何用美汤找到所有评论

、、、、

四年前有人问过，但现在BS4的答案已经过时了。我想要删除我的html文件中的所有评论使用美丽的汤。因为每个都是由BS4创建的，所以我认为下面的代码会起作用： for comments in soup.find_all('comment'): comments.decompose() 所以那不管用...如何使用BS4查找所有评论？

浏览 3提问于2015-10-15得票数 13

回答已采纳

2回答