提取标记内的所有内容，但不提取标记本身_提取脚本标记内的数据_使用BeautifulSoup提取div标记本身中的文本 - 腾讯云开发者社区

、、

我正在使用BeautifulSoup从网站抓取文本，但我只需要用于组织的<p>标记。但是，我不能使用text.findAll('p')，因为还有其他我不需要的<p>标记。我想要的文本都被包装在一个标记中(假设是body)，但是当我解析它时，它也需要包含该标记。

浏览 6提问于2017-02-02得票数 1

2回答

在ASP.NET中提取文本部分

、、、

我需要使用包含在其中的一对标记来提取字符串的子集。例如，给定以下字符串：我一直在处理String.SubString()，但很难

浏览 0提问于2013-08-14得票数 0

回答已采纳

3回答

正则表达式，查找两个单词之间的单词

、、

我有这个字符串我尝试做的是提取"li“标记内的所有"p”标记，但不提取"p“标记外部<em

浏览 1提问于2010-03-06得票数 1

回答已采纳

1回答

python正则表达式使用re模块，您能编写一个regex，它可以查看另一个regex的结果吗？

、

我想编写一个正则表达式，它从中间提取以下内容，但不包括<p>和</p>标记：\<p\>(|.*Cash.*|.*Total.*\$\d+.*)\<\/p\>

浏览 6提问于2016-10-14得票数 0

2回答

从url中提取标记

我正在编写一个脚本，它必须从URL中提取所有标记，但不仅仅是从标记中提取值，我指的是所有这样的标记代码：我在preg_match_all中找到了一些东西，但这只是从href、title等提取值，而不是从整个a标记代码中提取值。

浏览 6提问于2015-01-18得票数 1

回答已采纳

1回答

获取带有CDATA标签的javascript的内容？

、、、

但是，如果我想要解析的信息在CDATA标记内，而CDATA标记阻止解析器提取内部数据。如何从CDATA标记中提取数据？示例：如果我使用Jsoup解析这个页面，并尝试使用"sc

浏览 1提问于2012-11-03得票数 5

回答已采纳

1回答

从html文档中提取标记内的文本

、、、、

我有一个类似于这样的html文档：，所以我需要在标记<span id="1“和</span内提取文本，但我不知道如何提取。BeautifulSoup(fp,features="html.parser") print (a.string) 但是它从所有的“span”标签中提取所有信息。那么，如何在&l

浏览 5提问于2021-05-19得票数 3

回答已采纳

1回答

如果内容大写，则使用jquery替换H3标记为H2

、、

我从PDF文件中提取了html内容。我需要将所有H3标记(只有大写内容)转换为H2标记。大写/小写内容的H3标记将被单独保留。我使用它将H3标记转换为H2，但不确定如何仅将其应用于大写内容的标记。

浏览 4提问于2016-07-01得票数 3

回答已采纳

1回答

它自己拉一个特定的标签？

、、、

因为Jenkins没有标签，所以我想提取我感兴趣的特定标签。这有语法吗？OS是最近的Debian。谢谢!

浏览 0提问于2020-09-01得票数 0

2回答

如何从JSON文件中删除所有HTML内容？

、、、、

我想要清除JSON文件中错误提取的HTML内容，方法是丢弃所有包含在HTML标记中的文本，包括标记本身。def stripIt(s):那么，如何在不破坏文件的情况下，从JSON文件中删除所有HTML内容呢

浏览 4提问于2015-01-06得票数 1

回答已采纳

3回答

这可以从html src中提取人类可读的内容吗？

、

HTML是一种标记语言，混合了很多东西。但我只想从网站中提取人类可读的数据来做一些内容分析。但我能看到的只有html代码。我可以一个接一个地提取所有的HTML标记来提取文本，并将其图像输出。(至少，我可以grep大多数数据，但不能grep javascript插入的数据)而不是这样做，我可以有一种更有效的方法来这样做吗？谢谢。 *使用java作为编程语言

浏览 2提问于2012-02-29得票数 1

回答已采纳

3回答

在HTML文件中查找特定标记

、、、

我有一些html文件，我想提取一些标记之间的内容:页面的标题，一些标记的内容。但不是我的愿望标签，我不想要它的内容。我使用了下面的脚本来提取我想要的文本，但是我不能过滤掉标签，比如我示例中的最后一个……如何才能只提取<p>标签呢？grep "<p>" $File | sed -e &#

浏览 0提问于2012-07-02得票数 0

1回答

请求提取[方括号]中的内容，但不提取[[wiki-链接]]

、、、

我正在寻找一个正则表达式，它可以匹配和提取[squarebrackets]中的内容，但不能在[[wiki-links]]中提取内容。因此，对于上面的示例，我只提取squarebrackets部分，而不提取[squarebrackets]、[wiki-links]或wiki-links。目前，我发现了两个雷克斯： /[^[\]]

浏览 5提问于2021-08-17得票数 1

回答已采纳

2回答

我想将title标记的内容重复到html文档本身中。

、

我想将title标记的内容重复到html文档本身中。我可以找到关于如何将html提取到title标记中的信息，但反之亦然。我正在对html文档的头部中设置的标题标签进行硬编码，并且想要运行服务器端，但在标题下，我希望能够在我的页面上打印相同的内容</e

浏览 1提问于2012-12-07得票数 0

2回答

如何使用Python从<image/>获取src属性

、、

我明白，但输出不是我所需要的。soup = BeautifulSoup(content, "html.parser") print(images) 我得到的输出cdn.rubyrealms.com/images/WKpivrdGBJJ9p6etIY2aJpixikFj4vnpmpPR9pXjK4Y8K.png" style="border-ra

浏览 0提问于2019-07-08得票数 3

回答已采纳

1回答

提取/高亮显示div标记中的所有内容，包括使用regex的div标记本身

、、

我想要一个regex代码来突出显示/提取div标记中的所有内容，包括结束匹配标记本身。<div class="abc" id= "123"><di

浏览 0提问于2021-03-16得票数 0

2回答

如何用lxml提取p标记中的所有内容？

、

在下面的html片段中有三个xyz和两个<br>标记。for i,content in enumerate(texts):结果不是我想要的。0 xyz 如何用lxml提取p标记中的</e

浏览 1提问于2017-06-28得票数 2

回答已采纳

1回答

如何使用Scrapy在类中获取HTML代码

、、

有没有可能在div类messageContent中获得完整的HTML代码，包括HTML代码本身？ This是URL。但是我不能得到整个消息和它的格式，这是可能的吗？我试过的是： item.css('div.messageContent blockquote::text').extract() <div class="messageContent"> <article

浏览 27提问于2019-04-24得票数 0

4回答

使用jquery从html中检索文本

我有以下格式的HTML结构 question to test autolinker <a classcategory=Technology">Technology</a>我需要提取P标记中的文本，但不包括Anchor标记中包含的文本

浏览 3提问于2015-07-31得票数 0

回答已采纳

2回答

提取HTML标记中的所有内容

、

我在尝试提取HTML头标记之间的文本时遇到了真正的问题。我有下面的Perl脚本，我用它来测试：我需要实现的是将之间的文本提取到$1中，然后将剩下的文本提取到$2中。我就是不能让它工作：

浏览 0提问于2011-10-23得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云