腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
提取
标记
内
的
所有
内容
,
但不
提取
标记
本身
、
、
我正在使用BeautifulSoup从网站抓取文本,但我只需要用于组织
的
<p>
标记
。但是,我不能使用text.findAll('p'),因为还有其他我不需要
的
<p>
标记
。我想要
的
文本都被包装在一个
标记
中(假设是body),但是当我解析它时,它也需要包含该
标记
。
浏览 6
提问于2017-02-02
得票数 1
2
回答
在ASP.NET中
提取
文本部分
、
、
、
我需要使用包含在其中
的
一对
标记
来
提取
字符串
的
子集。例如,给定以下字符串: 我一直在处理String.SubString(),但很难
浏览 0
提问于2013-08-14
得票数 0
回答已采纳
3
回答
正则表达式,查找两个单词之间
的
单词
、
、
我有这个字符串我尝试做
的
是
提取
"li“
标记
内
的
所有
"p”
标记
,
但不
提取
"p“
标记
外部<em
浏览 1
提问于2010-03-06
得票数 1
回答已采纳
1
回答
python正则表达式使用re模块,您能编写一个regex,它可以查看另一个regex
的
结果吗?
、
我想编写一个正则表达式,它从中间
提取
以下
内容
,
但不
包括<p>和</p>
标记
:\<p\>(|.*Cash.*|.*Total.*\$\d+.*)\<\/p\>
浏览 6
提问于2016-10-14
得票数 0
2
回答
从url中
提取
标记
我正在编写一个脚本,它必须从URL中
提取
所有
标记
,
但不
仅仅是从
标记
中
提取
值,我指的是
所有
这样
的
标记
代码:我在preg_match_all中找到了一些东西,但这只是从href、title等
提取
值,而不是从整个a
标记
代码中
提取
值。
浏览 6
提问于2015-01-18
得票数 1
回答已采纳
1
回答
获取带有CDATA标签
的
javascript
的
内容
?
、
、
、
但是,如果我想要解析
的
信息在CDATA
标记
内
,而CDATA
标记
阻止解析器
提取
内部数据。如何从CDATA
标记
中
提取
数据?示例:如果我使用Jsoup解析这个页面,并尝试使用"sc
浏览 1
提问于2012-11-03
得票数 5
回答已采纳
1
回答
从html文档中
提取
标记
内
的
文本
、
、
、
、
我有一个类似于这样
的
html文档:,所以我需要在
标记
<span id="1“和</span
内
提取
文本,但我不知道如何
提取
。BeautifulSoup(fp,features="html.parser") print (a.string) 但是它从
所有
的“span”标签中
提取
所有
信息。那么,如何在&l
浏览 5
提问于2021-05-19
得票数 3
回答已采纳
1
回答
如果
内容
大写,则使用jquery替换H3
标记
为H2
、
、
我从PDF文件中
提取
了html
内容
。我需要将
所有
H3
标记
(只有大写
内容
)转换为H2
标记
。大写/小写
内容
的
H3
标记
将被单独保留。 我使用它将H3
标记
转换为H2,
但不
确定如何仅将其应用于大写
内容
的
标记
。
浏览 4
提问于2016-07-01
得票数 3
回答已采纳
1
回答
它自己拉一个特定
的
标签?
、
、
、
因为Jenkins没有标签,所以我想
提取
我感兴趣
的
特定标签。这有语法吗?OS是最近
的
Debian。 谢谢!
浏览 0
提问于2020-09-01
得票数 0
2
回答
如何从JSON文件中删除
所有
HTML
内容
?
、
、
、
、
我想要清除JSON文件中错误
提取
的
HTML
内容
,方法是丢弃
所有
包含在HTML
标记
中
的
文本,包括
标记
本身
。def stripIt(s):那么,如何在不破坏文件
的
情况下,从JSON文件中删除
所有
HTML
内容
呢
浏览 4
提问于2015-01-06
得票数 1
回答已采纳
3
回答
这可以从html src中
提取
人类可读
的
内容
吗?
、
HTML是一种
标记
语言,混合了很多东西。但我只想从网站中
提取
人类可读
的
数据来做一些
内容
分析。但我能看到
的
只有html代码。我可以一个接一个地
提取
所有
的HTML
标记
来
提取
文本,并将其图像输出。(至少,我可以grep大多数数据,
但不
能grep javascript插入
的
数据)而不是这样做,我可以有一种更有效
的
方法来这样做吗?谢谢。 *使用java作为编程语言
浏览 2
提问于2012-02-29
得票数 1
回答已采纳
3
回答
在HTML文件中查找特定
标记
、
、
、
我有一些html文件,我想
提取
一些
标记
之间
的
内容
:页面的标题,一些
标记
的
内容
。
但不
是我
的
愿望标签,我不想要它
的
内容
。我使用了下面的脚本来
提取
我想要
的
文本,但是我不能过滤掉标签,比如我示例中
的
最后一个……如何才能只
提取
<p>标签呢?grep "<p>" $File | sed -e
浏览 0
提问于2012-07-02
得票数 0
1
回答
请求
提取
[方括号]中
的
内容
,
但不
提取
[[wiki-链接]]
、
、
、
我正在寻找一个正则表达式,它可以匹配和
提取
[squarebrackets]中
的
内容
,
但不
能在[[wiki-links]]中
提取
内容
。因此,对于上面的示例,我只
提取
squarebrackets部分,而不
提取
[squarebrackets]、[wiki-links]或wiki-links。目前,我发现了两个雷克斯: /[^[\]]
浏览 5
提问于2021-08-17
得票数 1
回答已采纳
2
回答
我想将title
标记
的
内容
重复到html文档
本身
中。
、
我想将title
标记
的
内容
重复到html文档
本身
中。我可以找到关于如何将html
提取
到title
标记
中
的
信息,但反之亦然。我正在对html文档
的
头部中设置
的
标题标签进行硬编码,并且想要运行服务器端,但在标题下,我希望能够在我
的
页面上打印相同
的
内容</e
浏览 1
提问于2012-12-07
得票数 0
2
回答
如何使用Python从<image/>获取src属性
、
、
我明白,但输出不是我所需要
的
。soup = BeautifulSoup(content, "html.parser") print(images) 我得到
的
输出cdn.rubyrealms.com/images/WKpivrdGBJJ9p6etIY2aJpixikFj4vnpmpPR9pXjK4Y8K.png" style="border-ra
浏览 0
提问于2019-07-08
得票数 3
回答已采纳
1
回答
提取
/高亮显示div
标记
中
的
所有
内容
,包括使用regex
的
div
标记
本身
、
、
我想要一个regex代码来突出显示/
提取
div
标记
中
的
所有
内容
,包括结束匹配
标记
本身
。<div class="abc" id= "123"><di
浏览 0
提问于2021-03-16
得票数 0
2
回答
如何用lxml
提取
p
标记
中
的
所有
内容
?
、
在下面的html片段中有三个xyz和两个<br>
标记
。for i,content in enumerate(texts):结果不是我想要
的
。0 xyz 如何用lxml
提取
p
标记
中
的</e
浏览 1
提问于2017-06-28
得票数 2
回答已采纳
1
回答
如何使用Scrapy在类中获取HTML代码
、
、
有没有可能在div类messageContent中获得完整
的
HTML代码,包括HTML代码
本身
? This是URL。 但是我不能得到整个消息和它
的
格式,这是可能
的
吗?我试过
的
是: item.css('div.messageContent blockquote::text').extract() <div class="messageContent"> <article
浏览 27
提问于2019-04-24
得票数 0
4
回答
使用jquery从html中检索文本
我有以下格式
的
HTML结构 question to test autolinker <a classcategory=Technology">Technology</a>我需要
提取
P
标记
中
的
文本,
但不
包括Anchor
标记
中包含
的
文本
浏览 3
提问于2015-07-31
得票数 0
回答已采纳
2
回答
提取
HTML
标记
中
的
所有
内容
、
我在尝试
提取
HTML头
标记
之间
的
文本时遇到了真正
的
问题。我有下面的Perl脚本,我用它来测试:我需要实现
的
是将之间
的
文本
提取
到$1中,然后将剩下
的
文本
提取
到$2中。 我就是不能让它工作:
浏览 0
提问于2011-10-23
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
从 Excel 列表中逐行提取单元格内的所有数字,没有数字的空行去除
Python网络爬虫与信息提取Week 2整理(2)
Python 爬虫(五)
知识图和神经网络:如何有效读取图节点属性
javaScript我们经常使用的正则表达式
热门
标签
更多标签
云服务器
ICP备案
对象存储
即时通信 IM
实时音视频
活动推荐
运营活动
广告
关闭
领券