在大多数情况下,使用jsoup解析XML都没有问题。但是,如果XML文档中有<link>标记,jsoup会将<link>some text here</link>更改为<link />some text here。这使得无法使用CSS选择器提取<link>标记内的文本。
那么如何防止jsoup“清理”<link>标签呢?
我使用下面的代码通过JSoup解析HTML语言:
Jsoup.parse(html).wholeText()
我的html示例将包含如下文本:
<p>some text</p><br /><br>later
但是,JSoup的输出始终是:
some textlater
我想要的输出是这样的:
some text
later
(请注意,该行在“一些文本”和“稍后”之后返回)
如果我想保留间距,有没有替代wholeText的不同方法?我确实发现了下面这个类似的堆栈溢出问题:
然而,这个问题的问题是,所有用户都希望使用字符串替换或正则表达式来查找b
我正在使用JSoup更新一些服务器端的HTML模板,其中包含一些Freemarker标记。JSoup不会将Freemarker标签识别为有效的超文本标记语言(这很公平),并将其转换为>和<,例如:
<div class="row">
<#list things as thing>
</#list>
</div>
转换为:
<div class="row">
<#list things as thing>
</#list>
我用Java编写了一个函数,通过ID从给定的URL获取10个链接。代码中的href标签I写成:id-1、id-2等。我使用的是JSoup库。我的代码是:
public static void linkList(String URL)
{
Document doc=Jsoup.parse(URL);
Element e;
int eId=1;
for(int x=1; x<=10; x++)
{
//element id
我正在尝试从此中检索图像url
图像在网页上的版本框中。我该如何使用JSoup选择器方法获取它。
比如
Document doc = Jsoup.connect(url).get();
Element png = doc.select(//What would the tag be?);
我知道如何设置它,只是不知道如何检索标签。
如何过滤嵌套标签中的噪声?例如,我有这样的输入:
in:
<html>
<source>
<noise>something something, many many things</noise>foo bar bar<noise>more something something noise</noise>baring foo
</source>
</html>
我需要得到这个输出:
out
foo bar bar
baring foo
我已经尝试过了,但是我仍然从嵌套标记中获得噪音
我在从代码输出中删除SSP和/SSP标记时遇到了问题,该代码出现在我要输出的对话框中。
我尝试了几种不同的方法来删除标签,但似乎不能请您建议如何修改下面的代码,以便我可以删除这些标签。我对Java非常陌生。
/*
* To change this license header, choose License Headers in Project Properties.
* To change this template file, choose Tools | Templates
* and open the template in the editor.
*/
package sim