我正在使用jsoup来提取tweeter文本。所以html结构是
<p class="js-tweet-text tweet-text">@sexyazzjas There is so much love in the air, Jasmine! Thanks for the shout out. <a href="/search?q=%23ATTLove&src=hash" data-query-source="hashtag_click" class="twitter-hashtag pretty-
String html = Jsoup.connect(url).timeout(1000*1000).get().html();
Document doc = Jsoup.parse(html);
Elements H2 = doc.select("div h2");
for (Element e: H2) {
//get absolute path of element e
}
似乎没有办法仅仅使用Jsoup来做到这一点。如果没有,有没有其他的java包可以帮你实现呢?
我正在使用Jsoup来清理表单中的用户输入。有问题的表单包含一个需要纯文本的<textarea>。当表单提交时,我使用Jsoup.clean(textareaContents)清理输入;但是,由于html忽略了额外的空格,所以Jsoup.clean()将从输入中删除有价值的空格字符。
例如,如果有人在textarea中输入了几行文本
hello
test
在Jsoup.clean()之后,您将拥有:
hello test
如何让Jsoup.clean()保留空格?我知道它是为解析html而设计的,而这不是html,所以有没有更好的替代方案?
jsoup
当从有200个元素的网站抓取数据时,输出只有200个元素中的前49个或50个元素,为什么?-我如何解决这个问题。要获取所有200个元素的数据?
Document d = Jsoup.connect("https://www.ebay.com/sch/i.html?_from=R40&_trksid=p2047675.m570.l1313.TR0.TRC0.H0.Xsilver.TRS0&_nkw=silver&_sacat=0").timeout(6000).get();
Elements ele = d.select("div#Re
通过了解前面的元素,是否有可能使用jSoup获得继续的元素?
例如,在这个html中,我有表“给定这个项目的”的数据。
我想取下一个包含“查找这个”的表
<table><tr><td>irrelevant info 1 <a href="http://jsoup.org/">jsoup</a></td></tr></table>
<p>there is a p here</p>
<table><tr><td>Given th