Jsoup不能完全获取原始的html代码

Jsoup是一款用于解析、操作和遍历HTML文档的Java库。它提供了一组简单而强大的API，使开发人员能够轻松地从HTML中提取数据或修改HTML的内容。

然而，由于Jsoup是基于浏览器的DOM解析器，它在解析HTML时会自动修复一些不规范的HTML代码。这意味着在某些情况下，Jsoup可能无法完全获取原始的HTML代码。

要解决这个问题，可以使用Jsoup的Parser类来指定解析器的类型。例如，可以使用Parser.xmlParser()来解析XML文档，或者使用Parser.htmlParser().setTrackErrors(10)来跟踪解析过程中的错误。

另外，如果需要获取原始的HTML代码，可以使用Jsoup的Document对象的outerHtml()方法。这个方法会返回整个HTML文档的原始字符串表示。

总结起来，Jsoup是一个功能强大的HTML解析库，可以用于提取和修改HTML文档的内容。尽管它在解析HTML时可能会自动修复一些不规范的代码，但可以通过使用适当的解析器类型和outerHtml()方法来获取原始的HTML代码。

腾讯云相关产品推荐：腾讯云服务器（https://cloud.tencent.com/product/cvm）提供了稳定可靠的云服务器实例，可用于部署和运行各种应用程序。腾讯云对象存储（https://cloud.tencent.com/product/cos）提供了高可靠性、低成本的对象存储服务，适用于存储和管理大量的非结构化数据。

Jsoup不能完全获取原始的html代码

、、

我正在尝试从genius.com获取一些歌词(我知道他们有一个an。我正在手动操作。)但我似乎没有得到相同的html字符串，事实上，我把下面的代码放在一个everytime.In循环中，它似乎只有%50的时间有效。import org.jsoup.Jsoup;import java.io.IOException;

浏览 27提问于2021-01-25得票数 1

回答已采纳

1回答

使用jsoup或任何其他库通过原始xpath从HTML中删除元素

、、、、

我正在尝试从具有原始xpath的HTML中删除一个元素。("/html/head"); elements.forEach(Node::remove); 但是遇到了下面的错误， org.jsoup.select.Selector$SelectorParseException: Could not parse query '/html/head': unexpected token at

浏览 44提问于2020-12-03得票数 1

回答已采纳

2回答

Jsoup解析LOC

嗨，我是新来的Jsoup，我找不到如何计算HTML网页中的代码行数，因为我正在做一个html度量项目。如有任何帮助，将不胜感激。

浏览 2提问于2014-05-29得票数 0

回答已采纳

3回答

用于解析<script>标记的JSoup

、、、

我有一个带javascript的HTML，如下所示。event.update(); event.delete();;cf.lmt('45000', '1131452100000', '');</script> 如何使用JSoup解析这个脚本标记并获得脚本最后一行中的值'1131452100000‘。任何输入都是值得感谢的。

浏览 9提问于2012-01-25得票数 1

回答已采纳

1回答

如何从webview中获取html代码而不使用jsoup？

、、、、

我想从webview获取html代码，然后把它放到textview中。有人建议我使用jsoup，但在我的例子中，jsoup不起作用，因为我的目标站点有登录页面。获取html代码的示例。refid=27 如果我使用jsoup，它不会从上面的url中得到html，因为jsoup不能登录fb。我请求您的帮助，如何

浏览 21提问于2020-10-10得票数 0

2回答

Jsoup不会解析整个html文档

、、

我正在尝试从一个网站上获取一大堆使用Jsoup的链接。我的计划是从url中获取整个html，然后提取链接。然而，只获取整个html代码的一部分。main(String[] args) { Document doc = Jsoup.connectmanga

浏览 1提问于2013-07-15得票数 0

1回答

查找在我的网页视图中加载的网站的语言

、、

那么，我想知道网页是什么语言的？在android webview中可以吗？

浏览 38提问于2019-02-08得票数 0

1回答

无法在HTML中打包表格

但我的鳕鱼什么也没给我。 System.out.println

浏览 1提问于2021-07-16得票数 0

1回答

需要从外部页面获取特定数据

、

现在我得到一个完整的页面如下所示：<body></table><table></table> <table><&#

浏览 4提问于2014-12-03得票数 1

1回答

如何正确地使用Jsoup提取所需信息？

、

最近，我决定稍微玩一下Jsoup及其各种属性。为了做到这一点，我创建了一个小应用程序，从下面的网站()收集信息。<span class="zalogowany-jako-username" style="font-size: 20px;">Players online: 791</span> 我的密码public void read(String webAddress

浏览 3提问于2015-11-14得票数 0

回答已采纳

1回答

我正在使用Jsoup从不同的商店抓取一些在线数据，但我在弄清楚如何以编程方式复制我作为用户所做的事情时遇到了麻烦。要手动获取数据(在登录后)，用户必须从弹出的中选择一个存储。据我所知，树不是硬编码到站点中的，而是在您的计算机与服务器交互时以交互方式构建的。当您在"view page source“中查找表时，没有任何条目。从跟踪我在开发人员工具--网络上的活动可以看出，下一步是一个"GET“请求，它不会改变URL，

浏览 17提问于2016-08-09得票数 2

回答已采纳

1回答

如何通过servlet获取web浏览器上的html代码？

、、

我需要使用JSoup获取html。我现在有： .connect("http://~~~")问题:动态网站，网页延迟加载图像我不能得到所有的资源，html代码。当我通过jsoup连接到站点时，该站点代码& resource & html还没有完成

浏览 5提问于2016-02-17得票数 0

回答已采纳

2回答

在没有Javascript的情况下移除android WebView中的html元素

、、、

我想从网页的html代码中删除一些元素，根据它们的id，在WebView中显示网页之前。我知道如何使用Javascript做到这一点，但对我的应用程序来说，重要的是Javascript对WebView是禁用的。我写了一些关于html pasers的文章，比如jsoup，但是我不太明白如何使用它们来解决我的具体问题。有什么建议吗？编辑:好的，这是我到目前为止得到的：

浏览 0提问于2013-03-21得票数 0

1回答

Jsoup没有剥离转义的html字符

、、

我有一个标准的json结构，其中的内容如下我使用jsoup去掉了输出的tags.However，如下所示Jsoup不能剥离具有转义字符的结束标记注意:标准的json数据格式会将/视为特殊字符并对其进行转义 java中有没有可以做到这一点的标准json库？

浏览 0提问于2018-03-17得票数 1

3回答

当链接有土耳其字母时，Jsoup连接不能正常工作

、、

我正在使用Jsoup从网站获取html。我在用Document doc=Jsoup.connect(url).get();Document doc=Jsoup.connect(url).get(); Jsoup发送请求如下："http://www.e

浏览 0提问于2014-01-15得票数 6

回答已采纳

1回答

使用jsoup读取HTML

、、

因此，我试图从使用Jsoup.connect(url)的网站上获取元素，但是与我在网站上使用检查器获得的HTML相比，我从获得的HTML还没有完成。编辑:，这是我正在使用的链接更新: 因此，我发现我想要的元素不会使用jsoup进行扩展，这与缓慢的页面加载有关吗？如果是这样的话，如何确保

浏览 0提问于2018-08-16得票数 1

2回答

JSoup:难以提取单个元素

、

在我的大学编码项目中，我的任务是从互联网上获取比特币的实时价值，并将其纳入一个迷你“比特币程序”。问题是我很难从某些网站中提取比特币的价值。任何和所有的帮助都将不胜感激。我试过使用不同的网站，结果好坏参半。final String url = "https://www.coindesk.com/price/bitcoin"; { Document doc = Jsoup.

浏览 3提问于2019-09-20得票数 0

回答已采纳

1回答

如何查询html键/值对的值？

、、、

如果我的条件不正确，很抱歉，我以前没有这样做过我不确定如何使用jsoup我尝试过使用getElementById

浏览 3提问于2019-12-19得票数 0

1回答

为什么我不能用GeckoView完全呈现html呢？

、、、

我试图从url中获取html并操作html，然后用GeckoView呈现它因此，我成功地从url获取html字符串，并仅用GeckoView呈现它。对于上面的代码</

浏览 1提问于2019-10-07得票数 0

1回答

是否可以使用localStorage值？

、、

在Chrome本地存储中，我看到变量(键值对)和文档内容取决于这个变量，我可以使用jsoup设置它吗？还是我应该用其他工具来做呢？ 

浏览 4提问于2022-04-22得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Jsoup不能完全获取原始的html代码

相关·内容

Jsoup不能完全获取原始的html代码

使用jsoup或任何其他库通过原始xpath从HTML中删除元素

Jsoup解析LOC

用于解析<script>标记的JSoup

如何从webview中获取html代码而不使用jsoup？

Jsoup不会解析整个html文档

查找在我的网页视图中加载的网站的语言

无法在HTML中打包表格

需要从外部页面获取特定数据

如何正确地使用Jsoup提取所需信息？

带有插件的Jsoup

如何通过servlet获取web浏览器上的html代码？

在没有Javascript的情况下移除android WebView中的html元素

Jsoup没有剥离转义的html字符

当链接有土耳其字母时，Jsoup连接不能正常工作

使用jsoup读取HTML

JSoup:难以提取单个元素

如何查询html键/值对的值？

为什么我不能用GeckoView完全呈现html呢？

是否可以使用localStorage值？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐