JSoup未从带有锚点的URL读取内容

JSoup 是一个 Java 库，用于解析 HTML 文档并提取数据。如果你在使用 JSoup 时遇到无法从带有锚点的 URL 读取内容的问题，可能是由于以下几个原因：

基础概念

JSoup: 一个用于解析 HTML 文档的 Java 库，提供了非常方便的 API 来提取和操作数据。
锚点 (Anchor): 在 URL 中，# 后面的部分称为锚点，用于直接定位到页面中的某个位置。

可能的原因

服务器端问题: 服务器可能不支持或未正确处理带有锚点的请求。
客户端问题: JSoup 可能默认忽略 URL 中的锚点部分。
网络问题: 网络不稳定或请求被拦截。

解决方法

以下是一些解决方法，帮助你确保 JSoup 能够正确读取带有锚点的 URL 内容：

方法一：忽略锚点

JSoup 默认情况下会忽略 URL 中的锚点部分。你可以通过设置 ignoreHttpErrors 和 followRedirects 来确保请求能够正确处理：

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;

public class JSoupExample {
    public static void main(String[] args) {
        try {
            String url = "http://example.com/page#anchor";
            Document doc = Jsoup.connect(url)
                                .ignoreHttpErrors(true)
                                .followRedirects(true)
                                .get();
            System.out.println(doc.title());
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

方法二：手动处理锚点

如果你需要处理锚点，可以先去掉锚点部分，获取完整页面内容后再手动定位到锚点位置：

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class JSoupExample {
    public static void main(String[] args) {
        try {
            String url = "http://example.com/page#anchor";
            String cleanUrl = url.split("#")[0]; // 去掉锚点部分
            Document doc = Jsoup.connect(cleanUrl).get();

            // 手动定位到锚点位置
            String anchorId = url.split("#")[1];
            Element anchorElement = doc.getElementById(anchorId);
            if (anchorElement != null) {
                System.out.println("Found anchor element: " + anchorElement);
            } else {
                System.out.println("Anchor element not found.");
            }
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

方法三：检查服务器响应

确保服务器能够正确处理带有锚点的请求。你可以使用浏览器的开发者工具或命令行工具（如 curl）来检查服务器响应：

curl -I http://example.com/page#anchor

应用场景

网页抓取: 从网页中提取特定部分的数据。
自动化测试: 模拟用户行为，验证页面跳转和内容加载。

优势

简单易用: JSoup 提供了简洁的 API，便于快速上手。
功能强大: 支持 HTML 解析、DOM 操作、CSS 选择器等功能。

通过以上方法，你应该能够解决 JSoup 无法从带有锚点的 URL 读取内容的问题。如果问题依然存在，建议检查网络环境和服务器配置。

JSoup未从带有锚点的URL读取内容

、

我正在使用JSoup从以下页面读取内容： https://www.astrology.com/horoscope/daily/aries.html#Monday 这是我使用的代码： String test1String test2 = "https://www.astrology.com/horoscope/daily/aries.html#Tuesday"; Document document = <

浏览 30提问于2021-03-23得票数 0

回答已采纳

1回答

读取锚点JSoup中的数据

、

我正在编写一段代码，其中我希望从相同的tr中获取td字符串和锚文本： <td class='labelOptional_1'>TD1 text here</td>当前输出：TD2 text here Relative_URL_2 TD3 text here Relative_URL</em

浏览 1提问于2017-05-16得票数 0

1回答

用于读取javascript生成的内容的java解析器

、、、

我使用jsoup通过以下函数读取网页。public Document getDocuement(String url){ try { } catch (Exception e) {return null;

浏览 0提问于2014-05-07得票数 2

回答已采纳

1回答

使用ASP Web窗体的单页应用程序

、、

我需要使用这样的导航模式：

浏览 3提问于2013-06-05得票数 1

回答已采纳

1回答

使用Jsoup找不到某些html元素

、、、、

我试图找到元素对应的“应用”按钮在这个页面(https://gwlabs.taleo.net/careersection/gw_ext_career_section/jobsearch.ftl)使用Jsoup我已经尝试列出所有的锚元素并打印它们的文本，我看不到任何带有文本“应用”的元素。输出结果如下锚点文本已登录锚的文本是职位搜索锚的<

浏览 84提问于2019-05-20得票数 0

回答已采纳

1回答

如何使用java单击网页上的超链接而不打开浏览器中的页面

、、

因此，我试图制作一个文件下载程序，它将根据超链接的内容下载文件，或者称为？中的超链接。这是我一直在尝试的事情，但我总是出错403。我该怎么解决这个问题？注意:这确实使用了JSoup库。Document doc = Jsoup.parse(new URL(y

浏览 6提问于2015-06-04得票数 2

回答已采纳

2回答

如何重新加载页面并跳转到锚点？

当页面从服务工作者那里收到消息时，我试图刷新它，当看到新的内容时(这就是页面刷新时锚应该跳到的内容)。所以想象一下我有这些：var anchor = '#comment-45';这不会重新加载页面，只是尝试跳转到不存在的

浏览 0提问于2020-01-21得票数 2

1回答

书签锚链接，以便在完成之前先加载另一个页面？

、

问题:链接到锚书签是否可以通过先加载另一个页面到达其目的地？我正在开发一个垂直滚动风格的网站，其中主页显示的内容，其他3个网页的章节或div。每个部分都有一个书签和一个“返回到顶部”链接，我的主导航菜单使用自定义书签锚链接。我也使用thejQuery平滑滚动插件，这是非常好的工作。我想解决的问题是，如果您不是在主页上，而是另一个页面(如博客页面)，并且您点击了书签链接，那么平滑的滚动效果就无法工作。它就直接在那里跳。书签链接是否可以

浏览 0提问于2013-05-27得票数 0

2回答

Android/Java: Html抓取，来自Spotify的regex专辑画面

、、、、

我正在做一个项目，这个项目需要我从open.spotify中抓取一个指向相册图片的图像链接在本例中，我要查找这个标记：<img id="cover-art" src="http://o.scdn.co/image/ff3874d40abf6e6e7763e39bdb2003cf503cba10"> 作为正则表达式的输出，我希望是这样：http://o.scdn.co/image/ff3874d40abf6e6e7763

浏览 1提问于2012-05-22得票数 2

4回答

用Java编写脚本，定期从网站请求数据

、、

我正在做一个项目，该项目要求我使用加拿大边境巡逻队在其上提供的有关边境等待时间的信息，以构建等待时间分布的可视化表示。我正在尝试找到一种方法，让Java脚本定期检查网站，并在几个不同的边界站点(不是所有站点)提取信息。我想我会使用XPath来获取特定的站点，但是我如何定期加载网页呢？

浏览 1提问于2013-02-13得票数 5

回答已采纳

4回答

jsoup查询多个选择器

<a> <h3> </h3>还有比div > h1 > a，div > h2 > a，div > h3 > a更好的选择所有锚点的方法吗

浏览 1提问于2012-10-19得票数 12

回答已采纳

3回答

从Jsoup获取原始帖子回复

、、

我正在使用Jsoup将一个表单发布到一个网站，回复是纯文本的，但是内容类型对于Jsoup是未知的。因此，我使用ignoreContentType(true)，这样Jsoup就不会因为未知的内容类型而抛出异常。然而，我不知道如何从Jsoup获得原始回复，文本中包含一些特殊字符，Jsoups还添加了body和html标签--我不需要这些，我只想要原始回复。如何得到原始的回复？谢谢!

浏览 4提问于2012-03-26得票数 9

3回答

在字符串中存储HTML页面

、

我有一个网址，我需要它的HTML。我使用了下面这段代码。String url = "http://www.sears.com/search="+keywords;我注意到字符串jsp的内容与网页的实际源代码不同我相信当浏览器打开时，一个服务器端脚本(或者它正被重定向)正在被调用，这个脚本的输出就是我所看到的。你能告诉我一种获取页面实

浏览 2提问于2013-09-22得票数 0

1回答

使用Jsoup从页面获取元素

、

我想登录到https网站使用Jsoup，并进行随后的调用3-4服务，以检查一项工作是否已经完成。class JSOUPTester { System.out.println("Inside the JSOUPtesting method"); try{

浏览 2提问于2016-02-10得票数 1

回答已采纳

1回答

使用Jsoup获取锚点链接

、、、、

我正在使用以下命令获取hrefhrefLink就是在这里创建的。我想做的是，从当前网页获取传出链接，如果它们与我的条件相匹配。不幸的是，由于锚链，我不能总是得到传出链接，但我希望能够获得其他href的锚链是重定向到。我如何通过使用Jsoup来做到这一点呢？如果使用Jsou

浏览 0提问于2014-04-06得票数 0

1回答

如何获取HttpOnly cookie

、、、、

我需要在我的java代码中将HttpOnly cookie设置为会话cookie。为了获得非HttpOnly曲奇，我用了HttpOnly曲奇汤，但现在却被HttpOnly曲奇夹住了？备注:不知道这是否重要，但我想获得HttpCookies的站点是用ASP.net开发的。

浏览 2提问于2014-01-06得票数 1

1回答

带您转到锚点链接的UIView

、、、

我正在开发一个iPhone应用程序，我有我的超文本标记语言内容加载在一个UIWebview作为一个HTMLString，并希望有一个UIView，告诉UIWebview滚动到一个锚链接。我可以从已经加载的HTML内容滚动到锚点链接吗?否则我必须在URL中重新加载带有锚点链接的页面？fbr

浏览 0提问于2009-11-26得票数 1

3回答

如何配置jsoup白名单允许内部锚点

、

如何配置jsoup Whitelist以允许内部锚点引用，而不允许任何任意值？-- ... -->如果我试图用宽松的Whitelist清理代码，href就会被删除。Jsoup.clean(html, Whitelist.relaxed().addAttributes("a", "name", "target"); 返回以

浏览 1提问于2012-04-28得票数 4

2回答

响应:每一个符号都是垃圾(编码问题？)

、、

作为Android应用程序的一部分，我使用了一个基于的Java/Jsoup小程序。直到几周前，这实际上还不错，但现在当我分析结果时，我收到了非常奇怪的结果。这是我正在爬行的页面(所有错误都发生在登录之前)：Connection connection = JsoupJsoup.parse(ne

浏览 2提问于2014-11-28得票数 1

5回答

在IE上读取URL* Anchor*

、、

我有一个满是链接到另一个页面的页面，最后有锚点(就像这样: index.html#anchor)。在他们指向的页面上，我有一个脚本，它应该读取锚点指向的位置，以便显示一些内容。在火狐上它工作得很好，但我注意到IE似乎从url的末尾去掉了#锚，所以脚本无法抓取文本。有没有办法绕过这个问题，不需要任何服务器端代码？

浏览 0提问于2010-04-30得票数 9

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

JSoup未从带有锚点的URL读取内容

基础概念

可能的原因

解决方法

方法一：忽略锚点

方法二：手动处理锚点

方法三：检查服务器响应

应用场景

优势

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐