如何基于HTML从自己的博客中获取数据的最佳方式?
我有一个简单的博客新闻。每条新闻都与班级“新闻”放在一起。我希望每一个小时都能查看一下我在Android上的应用程序是否出现了新闻。我不想使用RSS和XML。
怎么做才是最好的办法?
发布于 2014-08-16 20:10:26
JSoup
是解决方案。
jsoup是一个用于处理真实HTML的Java库。它提供了一个非常方便的API来提取和操作数据,使用最好的DOM、CSS和jquery类方法。 jsoup实现了WHATWG HTML5规范,并将HTML解析为与现代浏览器相同的DOM。
我相信这将成为一个起点:
String html = "<p>An <a href='http://example.com/'><b>example</b></a> link.</p>";
Document doc = Jsoup.parse(html);
Element link = doc.select("a").first();
String text = doc.body().text(); // "An example link"
String linkHref = link.attr("href"); // "http://example.com/"
String linkText = link.text(); // "example""
String linkOuterH = link.outerHtml();
// "<a href="http://example.com"><b>example</b></a>"
String linkInnerH = link.html(); // "<b>example</b>"
更新:
正如hexafraction
所建议的,您可以使用RSS。这是一种格式,定期变化的传送网络内容,如新闻等,并被许多网站普遍使用,以帮助他们的用户保持最新。它以XML格式传递有关内容的信息,如标题、描述、链接等,您可以解析XML格式以向用户显示数据。
编写XML解析器来解析RSS将比使用JSoup
解析HTML容易得多。这篇about.com文章将帮助您将RSS添加到您的网站。
https://stackoverflow.com/questions/25343484
复制相似问题