关于使用Jsoup清理HTML的问题,可以使用Jsoup的Cleaner
类来实现。Cleaner
类可以帮助您清理不安全或不需要的HTML元素,同时保留所需的HTML内容。
以下是一个使用Jsoup清理HTML的示例代码:
import org.jsoup.Jsoup;
import org.jsoup.safety.Cleaner;
import org.jsoup.safety.Whitelist;
public class JsoupExample {
public static void main(String[] args) {
String html = "<h1>Hello, <span style=\"color:red\">Jsoup</span>!</h1>";
String cleanHtml = cleanHtml(html);
System.out.println("Original HTML: " + html);
System.out.println("Cleaned HTML: " + cleanHtml);
}
public static String cleanHtml(String html) {
// 创建一个Cleaner对象
Cleaner cleaner = new Cleaner(new Whitelist().addTags("span"));
// 使用Cleaner对象清理HTML
String cleanHtml = cleaner.clean(html);
return cleanHtml;
}
}
在这个示例中,我们创建了一个Cleaner
对象,并使用Whitelist
对象指定允许保留的HTML标签。在这个例子中,我们只允许保留<span>
标签。然后,我们使用Cleaner
对象的clean
方法清理HTML,并返回清理后的HTML。
运行这个示例代码,您将看到以下输出:
Original HTML: <h1>Hello, <span style="color:red">Jsoup</span>!</h1>
Cleaned HTML: <span>Jsoup</span>
在这个示例中,我们成功地清理了HTML,只保留了<span>
标签,同时删除了其他不需要的HTML元素。
您可以根据需要修改Whitelist
对象,以保留或删除不需要的HTML元素。更多关于Jsoup的使用方法和示例,请参考Jsoup的官方文档:https://jsoup.org/
领取专属 10元无门槛券
手把手带您无忧上云