我正在尝试从包含java脚本的网站读取节点。
在VB .NET中,我只使用了以下代码:
Dim listSpan As IHTMLElementCollection = bodyel.getElementsByTagName("span")
For Each spanItem As IHTMLElement In listSpan
If spanItem.className & "" = "span_name" Then
在我的Java应用程序中,我需要分析HTML。直到现在,我使用了JSoup,它运行得很好。但是现在,我需要从HTML字符串中获得干净的文本,另外,还需要从已删除的标记的位置。例如,如果我有
Some HTML <b id="boldtext">text</b>
所需的输出是
Some HTML text
还有信息,从位置10到14有一个b标签(我需要标签的位置,就好像没有标签一样),标签上有id“粗体”。
(我希望我能清楚地说明我需要什么,我不太擅长解释--这类似于问题,但我也需要找到的标记的属性,它是Java,而不是Python)
我想用JSoup来做
我正在尝试解析页面(任何页面动态解析器)。代码是
Elements title = doc.select("title");
Elements metades = doc.select("meta[name=description]");
如你所见,我想提取title标签。
它在大约每个网站上都工作得很好,例如hinddroid.com,但它无法从google.com和youtube.com解析标题,我认为这是因为两个标签之间没有空格。大多数大型网站都没有在html中留出空间来节省带宽。请推荐我-我想从网站解析html。
完整代码:
import java.io
如何选择第一个div,我使用了div>*,它选择了所有的div,我只想要第一个div里面的标签。请协助。
String htmlString =
"<html><div><div><div><p><b>This is first line</b></p> </div><b>This is second line</b></div><div><span style=\"color:blue\">
我正在开发一个android应用程序,在该应用程序中,我正在使用android中的Jsoup从一个网站解析html内容。
<meta name="title" content="Notices for the week - Holy Family Church, Pestom Sagar" />
为此,我写道:
@Override
protected Void doInBackground(Void... params) {
try {
// Connect to the we