使用xpath/lxml抓取文本

、、、、

我正在尝试使用xpath/lxml从中抓取文本" 2005 -2013“中的”2005- 2013“，并且只能在这个站点上的其他一些页面上这样做，而不是这个页面。不确定我做错了什么/我从元素复制的xpath是否不正确print(content_divs[0].text_content().strip())下面是我的代码： import requests, lxml<

浏览 0提问于2017-07-27得票数 3

回答已采纳

2回答

如何使用lxml，XPath和Python从网页中提取链接？

、、、、

我得到了这个xpath查询：它提取所有带有标题属性的链接-并在中给出href。但是，我似乎不能在lxml中使用它。from lxml import etreehyperlin

浏览 0提问于2010-01-18得票数 5

回答已采纳

1回答

lxml在从元素检索文本时不考虑css样式

、、、、

我正在测试selenium + chrome和requests + lxml的一些抓取目的。我有兴趣收到一些短信。使用selenium + chrome时，我可以执行以下操作：return element.text.strip()elements = self.

浏览 0提问于2019-01-12得票数 1

2回答

获取包含文本的标签的最快方法

、

我需要使用lxml.html抓取所有包含文本的标记。我一直在使用{e.tag for e in doc.xpath('.//*[text()= true()]')}，但是lxml中的通配符和text()查询都是出了名的慢。有没有更快的方法。

浏览 0提问于2013-02-04得票数 0

回答已采纳

1回答

从一个站点返回的数据，而不是从另一个站点返回的数据

、、、

这个返回[[]]import requests 我希望它做的是给我一个列表，其中包含页面上每个offer_title元素的文本。我从Firebug抓取的xpath是： /html/body/div1/d

浏览 1提问于2017-04-21得票数 1

回答已采纳

1回答

在没有BeautifulSoup的Python语言中将HTML表解析为列表

、、

我想知道是否有一种方法可以从HTML表中提取数据，并仅使用HTMLParser将其解析到字典中。由于某种原因，我不能做这件事..

浏览 1提问于2012-03-04得票数 0

1回答

Python抓取xpath不适用于特定站点/表

、、、、

我在尝试从url的表中抓取数据时遇到问题： import urllib2import lxmlimport lxml.etree url = 'httpintr

浏览 0提问于2014-01-18得票数 0

1回答

无法按位置或属性匹配时，提取BeautifulSoup中的标签值

、

我正在使用BS来抓取网页，但我遇到了一个小问题。下面是页面中的一段HTML代码。我不能将标记与style属性匹配，因为它在页面中的十几个地方使用。我甚至不知道span标记的确切位置，因为它的位置会从一个页面改变到另一个页面。因此，我不能通过位置匹配。

浏览 7提问于2010-08-06得票数 2

1回答

如何使用XPath选择HTML表上方的文本？

、

下面是我正在使用的HTML。我删除了一些与这个问题无关的行，比如表中的内容。 </div> 我现在有这个XPath我尝试过使用'./ancestor::div[1]/text()'，尽管

浏览 3提问于2022-08-26得票数 0

回答已采纳

2回答

Python xpath查询不返回文本值

、、、

我正在尝试使用Python中的lxml模块从中抓取数据。我想获取第一段中的文本，但下面的代码返回空值import requests tree = html.fromstring(page.tex

浏览 3提问于2015-07-09得票数 1

1回答

使用BeautifulSoup抓取时出现问题

、、

我正在尝试使用BeautifulSoup抓取url torrents获取该页面上的所有

浏览 16提问于2011-07-03得票数 0

2回答

抓取数据python

、

我使用python和lxml，但似乎没有返回a标记中的字符串。request = requests.get(self.url) league = tree.xpath

浏览 3提问于2015-03-10得票数 0

回答已采纳

1回答

使用Python中的美观汤从元素中获取文本值

、

我正在制作python脚本，它从在线站点获取文本数据。这是一个简单的web抓取脚本，语言只是python。我不使用硒，只使用漂亮的汤。而且我可以从<p>或<div>，甚至<h>和<a>中抓取文本，但是当我试图从<td>获取文本时，代码不起作用。下面我分享了我的代码。from threading import Thread

浏览 5提问于2021-07-16得票数 1

回答已采纳

1回答

我只是在找一些关于python web抓取的信息。我正在尝试从时间表中获取所有数据，我想让课程与其开始的时间联系起来。查看html，有多个表(表中的表)。我计划将Google App Engine与Python (或许也包括BeautifulSoup )一起使用。对最好的方法有什么建议吗？谢谢我已经设法使用以下代码从表中提取了所需的数据：from lxml import etree url = "http://ttcac

浏览 0提问于2013-03-15得票数 1

回答已采纳

3回答

web解析内容的lxml长度

、、

我用Python语言中的lxml抓取网页。然而，为了获得表行的数量，我首先获得所有行，然后使用len()函数。我觉得这太浪费了，有没有其他方法来获取他们的数字(动态1)，以便进一步抓取？import lxml.htmltry:except SkipException: pass #get the t

浏览 3提问于2012-09-22得票数 0

回答已采纳

2回答

使用请求和lxml的html抓取在location>处生成<元素x，而不是位于该节点的文本

、、、、

我正在创建一个Python程序，使用lxml和请求从网站抓取文本。但是，当我导航到正确的节点时，我的代码生成一个元素标签，而不是位于该节点的文本。# import packagesimport requests ficUrl = 'https10847788/' page = requests.get(ficUrl)

浏览 18提问于2019-04-21得票数 0

1回答

我可以将lxml* div对象转换为字符串吗？*

、

我正在编写一个从网站上抓取文本的程序。是否可以将此div标记转换为字符串，以便更容易格式化？from lxml import etreeelement = etree.HTML(requests.get('a website')).xpath('//div')

浏览 1提问于2018-07-22得票数 0

1回答

如何在这个抓取器程序中使用lxml提取文本？

、、、

我正在尝试从这个页面上的特定元素中抓取文本数据(使用scraperwiki)from lxml import html owner = tree.xpath('/html/td[2]')

浏览 3提问于2013-07-25得票数 0

1回答

下载HTML时未出现URL如何刮除？Javascript在这里可能是个问题

、、、、

但是它们中的一些不在HTML上，无法使用请求和lxml进行抓取。我不想使用selenium/bs4 4/美观so，因为代码将在Heroku服务器上运行，因此会使一切变得更加困难。我想要抓取的URL是在div之后使用以下两个类:容器和false。这是强制性的。在div上没有类"false“的其他URL可以很容易地抓取。urls = doc.xpath

浏览 4提问于2022-03-11得票数 1

回答已采纳

2回答

如何在python中不使用[‘']来显示

、、、

我正在用python中的lxml抓取一个网页import requeststree=html.fromstring(page.text)print name我想显示：Matthew 有什么解决办法吗？

浏览 3提问于2014-11-20得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何使用lxml，XPath和Python从网页中提取链接？

lxml在从元素检索文本时不考虑css样式

获取包含文本的标签的最快方法

从一个站点返回的数据，而不是从另一个站点返回的数据

在没有BeautifulSoup的Python语言中将HTML表解析为列表

Python抓取xpath不适用于特定站点/表

无法按位置或属性匹配时，提取BeautifulSoup中的标签值

如何使用XPath选择HTML表上方的文本？

Python xpath查询不返回文本值

使用BeautifulSoup抓取时出现问题

抓取数据python

使用Python中的美观汤从元素中获取文本值

具有多个表的时间表Web抓取(Python)

web解析内容的lxml长度

使用请求和lxml的html抓取在location>处生成<元素x，而不是位于该节点的文本

我可以将lxml* div对象转换为字符串吗？*

如何在这个抓取器程序中使用lxml提取文本？

下载HTML时未出现URL如何刮除？Javascript在这里可能是个问题

如何在python中不使用[‘']来显示

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐