抓取Linkedin时使用什么: Xpath还是CSS选择器？

在抓取LinkedIn数据时，选择使用XPath还是CSS选择器取决于多个因素，包括目标元素的复杂性、可读性以及个人偏好。以下是对这两种方法的详细解释及其应用场景：

XPath

基础概念： XPath是一种在XML文档中查找信息的语言，也可以用于HTML文档。它使用路径表达式来选择节点或节点集。

优势：

灵活性高：XPath提供了丰富的函数和操作符，能够处理复杂的查询需求。
精确选择：可以通过元素的属性、文本内容等进行精确匹配。
层级选择：支持多级路径选择，适合复杂的DOM结构。

类型与应用场景：

绝对路径：从根节点开始指定路径，适用于结构简单且固定的页面。
相对路径：从当前节点开始查找，适用于动态变化的页面。
使用函数：如text()、contains()等，适合需要复杂逻辑匹配的场景。

示例代码：

from lxml import html
import requests

page = requests.get('https://www.linkedin.com')
tree = html.fromstring(page.content)

# 使用XPath选择特定元素
elements = tree.xpath('//div[@class="profile-card"]//h2/text()')
for element in elements:
    print(element)

CSS选择器

基础概念： CSS选择器用于在HTML文档中选择元素，并为其应用样式。在抓取数据时，也可以用来定位特定的元素。

优势：

简洁易读：语法简洁，便于理解和维护。
性能较好：某些解析器（如BeautifulSoup）对CSS选择器的优化较好。
广泛支持：几乎所有现代浏览器和解析库都支持CSS选择器。

类型与应用场景：

类选择器：通过元素的class属性选择元素。
ID选择器：通过元素的ID属性选择元素。
标签选择器：直接通过HTML标签名选择元素。
组合选择器：结合多种选择器进行更精确的选择。

示例代码：

from bs4 import BeautifulSoup
import requests

page = requests.get('https://www.linkedin.com')
soup = BeautifulSoup(page.content, 'html.parser')

# 使用CSS选择器选择特定元素
elements = soup.select('.profile-card h2')
for element in elements:
    print(element.text)

选择建议

如果页面结构复杂且需要精确匹配，建议使用XPath，因为它提供了更多的灵活性和功能。
如果追求代码的可读性和简洁性，CSS选择器更为合适。

常见问题及解决方法

元素动态加载：LinkedIn页面可能使用JavaScript动态加载内容，这时可以使用Selenium等工具模拟浏览器行为来获取完整页面。
反爬虫机制：LinkedIn有严格的反爬虫措施，可能需要设置合适的请求头、使用代理或控制抓取频率来避免被封禁。

总之，选择XPath还是CSS选择器应根据具体需求和场景来决定，两者各有优劣，合理运用可以提高抓取效率和准确性。

抓取Linkedin时使用什么: Xpath还是CSS选择器？

我想要抓取Linkedins的活动帖子--评论、浏览量等等。选择哪种selenium方法: Xpath还是CSS？我正在尝试使用Xpath来做这件事，但我有一种奇怪的感觉，它正在根据配置文件、语言和chrome版本而变化……一般情况下该怎么做呢？有人能给点建议吗？

浏览 26提问于2020-08-26得票数 0

1回答

使用，XPath元素不存在，尽管Google检查元素显示它确实存在

、、、

根据Scrapy的响应，我遇到了一个问题，在这个问题中，我试图使用他们的XPath选择的元素不存在。然而，当我在Google上查看同一个页面时，元素确实存在。这个问题发生在使用LinkedIn高级搜索和获取结果页面之后的LinkedIn抓取上。我想刮掉结果容器中的链接。当我使用Scrapy response.xpath('//div@id="results-container')，<e

浏览 2提问于2015-07-08得票数 0

回答已采纳

1回答

为什么我从css和xpath选择器得到不同的答案？

、、、

我正在尝试使用scrapy抓取以下链接。给出 ['Comments filed by Southern CaliforniaCompany on 06/24/

浏览 0提问于2021-06-28得票数 0

1回答

从xpath/css获取输出的困难

、、、、

下面是我正在抓取的一个示例链接：我正在尝试获取互联网号码，我尝试了css和xpathproductOMS = product.xpath("//span[@id='product_ID']").getall()productOMS = product.css(".product_internet_number::text").getall() 下面是我想要抓取的html

浏览 4提问于2020-03-05得票数 0

回答已采纳

1回答

选择器属性在ItemLoader对象中的用途和用途是什么？

、、、

当使用选择器或响应实例化时，它支持使用选择器从网页中提取数据。Parameters item (scrapy.item.Item) --使用对add_xpath()、add_css()或add_value()的后续调用填充项实例。选择器(选择器对象)-使用add_xpath()、add_css()、replace_xpath()或replace_css</

浏览 4提问于2022-09-12得票数 1

回答已采纳

1回答

网络抓取新技术--是否可以使用路径定位css图像？

、、、

我对网络抓取是新的，我甚至缺乏基本的网络抓取/网络选择器的概念。是否可以使用XPath (使用selenium)定位CSS图像？我知道有一种通过xpath定位html图像元素的方法，但我不确定CSS中是否存在这种情况. 谢谢,

浏览 2提问于2013-12-10得票数 0

回答已采纳

2回答

xpath转义<>中的所有内容，如何解决这个问题？刮痕

、、、

当用Scrapy抓取时，在使用<>而不是«»的字符串中刮取文本时，一切都会丢失。使用xpath和css选择器也会发生同样的情况。item = the_item.css('h3.class::text').get() item = the_item.xpath('

浏览 0提问于2019-08-18得票数 1

回答已采纳

1回答

Scrapy xpath不工作--只与css-selector结合使用？

、、、、

我尝试使用scrapy抓取以下站点，并尝试使用scrapy shell - 这是基本的爬虫： import scrapy namexpath获得了所有相关的部分：(当我尝试len(tmpSEC)时，我得到了30，这对我来说似乎还可以) tmpSEC = response.xpath("//section[@data-automation='AppPresentation_S

浏览 58提问于2021-11-16得票数 1

回答已采纳

1回答

使用xpath支持的刮取框架

、、

我在找一个网络抓取框架让我有什么建议吗？我见过许多允许我使用xpath进行搜索的方法，但是没有一个能真正为元素生成xpath。

浏览 2提问于2015-06-29得票数 1

回答已采纳

2回答

点击字体棒按钮python & selenium

、、

当我右击并‘检查元素’时，ID标签就是我当前选择的标签。任何帮助都将非常感谢，谢谢。webdriver.Chrome()time.sleep(2)click()driver.close() 用于字体按钮的HTML

浏览 0提问于2018-07-16得票数 0

1回答

如何配置Scrapy以使用BeautifulSoup解析器

、、、

我使用BeautifulSoup的默认html.parser从任何网页中提取数据，没有什么原因让我觉得它比使用XPATH/CSS选择器更灵活、更强大。在抓取之前，我学习了使用BeautifulSoup进行网络抓取。我想不出一种让Scrapy使用bs4作为解析器的方法。有可能吗？

浏览 2提问于2019-08-18得票数 0

回答已采纳

2回答

如何获得与Scrapy一起使用的正确选择器(CSS/XPath)？

、、、、

我想从这个网站上抓取信息： (全国驾驶学校列表)，在地图上映射邮政编码和公司名称(我已经从邮政编码映射到坐标)，以找到学校聚集区。最佳结果将是一个选择器，它提取710家公司()的所有相关信息。我已经尝试复制了想要的表()的CSS "selector“和，但是在Scrapy中运行CSS选择器/ XPath时，它什么也不返回。复制的CSS选择器示例，该选择器在Scrapy shell

浏览 2提问于2020-04-04得票数 0

回答已采纳

1回答

Scrappy选择器上的Scrappy迭代

、、、、

我正在尝试抓取一个使用调用HTML的API的网站，因此为此，我需要抓取API，然后从API抓取HTML结果我已经使用这篇文章设法获得了API响应，并从中获得了HTML。json.loads(response.text) selector= scrapy.Selector(text=resp['results'], type="html") 而且它工作得很好，当我试图从页面获取属性时，我可以使用CSS或X

浏览 10提问于2020-12-16得票数 1

2回答

使用CSS选择器查找存储在javascript元素中的某些数据

、、、、

我正在做一些网络抓取(与网站所有者的ok )，并遇到了一些数据，当滑块移动时更新。

浏览 0提问于2013-08-08得票数 0

1回答

如何使用R-selenium单击展开列表

、

现在我正在尝试从this website中抓取数据。我想使用selenium单击此"View all updates" button。我使用了SelectorGadget和XPath helper来查找css选择器和它的xpath，但是这两个都失败了。我的代码如下： loadmore <- remDr$findElement(using = 'css selector', ".js-toggle-

浏览 22提问于2020-07-22得票数 0

2回答

重复使用Xpath而不是scrapy中的CSS选择器。

、、、

当使用CSS选择器时，我正在尝试刮掉中每个引号的文本、作者和标记，如上面提到的： print quote.css('span.text::text').extract() print quote.css</em

浏览 5提问于2016-10-02得票数 1

回答已采纳

2回答

有没有类似于lxml或nokogiri for Java的库？

、

我想做一些屏幕抓取，理想情况下使用CSS选择器，而不是XPath。有没有类似于Ruby或Python中的库？

浏览 1提问于2010-01-23得票数 9

回答已采纳

1回答

无法使用Scrapy从下拉列表中进行抓取

、、、

我正在尝试从网站上嵌入的JS下拉列表中抓取市场列表：https://e27.co/startups 使用scrapy shell，我试图从“markets”下拉菜单中抓取市场列表，但无法这样做。在运行了scrapy shell 'https://e27.co/startups'之后，我尝试了同时使用response.css()和response.xpath()。对于css选择器</e

浏览 9提问于2019-06-13得票数 0

回答已采纳

1回答

抓取html表rvest时遇到问题

、、、

尝试使用rvest将https://www.cefconnect.com/closed-end-funds-daily-pricing抓取到R数据帧中。继续尝试各种css和xpath选择器，但无法收集主数据表。使用了'table‘、'tbody’、'td‘和'tr xpath选择器，但没有成功。两列是超链接，其余是静态文本。www.cefconnect.com/close

浏览 7提问于2019-01-07得票数 0

1回答

Python3抓取网爬虫

、、、、

对于我的工作，我必须写一个爬虫，它只保存页面的标题，交付状态和产品的数量。import scrapy name = "quotes" urls = [

浏览 2提问于2020-07-20得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

抓取Linkedin时使用什么: Xpath还是CSS选择器？

XPath

CSS选择器

选择建议

常见问题及解决方法

相关·内容

抓取Linkedin时使用什么: Xpath还是CSS选择器？

使用，XPath元素不存在，尽管Google检查元素显示它确实存在

为什么我从css和xpath选择器得到不同的答案？

从xpath/css获取输出的困难

选择器属性在ItemLoader对象中的用途和用途是什么？

网络抓取新技术--是否可以使用路径定位css图像？

xpath转义<>中的所有内容，如何解决这个问题？刮痕

Scrapy xpath不工作--只与css-selector结合使用？

使用xpath支持的刮取框架

点击字体棒按钮python & selenium

如何配置Scrapy以使用BeautifulSoup解析器

如何获得与Scrapy一起使用的正确选择器(CSS/XPath)？

Scrappy选择器上的Scrappy迭代

使用CSS选择器查找存储在javascript元素中的某些数据

如何使用R-selenium单击展开列表

重复使用Xpath而不是scrapy中的CSS选择器。

有没有类似于lxml或nokogiri for Java的库？

无法使用Scrapy从下拉列表中进行抓取

抓取html表rvest时遇到问题

Python3抓取网爬虫

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐