问网页内容刮取问题/汽车交易网站
EN

Stack Overflow用户

提问于 2017-04-15 11:13:49

回答 1查看 313关注 0票数 0

问题

我想租一些特定的网站(汽车销售平台)。

坦白地说，CSS太让我迷惑了，以至于我无法自己找出问题所在。

#### scraping the website www.otomoto.pl with used cars #####

baseURL_otomoto = "https://www.otomoto.pl/osobowe/?page="

i <- 1

for ( i in 1:7000 )
{
  link = paste0(baseURL_otomoto,i)
  out = read_html(link)
  print(i)
  print(link)

  ### building year 
  build_year  = html_nodes(out, xpath = '//*[@id="body-container"]/div[2]/div[1]/div/div[6]/div[2]/article[1]/div[2]/div[3]/ul/li[1]') %>%
    html_text() %>%
    str_replace_all("\n","") %>%
    str_replace_all("\r","") %>%
    str_trim()

  mileage  = html_nodes(out, xpath = '//*[@id="body-container"]/div[2]/div[1]/div/div[6]/div[2]/article[1]/div[2]/div[3]/ul/li[2]') %>%
    html_text() %>%
    str_replace_all("\n","") %>%
    str_replace_all("\r","") %>%
    str_trim()

  volume  = html_nodes(out, xpath = '//*[@id="body-container"]/div[2]/div[1]/div/div[6]/div[2]/article[1]/div[2]/div[3]/ul/li[3]') %>%
    html_text() %>%
    str_replace_all("\n","") %>%
    str_replace_all("\r","") %>%
    str_trim()

  fuel_type  = html_nodes(out, xpath = '//*[@id="body-container"]/div[2]/div[1]/div/div[6]/div[2]/article[1]/div[2]/div[3]/ul/li[4]') %>%
    html_text() %>%
    str_replace_all("\n","") %>%
    str_replace_all("\r","") %>%
    str_trim()


  price = html_nodes(out, xpath = '//div[@class="offer-item__price"]') %>%
    html_text() %>%
    str_replace_all("\n","") %>%
    str_replace_all("\r","") %>%
    str_trim()

  link = html_nodes(out, xpath = '//div[@class="offer-item__title"]') %>%
    html_text() %>%
    str_replace_all("\n","") %>%
    str_replace_all("\r","") %>%
    str_trim()

  offer_details = html_nodes(out, xpath = '//*[@id="body-container"]/div[2]/div[1]/div/div[6]/div[2]/article[1]/div[2]/div[3]/ul') %>%
    html_text() %>%
    str_replace_all("\n","") %>%
    str_replace_all("\r","") %>%
    str_trim()

有人猜测这种行为的原因是什么？

PS#1.

如何将所有build_type、里程和fuel_type数据作为data.frame从分析过的网站上一次获得？使用类(xpath =‘//div[@class=.])在我的案子里没有用

PS#2.

我想用f.i获取实际报价的细节。

gear_type = html_nodes(out, xpath = '//*[@id="parameters"]/ul[1]/li[10]/div') %>%
    html_text() %>%
    str_replace_all("\n","") %>%
    str_replace_all("\r","") %>%
    str_trim()

争论

在ula中表示a in (1:2) &
在lib中是b in (1:12)

不幸的是，尽管这个概念失败了，因为生成的数据框架是空的。有猜到原因吗？

web

web-scraping

rvest

web-scripting

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-04-29 04:23:57

首先，了解CSS选择器和XPath。你的选择器很长，而且非常脆弱(其中一些对我来说根本没用，仅仅两周后)。例如，而不是：

html_nodes(out, xpath = '//*[@id="body-container"]/div[2]/div[1]/div/div[6]/div[2]/article[1]/div[2]/div[3]/ul/li[1]') %>%
    html_text()

你可以写：

html_nodes(out, css="[data-code=year]") %>% html_text()

第二，阅读您使用的库的文档。str_replace_all模式可能是正则表达式，它为您节省了一个调用(使用str_replace_all("[\n\r]", "")而不是str_replace_all("\n","") %>% str_replace_all("\r",""))。html_text可以为您进行文本修整，这意味着根本不需要str_trim()。

第三，如果复制粘贴一些代码，退一步考虑函数是否是更好的解决方案；通常情况下是这样的。在您的情况下，我个人可能会跳过str_replace_all调用，直到数据清理步骤，然后在data.frame上调用它们，保存整个废弃的数据。

要从数据中创建data.frame，可以使用列名和内容调用data.frame()函数，如下所示：

data.frame(build_year = build_year,
    mileage = mileage,
    volume = volume,
    fuel_type = fuel_type,
    price = price,
    link = link,
    offer_details = offer_details)

或者只使用一列初始化data.frame，然后将进一步的向量添加为列：

output_df <- data.frame(build_year = html_nodes(out, css="[data-code=year]") %>% html_text(TRUE))
output_df$volume <- html_nodes(out, css="[data-code=engine_capacity]") %>%
  html_text(TRUE)

最后，您应该注意到，data.frame列必须都是相同的长度，而您所丢弃的一些数据是可选的。在写这个答案的时候，我很少有没有引擎容量和没有描述的报价。您必须连续使用两个html_nodes调用(因为单个CSS选择器将不匹配不存在的内容)。但即便如此，html_nodes也会悄悄地删除丢失的数据。这可以通过将html_nodes输出管道传输到html_node调用来解决：

current_df$volume  = out %>% html_nodes("ul.offer-item__params") %>% 
    html_node("[data-code=engine_capacity]") %>% 
    html_text(TRUE)

下面是我的循环内部处理方法的最后版本。只需确保在调用空data.frame之前初始化它，并将当前迭代的输出与最终数据框架(例如rbind)合并，否则每次迭代都会覆盖上一次迭代的结果。或者您可以使用do.call(rbind, lapply())，这是用于此类任务的惯用的R。

另外，在抓取大量快速变化的数据时，要考虑数据下载和数据处理的解耦步骤。假设有一个你没有考虑的角落情况，它会导致R终止。如果在迭代过程中出现这样的条件，您将如何进行？您停留在一个页面上的时间越长，您引入的副本就越多(因为更多的报价出现，而现有的报价被推倒在更多的页面上)，而更多的报价是您错过的(因为销售结束，要约永远消失)。

current_df <- data.frame(build_year = html_nodes(out, css="[data-code=year]") %>% html_text(TRUE))

current_df$mileage  = html_nodes(out, css="[data-code=mileage]") %>%
  html_text(TRUE)

current_df$volume  = out %>% html_nodes("ul.offer-item__params") %>% 
    html_node("[data-code=engine_capacity]") %>% 
    html_text(TRUE)

current_df$fuel_type  = html_nodes(out, css="[data-code=fuel_type]") %>%
  html_text(TRUE)

current_df$price = out %>% html_nodes(xpath="//div[@class='offer-price']//span[contains(@class, 'number')]") %>% 
  html_text(TRUE)

current_df$link = out %>% html_nodes(css = "div.offer-item__title h2 > a") %>% 
  html_text(TRUE) %>% 
  str_replace_all("[\n\r]", "")

current_df$offer_details = out %>% html_nodes("div.offer-item__title") %>% 
    html_node("h3") %>% 
    html_text(TRUE)