使用R进行Web抓取-看不到HTML

使用R进行Web抓取是指利用R语言进行网页数据的获取和提取。通过Web抓取，可以从网页中获取所需的数据，进而进行数据分析、数据挖掘等工作。

Web抓取的一般步骤如下：

发送HTTP请求：使用R中的相关函数，如GET()函数，发送HTTP请求到目标网页的URL。
获取网页内容：通过解析HTTP响应，获取网页的HTML内容。
解析HTML：使用R中的相关包，如rvest包或xml2包，对HTML进行解析，提取所需的数据。
数据处理：对提取的数据进行清洗、转换和整理，以便后续分析使用。
数据存储：将处理后的数据保存到本地文件或数据库中，方便后续使用和分享。

Web抓取在许多领域都有广泛的应用，例如市场调研、舆情监测、新闻爬取、数据采集等。通过抓取网页数据，可以获取大量的结构化和非结构化数据，为后续的数据分析和决策提供支持。

在腾讯云中，可以使用云服务器（CVM）来进行Web抓取任务。云服务器提供了稳定可靠的计算资源，可以运行R语言环境，并通过公网IP访问互联网上的网页。此外，腾讯云还提供了云数据库MySQL、云数据库MongoDB等存储服务，方便将抓取的数据进行存储和管理。

使用requests html从Python中的网页中提取特定元素

、、、

假设我正在看这个网页 https://openpaymentsdata.cms.gov/search/physicians/by-name-and-location?firstname=robert&lastname=b&city=Palo_Alto 我想提取该医生个人资料的链接，但当我尝试web抓取时，我找不到元素，即使使用CSS选择器也是如此。 from requests_html import HTMLSession firstname = 'robert' lastname = 'b' city = 'Palo_Alto

浏览 37提问于2021-06-24得票数 1

回答已采纳

1回答

R:我不想要隐藏的短信

、、

我在这个网站上做网络抓取： http://www.falabella.com.pe/falabella-pe/category/cat40536/Climatizacion?navAction=push 我只需要产品的信息：“品牌”、“产品名称”、“价格”。我可以得到这一点，但我也从一个旗帜与其他用户的类似产品的信息。我不需要它。但是当我进入页面的源代码时，我看不到那些产品。我觉得是通过javascript或者什么的：问题1: 如何在进行web抓取时阻止这些信息？，这增加了我不需要的产品。但在源代码中看不到这个部分。问题2:当提取价格“"\n\t\t\t\t

浏览 1提问于2015-05-30得票数 3

回答已采纳

1回答

页面项目不能用rvest抓取

、、

我开始使用R进行网络抓取，最近还做了一些练习。我目前正在浏览当地的易趣列表，在那里我能够抓取关于个人列表的文本信息。但是，我已经尝试了不同的选项，以同样抓取列表的浏览量。但是没有任何东西给我页面上显示的数字。页面链接如下 https://www.ebay-kleinanzeigen.de/s-anzeige/zahnpflege-fuer-hunde-und-katzen-extra-stark-gegen-mundgeruch/1281544930-313-3170 而页面浏览量在图片的右下角(当前为00044次) 我能够使用以下代码检索文本： pageURL <- read_ht

浏览 19提问于2019-12-23得票数 1

回答已采纳

1回答

使用python3请求的Web登录

、

我正试着从网上抓取一条新闻。我尝试通过python登录网站，这样我就可以完全访问整个网页。但是我已经看了这么多教程，但还是失败了。下面是代码。谁能告诉我为什么。我的代码中没有bug。但是我仍然看不到全文，这意味着我仍然没有登录。 ` url='https://id.wsj.com/access/pages/wsj/us/signin.html?mg=id-wsj&mg=id-wsj' payload={'username':'my_user_name', 'password':'******

浏览 2提问于2017-12-05得票数 1

1回答

如何用Python抓取JavaScript页面

、、、、

我正在尝试抓取patentsview.org，但我遇到了一个问题。当我尝试抓取这个页面时，它不能很好地工作。使用JavaScript从其数据库中获取数据的站点。我试着用requests-html包获取数据，但我不太明白。这是我尝试过的： # Import import re from bs4 import BeautifulSoup from requests_html import HTMLSession session = HTMLSession() # Set requests r = session.get('https://datatool.patentsview.or

浏览 18提问于2021-04-17得票数 0

1回答

如何使用Prometheus指标监控Grafana中的Flink Backpressure

、、、

Flink Web UI有一个出色的背压部分。但我看不到任何指标，由普罗米修斯记者给出，可以用来检测背压的相同方式为Grafana仪表盘。 ? 有没有办法在Flink Web UI之外获得相同的指标？使用此处描述的指标https://ci.apache.org/projects/flink/flink-docs-stable/monitoring/metrics.html。或者甚至有一个普罗米修斯刮刀来抓取web api？

浏览 68提问于2019-03-13得票数 2

回答已采纳

1回答

使用R和XPath获取单元格表中的文本

、

我是一个R和XPath的乞讨者，我正在尝试抓取CRAN中的对象，以了解抓取的工作原理。我想从的包中获取依赖项元素是"bitops，RCurl“ XPath应该是这一个/html/body/table/tbody/tr[4]/td[2] 这是我的R码 urlContent <- htmlParse("http://cran.r-project.org/web/packages/abc/index.html") xpathSApply(doc=urlContent,path="/html/body/table/tbody/tr[4]/td[2]")

浏览 2提问于2013-05-31得票数 0

回答已采纳

1回答

使用R和selectorgadget进行HTML抓取

我有一个下面的脚本，用于简单的html抓取。下面不会为这个特定的站点返回任何内容。在R和selectorgadget中使用html是新手，但我还有其他网站可以使用。我想知道为什么这个看不到元素。下面的图片在高亮显示的红色方框中有路径，我很好奇它是不是因为花哨的方框前的#而隐藏。任何提示和语言纠正都将是有帮助的，因为我仍在学习如何抓取html。 ? library(rvest) library(dplyr) library(tm) library(stringi) library(readr) url <- read_html('https://www.draftkings

浏览 26提问于2020-01-05得票数 0

回答已采纳

1回答

使用正则表达式从html标记中提取文本

、、

我刚接触web抓取和正则表达式。我知道了如何在html标签之间提取文本。问题是我不想要标签内的文本，比如class=“"，只想要标签之间的文本。我有： re.findall(r'(<h(.*?)</h(.*?)>)', html) 这给了我： <h1 class="title">Title</h1> 但我只想要:标题顺便说一下，我使用的是Python2.7.10和urllib2，然后重新导入。

浏览 3提问于2016-04-17得票数 1

1回答

findall中的findall对字符串无效

、

我试图在我抓取的HTML页面中搜索特定的字符串。我在bs4中使用了find_all()方法并提供了字符串参数，但它不起作用。网页：https://news.google.com/topics/CAAqJggKIiBDQkFTRWdvSUwyMHZNRGx6TVdZU0FtVnVHZ0pKVGlnQVAB?hl=en-IN&gl=IN&ceid=IN%3Aen from bs4 import BeautifulSoup import requests def search(soup):

浏览 34提问于2020-03-22得票数 0

回答已采纳

1回答

是否可以在电子应用程序之外运行python代码

、、、

所以我用javascript、html、css等创建了一个桌面电子应用程序，我有一个机器人，当用户点击一个按钮时，我想运行它，这个机器人是用python编写的。机器人所做的是使用selenium和chrome驱动程序进行web抓取，我只是想知道有没有一种方法可以将机器人及其源代码存储在客户端计算机之外，这样源代码就看不到了，同时仍然可以让客户端使用机器人进行web抓取。抱歉，如果这是一个菜鸟问题，我来自c++ & swift移动开发，我是CS专业的大三学生，所以我只是在自学新东西。

浏览 16提问于2021-04-13得票数 0

回答已采纳

2回答

如何在R中处理迭代过程中的错误问题？

、、

我在处理for循环中的错误时遇到了一个问题。在下面的代码中，我想要抓取数据表并将其集成为一个数据帧。在web抓取过程中，某些地址链接不起作用，web抓取会在抓取过程中停止和结束。(错误位置: doc = read_html(i，encoding = 'UTF-8') ) 我如何继续下一步的抓取过程并完成对整个向量的迭代，而忽略错误链接？ fdata = data.frame() n = 1 for (i in data$address) { doc = read_html(i, encoding = 'UTF-8') dtable = doc %&

浏览 17提问于2019-01-21得票数 0

回答已采纳

2回答

选择器节点缺失值时如何抓取数据

、

嗨，我正在尝试在R中从ebay抓取数据，我使用了下面提到的代码，但我遇到了一个问题，其中有一个特定选择器元素的缺失值，为了绕过它，我使用了一个for循环，如下所示(检查每个列表并给出丢失数据的数量)，因为抓取的数据较少，所以可以检查，但是当有大量数据需要抓取时如何操作。提前感谢 library(rvest) url<-"https://www.ebay.in/sch/i.html_from=R40&_sacat=0&LH_ItemCondition=4&_ipg=100&_nkw=samsung+j7" web<- read_ht

浏览 0提问于2017-09-28得票数 0

2回答

抓取R中的tbody类对象

、、、、

我对使用R进行web抓取是完全陌生的，我想抓取下表(图片)，它的行为就像tbody一样。如果我运行以下代码，我只看到标题，没有数据(捷克语网站)。我应该得到在CZK下订单的时间，价格，数量和数量。 library(rvest) library(dplyr) PSE_Page <- "https://www.pse.cz/detail/CZ0003519753?tab=detail-trading-data" Page <- read_html(PSE_Page) Our_table <- Page %>% rvest::html_nodes

浏览 0提问于2020-03-13得票数 0

1回答

用python抓取javascript生成的html

、、

我的代码： session = HTMLSession() r = session.get(url) result = r.html.find('.YD-Header') 如果类名= "YD-Header“，我可以这样抓取它。但是，我想用类名来抓取HTML元素： <td> class="Fw(500) Ta(end) Pstart(10px) Miw(60px)" </td> 如果我使用： result = r.html.find('.Fw(500)') 如何找到这个类(类名由空格和括号组成)？

浏览 4提问于2022-05-16得票数 0

1回答

用python无源抓取iframes

、、、、

我正在尝试从以下html文件中抓取iFrame (id=“id=”)的内容：我试着使用selenium和漂亮的汤，但是代码仍然看不到iFrame中的元素。有没有一种有效的方法从这个html文件中抓取上述iFrame的内容(最好不使用selenium)？

浏览 3提问于2020-05-27得票数 0

回答已采纳

1回答

使用R中的JavaScript抓取页面

、、、

我是R中的web抓取的新手，最近在引用javascript的网站上遇到了一个问题。我正在尝试从下面的网页中抓取数据，但没有成功。我相信javascript链接会阻止我访问该表。结果，带有函数"readHTMLTable“的R包"XML”出现null。 library(XML) library(RCurl) url <- "http://votingrights.news21.com/interactive/movement-voter-id/index.html" tabs <- getURL(url) tabs <- htmlParse(ur

浏览 1提问于2014-12-06得票数 1

1回答

使用BeatifulSoup从Oddschecker抓取网页

、、、

我以前可以使用BeautifulSoup从https://www.oddschecker.com/中抓取数据，然而，现在我得到的只是以下内容： import requests import bs4 result = requests.get("https://www.oddschecker.com/") result.text 输出： <html>\r\n<head><title>403 Forbidden</title></head>\r\n<body bgcolor="white">

浏览 18提问于2021-01-14得票数 1

2回答

HTML抓取的最佳可用选项是什么？

、、

我目前正在使用PHP与CURL和简单的HTML DOM分析器进行HTML抓取。我需要刮大量的内容，它需要存储。我使用PHP作为我的主要语言，使用MySQL作为存储DB，但是我对任何语言的选项都感兴趣，并且可以将它集成到我的工作流中。还有其他的HTML抓取包我应该调查吗？我听说过基于Python的名为“Scrapy”和“Beautiful”的web抓取库。非常感谢你的建议。)

浏览 0提问于2014-03-05得票数 0

回答已采纳

2回答

使用rvest进行Web抓取

、、

我正在尝试使用rvest将web抓取到以下网页：https://www.superu.ad/oli-de-girasol_c360259/ 但似乎rvest (R)不能找到url中已经存在的一些css选择器，如.product-name webpage<-read_html('https://www.superu.ad/oli-de-girasol_c360259/') rank_data_html <- html_nodes(webpage,'.product-name') #returns nothing 我期望出现在url中的不同产品名称的输

浏览 17提问于2019-05-25得票数 0

回答已采纳

5回答

网络抓取基于javascript的网站

有很多工具可以在javascript关闭的情况下抓取HTML页面，但是有没有什么工具可以在javascript打开的情况下抓取页面，包括按下javascript回调按钮？我目前正在尝试抓取一个单独通过javascript调用导航的站点。所有指向内容的按钮都在看不到href的情况下执行javascript。我可以对javascript调用进行反向工程(部分返回HTML)，但这需要一些时间，有什么捷径吗？

浏览 1提问于2009-09-15得票数 1

回答已采纳

1回答

R:使用rvest从FIFA抓取表时出现的问题

、、、

我试图从过去30年中至少参加过一次世界杯的每一支球队中收集数据。我对如何使用R包rvest从web上抓取表格和其他东西的知识充其量也是最基本的。目前，我的代码看起来像这样 library(rvest) library(dplyr) fifadata <- read_html("http://www.fifa.com/fifa-tournaments/teams/association=BRA/index.html") fifa_data_html <- html_nodes(fifadata, xpath='/html/bod

浏览 1提问于2017-11-22得票数 0

1回答

用漂亮汤将硒html表格放入熊猫数据

、、

我已经成功地使用selenium来抓取一个html表，它需要在抓取之前点击按钮。因此selenium可以工作，并成功地将html表存储为变量‘r’。不过，我很难把这个解析成熊猫的数据。与URL一样，dataframe应该有5列和大约30行。有人能看到问题出在哪里吗？ import pandas as pd from selenium import webdriver from bs4 import BeautifulSoup browser = webdriver.Firefox(executable_path=r'/Users/computer_name/Documents

浏览 1提问于2020-04-03得票数 2

回答已采纳

1回答

如何通过比较内部表格单元格和给定的标准来选择特定的表行？

、、

**我想从站点抓取所有的美国代理，我已经抓取了所有行，但不能只选择那些有美国国家的代理记录，然后我想获取带有相应端口的单独的美国代理并保存它们* from bs4 import BeautifulSoup as bs # loading web page r = requests.get("https://sslproxies.org/") # convert to a beautiful-soup object webpage = bs(r.content, "html.parser") rows = iter(webpage.find('table

浏览 4提问于2022-06-21得票数 -1

回答已采纳

1回答

网络抓取-需要密码| Python，BeautifulSoup，请求

、、、

我正在尝试使用Python、beatifulsoup和requests来执行web抓取。我首先需要登录到页面，然后请求以下页面，我想从那里执行web抓取。我可以说我成功登录了，因为状态码是200。然而，当我在登录后请求下一页时，我没有获得全部内容。具体来说，我得到的是这一行，而不是多个嵌套的div。<div id="app"></div>的实际内容如下所示。我的代码如下。我想问你，为了得到所有嵌套的div，我是否遗漏了什么。 import requests from bs4 import BeautifulSoup import html5l

浏览 2提问于2020-04-11得票数 1

1回答

使用data.frame Rvest中的循环在R中进行Web抓取

、、、

所以我有一个我想在R Studio中抓取的url列表 url <- "https://www.ebay.in/sch/i.html?_nkw=Mobile+Phones&_pgn=2&_skc=2&_skc=200&rt=nc" ............ "https://www.ebay.in/sch/i.html?_nkw=Mobile+Phones&_pgn=2&_skc=10&_skc=1800&rt=nc" 我有一个代码，当列表中有一个url时，它可以抓取列表： library(rv

浏览 0提问于2018-05-01得票数 1

1回答

如何在R中从HTML选择/选项标记中刮取值

、

我有一个类似的问题，如这个问题所示：。我正在抓取这个，我想下载选项值中的文本，我的意思是，您可以在其中阅读"Seleccionar“，即html代码中的下一个节点： <select name="txtMunicipio" id="txtMunicipio" class="inputText"><option value="">-------------------------------------</option> <option value="001"&g

浏览 0提问于2018-10-11得票数 1

回答已采纳

1回答

用R解析网页

、、

这是我第一次在这里发帖。我在html解析/web抓取方面没有多少经验(不到一周)，在解析此网页时遇到困难：我想要做的是解析网上所有可用职位列表的内容。我的方法：单击一个空搜索栏上的搜索，它将返回我列出的所有记录。生成的网页是：向R提供搜索结果网址，并识别所有职务列表链接提供到R的职务列表链接，并要求R转到每个列表并提取内容。查找下一页，重复步骤2和3。然而，问题是，我从步骤1得到的结果网页并没有引导我到搜索结果页面。相反，它将引导我回到主页。是否有解决这个问题的办法？假设我设法获得了搜索结果的web地址，我打算使用以下代码： base_url <

浏览 2提问于2014-12-26得票数 0

回答已采纳

2回答

Twitter API vs Web抓取？

、、、、

首先，我想获得我twitter账户的所有追随者。我做了一点研究，发现我们可以用Ruby on rails做web抓取，使用: Nokogiri或Mechanize gem。我还得到了一个css选择器，用于web抓取。现在，如果我查找HTML页面源代码，它不会显示该帐户的所有追随者。我真的可以使用web抓取代码来获取我所有的twitter追随者，还是应该使用Twitter API？

浏览 2提问于2012-11-08得票数 0

回答已采纳

2回答

需要在Filemaker中从Web查看器中抓取图像

我已经让我的网络浏览器指向google静态地图，我想弄清楚如何保存图像文件以便稍后离线查看。如果你不熟悉，谷歌静态地图页面仅仅是包含单个图像的html页面。它们看起来像这样。 <html> <body> <img... src=""> </body> </html> 我基本上需要从web查看器中抓取图像数据来存储它，或者可能只是从HTML中抓取source标签来以某种方式下载它。有没有人知道我该怎么做？

浏览 1提问于2013-05-16得票数 0

回答已采纳

2回答

WebScraping一张表不适用于

、、、、

我只是从web抓取开始，想尝试从这个中抓取表，但是当我开始查找表的类时，它不工作，而是显示了None 以下是我的守则： from bs4 import BeautifulSoup import requests import json url = 'https://www.nseindia.com/market-data/top-gainers-loosers' headers = {'User-agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_6) AppleWebKit/537.36 (KHT

浏览 7提问于2021-04-02得票数 0

回答已采纳

1回答

利用rvest从Facebook上抓取图像src

、、、

我使用rvest包来抓取Facebook的帖子并提取img src url。 library(rvest) UrlPage <- read_html ("https://www.facebook.com/AmazonIN/photos/a.142199085973905.1073741828.100281786832302/458742987652845/?type=3") UrlPage %>% html_node("#fbPhotoImage") 错误:没有匹配 rvest软件包适用于其他网站，但似乎与Facebook有一些问题。有没有

浏览 4提问于2016-01-08得票数 0

1回答

python/Request.html-不能在现有事件循环中使用HTMLSession

、

在下面的python/request.html中，我试图抓取亚马逊，并使用r.html.xpath("//ul/li[3]/span/span[2]")获取Ender33D打印机，但它返回[] (我希望它返回Ender 3)。 from requests_html import HTMLSession with HTMLSession() as session: r = session.get('https://www.amazon.com/dp/B07BR3F9N6') r.html.xpath("//ul/li[3]/span/span[2]&#

浏览 2提问于2022-07-26得票数 0

1回答

使用rvest从HTML表中进行Web抓取

、、、

我是web抓取的新手，我正在尝试抓取下表： <table class="dp-firmantes table table-condensed table->striped"> <thead> <tr> <th>FIRMANTE</th> <

浏览 17提问于2018-06-16得票数 0

1回答

在python中清除抓取的文本

、、

我是python的新手，刚刚开始学习使用漂亮的汤(在Jupyter notebook中)进行web抓取。我从古腾堡项目上刮了一本书，想做翻译。然而，在清理文本时遇到了困难，随后进行了翻译。我想去掉抓取文本开头的东西(颜色{e.g.BODY: Black；background:白色；....)然后使用google API翻译整个文本。将会对这两方面的帮助/建议表示感谢。到目前为止，我的代码是管道转换代码不起作用，并返回以下错误"WriteError: Errno 32 Broken below.The“ #Store url url = 'https://www.gutenb

浏览 0提问于2021-05-12得票数 1

3回答

不能使用美汤抓取网站

、、

我遵循中关于使用Python和BeautifulSoup抓取网站的教程。我试图从我的政府抓取网站(用于研究目的)，但它给我的错误如下: Traceback (最近一次调用)： File "C:/Python27/scrap web.py", line 8, in <module> name = name_box.text.strip() AttributeError: 'NoneType' object has no attribute 'text' 我尝试了另一个网站，比如，它就能工作。当我查看我的政府网站并使用“查看页面源

浏览 0提问于2018-05-07得票数 0

1回答

利用JSoup浏览网页

、、、

我制作了一个网络刮刀，在IMDB上抓取一些信息。它通过将url中的数字更改为不同的随机数字来遍历每个页面，然后在这个新页面上重复web抓取过程。 <--将这个号码更改为一部新电影。我怎样才能在BFI网站上做到这一点？我看不到从一部电影到另一部电影的路。提前感谢！

浏览 2提问于2013-10-25得票数 0

回答已采纳

3回答

以压缩格式存储mongodb数据

、

我正在使用mongodb来存储使用scrapy框架的网页的原始HTML数据。在一天的web抓取中，25 up的磁盘空间就被填满了。有没有办法以压缩格式存储原始数据？

浏览 6提问于2013-08-02得票数 8

回答已采纳

1回答

如何将XPATH值定义为R中html_nodes中的变量

、、

在使用R (rvest)进行web抓取时，我需要将XPATH值定义为html_nodes中的一个变量。这样我就可以迭代大量的XPATH。当我在外部定义XPATH时，它会抛出错误(例如，当xpath =//*@id=“横幅”时出现错误)。你能帮帮我吗。我的守则： xpath <- as.character('//*[@id="title-overview-widget"]') name <- lego %>% html_nodes(xpath) %>% html_text() Error Message

浏览 3提问于2016-03-05得票数 2

回答已采纳

1回答

如何在html页面中打印matplotlib绘图

、、

我正在尝试使用Matplotlib在HTML页面(python -cgi)中绘制堆叠图。我有以下脚本 `#!/usr/bin/python print "Content-type:text/html\r\n\r\n" print '<html>' print '<head>' print '<title>Hello Word - First CGI Program</title>' print '</head>' print '<body&

浏览 6提问于2018-05-25得票数 0

4回答

使用C#和.NET框架进行屏幕抓取、Web抓取、Web获取、Web数据提取等

、、、、

我正在开发一个用于网络采集、网络抓取、网络数据提取、屏幕抓取等功能的Microsoft .NET Application in C#，不管你怎么称呼它。对于解析HTML，我尝试合并HTML，但它并不像我想象的那么简单。我已经包括了一些规格和图像，我有到目前为止，并希望得到您的意见，我可以继续下去。基本上，我想做一些类似于Visual开膛手使用的布局，但我不知道他们是如何做到的。有什么想法吗？ Specifications: 我的目标是使一个非常用户友好的点击式应用程序下载数据和图像从网上。我希望使用web浏览器加载HTML页面，并将分析过的数据和图像链接输出到文本框中。用户可以指定需要哪些HT

浏览 6提问于2012-02-28得票数 3

回答已采纳

1回答

使用perl机械刮除ASP站点

、、

我正在尝试抓取一个基于Asp的站点，我使用perl机械模块来提取页面的源代码，我基本上使用正则表达式来抓取站点。但是我看不到源页面中的html内容。有没有办法通过Perl.i来提取这些内容，对于这类网站来说是新的。需要一些指导。提前谢谢。

浏览 1提问于2013-08-05得票数 2

回答已采纳

1回答

数据挖掘设备/商品网站的具体价格

、、

这是一个有点牵强的话题，但我发现自己经常浏览齿轮网站(如，齿轮巡逻和开箱)的生日和礼物想法。我发现点击每一篇文章寻找在我的价格范围内或在我的价格范围内的项目&&我正在寻找的项目的类别，是很麻烦的。我知道我可以去亚马逊，为我正在寻找的项目设置特定的过滤器，但我喜欢从已知的提供高质量产品推荐的网站收到建议。从数据挖掘/ web抓取的角度来看，有没有人知道任何在线教程的资源，为类似的产品提供指导？ R或Python更适合web抓取应用程序吗？如果你对我的想法有任何见解，我们将不胜感激:)

浏览 0提问于2016-05-17得票数 0

回答已采纳

1回答

如何将字符串传递给web服务器上的test.cgi？

情况：test.cgi?a=b由web浏览器读取。任务:指示它打印?a=b或它能抓取的任何东西。当前输出： (null) test 所需输出： ?a=b test test.c include <stdio.h> int main (int argc, char **argv) { fputs("Content-Type: text/html\r\n\r\n", stdout); printf("%s<br>", argv[1]); fputs("test", stdout); return 0; }

浏览 10提问于2019-10-04得票数 0

回答已采纳

1回答

使用R从网站中的表中抓取数据

、、

我正在尝试学习R中的web抓取，并且尝试从下面的链接中从各种表中抓取数据。在页面的底部，有几张表格列出了不同的菜系，我想单独读一读。我尝试使用css-选择器，但我认为我使用它们是错误的，下面是我的代码片段： require(rvest) require(magrittr) connection = html_session("https://en.wikipedia.org/wiki/List_of_cuisines") connection %>% html_nodes("table:nth-child(1) a") %>% html_text()

浏览 3提问于2015-10-19得票数 0

回答已采纳

1回答

Python : re.findall方法抛出超出范围的列表索引

、、

我正在学习使用python正则表达式进行web抓取，并练习以下脚本，但当我运行时，它会抛出IndexError: list index out of range import re import json import requests url = 'https://www.att.com/buy/phones/' html_text = requests.get(url).text data = json.loads(re.findall(r'__NEXT_DATA__ = (.*?});', html_text)[0]) print(json.dumps

浏览 1提问于2021-12-28得票数 0

2回答

使用scrapy和xpath抓取::before和::after之间的HTML元素

、、

我正在尝试用scrapy和xpath从python的网页中抓取一些链接，但是我想抓取的元素是介于：：they和::after之间的，所以xpath看不到它们，因为它们不存在于HTML中，而是用javascript动态创建的。有没有办法去掉这些元素呢？ ::before <div class="well-white">...</div> <div class="well-white">...</div> <div class="well-white">...</div> ::a

浏览 2提问于2018-09-12得票数 2

1回答

Google Crawler能看到我页面上的动态内容吗？

、、、

我已经在我的公司网站上工作了大约10天，完全将我的网页通过$.ajax提供内容，并通过jquery构建内容。现在我发现google不会看到我的页面内容，因为它是通过javascript生成的。我已经验证过，在chrome中，当我转到View Source时，我看不到任何我通过Jquery创建的html元素。如何让google抓取这些DIV或者说HTML？例如： $('.wrapper').html("<div class=\'product\'> This is Product 1 </div>"); 谷歌抓取.pro

浏览 1提问于2013-11-21得票数 0

1回答

Python Selenium div隐藏在inspect中，无法在实际页面上看到显示div的按钮

、

我正在使用Selenium (链接在这里https://www.hltv.org/stats/players)用Python语言编写一个web抓取脚本，我想要抓取每个播放器的所有链接。它显示了许多播放器，但不是所有的，我看不到在实际页面上显示这些元素的按钮，它们隐藏在页面后面。如果我检查页面，有一个表格显示了一些在页面上可以看到的内容，那么在类名称“隐藏”下还有更多。但是，如果我滚动到inspect的底部，就会有一个按钮让我单击以显示其他2000名玩家。除了需要在inspect中单击按钮的其他2000个节点之外，我能够抓取所有的玩家链接。我在网上没有发现任何人们有类似问题的地方，也许有我

浏览 9提问于2020-12-06得票数 0

回答已采纳

1回答

不要在.click() selenium之后打开URL

、、

我正在使用selenium和BeautifulSoup从表单中抓取数据。第一步是在搜索字段中添加条目。第二步是从新加载的表单中抓取数据。这两个步骤都是可行的。编辑:当脚本发送条目(send_keys())并单击submit按钮(submit.click())时，webapage加载。我希望网页加载在背景，所以我看不到它。以下是代码： from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait

浏览 4提问于2020-04-20得票数 0

回答已采纳