not抓取网站的问题:不提取任何内容_使用xpath抓取网站不会返回任何内容_R通过rvest提取内容的web抓取问题 - 腾讯云开发者社区

、、

我正在尝试从以下网站提取数据：'https://2010-2014.kormany.hu/hu/hirek'。例如，当我尝试使用以下内容从该网站提取文章链接时，我什么也得不到。如果我运行以下代码，我甚至什么都得不到： links <- read_html(url) %>% html_nodes("div") > character(0) 这非常奇怪，因为当我检查网站时，似乎我应

浏览 15提问于2021-08-29得票数 0

1回答

使用BeautifulSoup抓取的数据与源代码不匹配

、、、

我是网络抓取的新手。我已经看过一些关于如何使用漂亮的汤来抓取网站的教程。作为练习，我想从一个房地产网站上提取数据。我想要抓取的特定页面是这个：我遇到的第一个问题<

浏览 4提问于2021-05-02得票数 1

6回答

爬虫vs刮板

、、

有人能在范围和功能方面区分爬虫和刮板吗？

浏览 0提问于2010-07-09得票数 71

回答已采纳

2回答

NUTCH可以用来从电子商务网站获取数据吗？

、、、

我想从网站上获取数据。我想要易趣上不同商品的价格。我想把这些产品和它们的价格放在我的数据库里。纳奇在这里会有帮助吗？如果不是的话，我更喜欢哪种刮刀/爬行？

浏览 5提问于2014-06-17得票数 0

回答已采纳

1回答

Facebook如何抓取我的网站，我如何手动更改此信息？

、、

我正在使用iFrame版本的Facebook点赞按钮，我想知道Facebook是如何抓取我的网站的。他们在页面中间提取信息，这是第一个段落标签，而不是从之前的div中提取。我想知道这是否正常，以及Facebook多久更新一次他们的页面。其次，我在生成的Facebook页面上的页面设置中编辑此信息时遇到问题。如果我可以手动覆盖Facebook从我的网站</

浏览 0提问于2012-04-08得票数 0

回答已采纳

1回答

无法为我提取登录html内容。

 Document document = Jsoup.connect(url).document.getElementsByClass("login-form"); 我不获取登录窗口

浏览 5提问于2020-08-04得票数 0

回答已采纳

1回答

用Python从网站中检索源代码

、

我一直试图从一个没有运气的网站上提取链接。据我所读，它可以很容易完成，但链接是与弹出对话框在网站内。唯一能抓取链接的方法是ctrl并查看要复制的源。编辑我想避免下载任何超出python已经拥有的内容，例如BS/Scrapy等。

浏览 0提问于2015-09-08得票数 0

2回答

网页抓取(热门网站的HTML格式)

、

我如何抓取任何网站，以便为我的网站创建提要？最受欢迎的网站遵循什么格式？

浏览 0提问于2010-11-03得票数 0

1回答

如何从多个网页中提取内容？

、

我想从各种评论网站中提取某些内容(评论信息)。from webscraping import download, xpath D

浏览 0提问于2017-04-25得票数 2

1回答

Scrapy在特定级别的div之后不返回任何数据

、

我正在尝试抓取一个网站：步骤如下: a. fetch("") b. view(response) -->到目前为止一切都按预期进行。一旦我开始使用下面的语法提取数据，我只能获取某些级别的div，在此div之后，我将无法访问任何其他div及其内容。我以前在为其他网站开发爬虫时没有遇到过这样的问题。问题站点是否特定..？你能告诉我一个抓取内部div的方法吗？

浏览 0提问于2018-07-03得票数 0

1回答

抓取AWS博客网站时Scrapy不返回任何内容

、

这是我在AWS博客网站首页抓取URL列表的尝试。但它不返回任何内容。我想可能是我的xpath出了问题，但不确定如何修复。aws.amazon.com/blogs/> (referer: None)任何帮助都将不胜感激

浏览 17提问于2019-11-06得票数 0

回答已采纳

1回答

挖掘/爬行/使用phantomjs或其他东西的web控制台？

、、、、

我想创建一个应用程序，它的行为与另一个web应用程序的行为直接相关。本质上，有一个在Gmail中运行的应用程序，它基于用户的操作与界面进行动态交互。我遇到的问题是，我想要创建一个与web应用程序交互的应用程序，但它们没有提供开放的API。因此，我不能只调用api来获取我需要的数据。有没有什么方法可以让我用像PhantomJS这样的东西来抓取动态的活动来建立另一个应用程序的<

浏览 2提问于2012-04-25得票数 4

1回答

我试着从booking.com上提取评论 URL = "https://www.booking.com/hotel/ph/oyo-518-mytown-amsterdam-manila.en-gb.html275784337_2_0_0__139646;srepoch=1632033539;srpvid=af482ec1c5c20263;type=total;ucfs=1&#tab-reviews" 我使用的是我从浏览器上逐字复制的/*[@id=&quo

浏览 7提问于2021-09-20得票数 0

1回答

公司可以限制从他们的网站上抓取的内容吗？

、、

我正在学习使用Python3的Requests和Beautiful Soup进行web抓取。import requests url = 'https://www.packtpub.com在这种情况下，我没有得到异常，但我注意到变量中包含<

浏览 0提问于2018-05-28得票数 2

1回答

从呈现的网站抓取时出现的问题

、、、、

我正试图从这个网站上刮掉一件衣服的价格：response.xpath('//span[@data-id="current-price"]/text()').extract()谢谢!

浏览 13提问于2017-02-24得票数 0

回答已采纳

2回答

网络爬虫程序C# .Net

、

我不确定这是不是真的叫做网络爬虫，但这就是我想要做的。我想找到所有的网址，其中有相同的第一部分。有没有办法获得以www.mywebsite.com开头的所有urls的列表--下午12:16编辑-- 而

浏览 0提问于2013-06-27得票数 1

回答已采纳

1回答

如何利用JavaScript检测来抓取网站

、

我在使用Guzzle library从HTML中提取特定数据时，正在抓取一个网站。但现在，在浏览器启用JavaScript之前，该网站不会将内容可视化。所以现在我被这些问题困住了：欢迎任何建议。

浏览 2提问于2019-11-23得票数 0

回答已采纳

2回答

谷歌在爬行时能看到iframe的内容吗？

、、、

我已经查过了，没有找到一致的答案。我想在我的页面中嵌入一个谷歌文档(当你发布你的谷歌文档时，它会给你一个iframe)。像google这样的搜索引擎能够读取文档的内容(只有文本，但可能有重要的关键字)吗？或者它会表现得好像页面是空的？如果它不能索引文本，那么有没有办法在某种类型的服务器端包含嵌入的内容，以便它看起来像是硬编码到爬虫的html中？

浏览 4提问于2010-07-15得票数 2

1回答

如何将程序连接到(学校)网站以提取数据

这是由一个为大学创建的程序提出的，该程序提取可用班级、代码、教师、时间和地点的完整列表。如果没有API或登录凭据来获取可用的课程数据，程序如何访问这些数据。

浏览 1提问于2012-06-15得票数 0

1回答

LinkedIn抓取逻辑

、、

谁能给我解释一下linkedIn grabber是如何工作的？我通过REST API分享了一条消息，在消息标题下面显示了一些额外的内容。我的结论是linkedin从我的网站抓取了这些内容(因为当我测试在本地服务器上发布的内容时，LinkedIn不能从那里抓取任何东西，所以很清楚)，但是它是如何工作的呢？OpenGraph标签被设置为正确的值，但消

浏览 1提问于2013-06-10得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云