网络数据爬虫可以开发什么产品_我可以使用powershell制作一个从动态网页获取数据的网络爬虫吗？_为什么应用程序开发人员可以执行数据库工作,但数据库开发人员试图避开应用程序？ - 腾讯云开发者社区

、、、

许多数据库系统适合与网络爬虫一起工作，但是有没有专门为网络爬虫开发的数据库系统(在.net中)。1)与网络爬虫一起工作的最好的数据库系统是什么？ 2)是否有涵盖所有功能的数据库系统！

浏览 2提问于2011-07-05得票数 1

1回答

谷歌是否跟踪在JSON-LD中发现的链接？

、、、

假设我有一个包含20个产品的网页，这些产品都是通过API提供的。产品使用无限滚动加载，因此初始页面呈现有5个产品顶部。在滚动时，它会添加5，然后5，等等。JSON-LD用于将信息传递给搜索引擎/爬虫。因此，我创建了一个包含20个products...with链接的JSON，而不是创建搜索引擎将找到其HTML的5个产品的JSON。谷歌会跟踪产品和索引的链接吗？是否允许有一个JSON-LD的产品，爬虫找不到他们的HTML？goo

浏览 0提问于2021-09-21得票数 4

回答已采纳

1回答

除了后端和API之外，还能用于其他进程吗？

、、

谷歌应用引擎可以用来运行网络爬虫吗？由于google应用引擎用于后端和app，我担心在应用程序

浏览 0提问于2018-04-05得票数 0

回答已采纳

1回答

有一个流行的工具来抓取网络数据吗？

、

我正在做信息提取的工作，我需要一个工具从网页上抓取数据，windows中有流行的工具吗？

浏览 7提问于2009-12-14得票数 0

9回答

在创建网络爬虫时，需要考虑哪些关键问题？

我今天刚开始考虑创建/定制一个网络爬虫，对网络爬虫/机器人礼仪知之甚少。我发现大部分关于礼仪的文章都显得过时和笨拙，所以我想从web开发人员社区获得一些最新的(和实用的)见解。我想使用爬虫通过“网络”的一个超级简单的目的-“标记的网站XYZ满足条件ABC?”这给我带来了很多问题，但我认为我首先需要回答的两个主要问题是：爬虫应该采取什么

浏览 17提问于2008-08-28得票数 11

回答已采纳

1回答

如何从网站的多个无关部分刮取数据(使用Scrapy)

、、

我做了一个抓取网络爬虫，可以刮亚马逊。它可以通过使用关键字列表搜索项目，并从结果页面中刮取数据。有谁知道如何以这种方式刮一个网站吗？谢谢。

浏览 4提问于2020-12-14得票数 0

回答已采纳

1回答

是否将标识符附加到Scrapy请求？

、、

一般来说，我对爬虫和网络是个新手，所以这可能是一个愚蠢的问题。我正在尝试为每个scrapy请求附加一个标识符，这样我就可以识别每个响应。作为一个例子。假设我从存储在数据库中的产品中抓取数据，并希望将抓取的数据存储在与该特定产品相关联的数据库中。有没有一种方法可以将标识符附加到请求中，这样当响应返回时，我就可以知道它引用的是什么产品，从而可以更新

浏览 2提问于2017-05-06得票数 0

2回答

如何在Asp.net MVC中检测爬虫

、、

我正在使用一个动作过滤器，它可以检查我的网站上使用的浏览器版本，如果是较旧的浏览器，我会在顶部放置一个div，要求他们升级。我不想让网络爬虫得到div消息，所以我实现了HttpBrowserCapabilitiesBase.Crawler，它看起来对谷歌有效，但必应和其他爬虫似乎没有注册为爬虫。奇怪的是，微软的产品没有注意到Bing作为一个爬虫！谢谢!有没有人知道为Bing和其

浏览 0提问于2011-09-28得票数 4

回答已采纳

1回答

Web Crawler -找不到对象

、、、

我正在用asp.net开发一个网络爬虫。我的网络爬虫有一个主页，它从HREF标签打开其他HTML页面，下载HTML页面并获取数据。

浏览 1提问于2014-01-06得票数 0

1回答

将我的Python电子邮件爬行器转换为Web应用程序的框架

在Python方面经历了几年之后，我才知道它在web开发中的应用。我在Python中制作了一个电子邮件爬虫程序(基本上是一个使用其他几个功能的函数)，它帮助我在generate实习的公司。我的老板问我是否可以让我的python电子邮件爬虫进入一个网络应用程序，这样其他员工就可以通过我来抓取电子邮件，这样我就可以在更重要的事情上工作。是否有一些web应用程序框架可以用来将我的python电子邮件爬虫程序转换成一个简单的公司专用web应用

浏览 5提问于2015-07-08得票数 0

回答已采纳

4回答

什么是一个好的网络爬虫来下载HTML页面？

、

我正在寻找一个网络爬虫/蜘蛛下载个别页面。支持这一点的好产品(最好是免费的)是什么？

浏览 1提问于2011-10-18得票数 3

回答已采纳

1回答

商业上最好的网络爬虫？

、

我正在开发一个爬行数以千万计的网页的系统，它将继续运行。我宁愿不从头开始开发爬虫。哪些开源网络爬虫符合以下标准：如果我错过了任何一个，请评估其他你认为重要的标准。我有以下开源爬虫的列表。他们是否具备上述特征？ ScrapyMechanizeNutchHeritrixflaxhttrackSpidherSearcharoo

浏览 1提问于2012-06-21得票数 1

1回答

抓取电子商务网站并聚合相同的产品

、、

我正在尝试学习网络抓取，作为一个应用程序，我想我应该构建一个聚合器，它可以抓取零售商的某些产品，并为不同零售商的相同产品建立一个价格比较。当我开始做这个的时候，我意识到这是一个多大的任务。首先，我需要抓取的网站，不仅有他们的DOM结构的各种格式，但也略有不同的名称相同的产品和项目的价格和销售项目的价格格式。其次，在我以某种方式为x个站点解码了DOM之后(为一两个站点这样做很容易，但我想让爬虫变得可伸缩！)并获取各种项目的数据。我需要能够比较相同产品的

浏览 25提问于2019-05-29得票数 1

1回答

网络爬虫会遇到什么危险？

我刚写完一个爬虫，一直在想为什么爬行某个网站会很糟糕。我知道现代浏览器的风险主要是由javascript造成的。因此，我的问题是，web爬虫(用PHP或Java编写)是否能够刮起可能会对爬虫造成损害的站点？

浏览 3提问于2014-11-08得票数 1

2回答

像阿里·亨特和普间谍这样的间谍工具是如何从shopify商店获得数据的？

像Ali和pp间谍这样的间谍工具是如何从Shopify商店获得数据的，通常为了获取这些数据，您需要使用web钩子，但这只适用于您的商店和安装了应用程序的商店。

浏览 7提问于2022-06-27得票数 0

回答已采纳

1回答

我的开发网站在谷歌搜索中显示。有没有办法不表现出来？

、

我在我们的域上做了一个通用搜索，注意到我的开发站点出现了。如何向公众隐藏我的开发站点？我的网站是使用wordpress构建的，我现在正在查看设置，但我认为它可能与DNS有关，但不是100%肯定。

浏览 2提问于2015-07-29得票数 0

回答已采纳

2回答

为垂直搜索引擎开发爬虫和爬行器

、、、

我需要开发一个垂直搜索引擎作为网站的一部分。搜索引擎的数据来自特定类别的网站。我想我需要一个爬虫来抓取几个(几百个)站点(在一个特定的业务类别中)，并提取产品和服务的内容和urls。产品有10到30个属性。任何关于如何编写这样的爬虫和提取器的想法。我使用常见的ruby库编写了一些爬虫和内容提取器，但不是一个完全成熟的搜索引擎。而内容提取器可以在它读取页面之后更新数据库。如何同步爬虫和提取器？它们应该紧密地集成在一起

浏览 3提问于2009-07-05得票数 6

1回答

新闻博客的特征提取

、、、、

我是数据科学/机器学习的新手。我必须编写一个网络爬虫，并从每个博客中提取特征。这些功能以标签的形式讲述了行业、特定的产品、工具和类似的东西。我已经做了一部分抓取，但现在我被实体识别卡住了。我做了数据处理(标记化、数据清理、删除停用词/标点符号、词干/词汇化)。现在，我需要做些什么来进行特征提取？

浏览 26提问于2020-03-12得票数 0

回答已采纳

1回答

最好的值历史数据库是什么？

我正在开发一个网络爬虫，抓取网上商店，并找到产品。目前我只存储最近找到的单个价格，但我也想存储历史记录。我在主数据库中使用带有InnoDB表的MariaDB (5.3.8)。然而，我不确定MariaDB/MySQL可能是最好的价格历史数据库。我每天最多为每个产品节省一个价格，数据保留期大约为2-4年。这些数据需要能够快速访问(可以通过数字ID (产品ID)或SHA1散列值进行标识，无论是

浏览 1提问于2013-02-14得票数 0

1回答

如何制作一个使用Javascript路由器的可索引网站？

、、、、

我一直在开发一个使用Backbone.js路由器的项目，所有数据都是通过restful请求由javascript加载的。服务器使用可索引数据呈现此页面，当用户访问此页面时，我可以手动初始化Backbone.js路由器。然而，问题是，我需要执行一个sql查询来在服务器端呈现可索引的数据，如果访问者不是机器人，它将导致额外的负载。当用户在某个地方共享该网站的网址时，它将不是一个可索引的页面，而且web爬虫可能无法识别该网址的内容。另外，网络爬虫搜索页面中的

浏览 1提问于2013-01-06得票数 2

回答已采纳

点击加载更多