腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
网络
爬虫
的最佳
数据
库设计
、
、
、
许多
数据
库系统适合与
网络
爬虫
一起工作,但是有没有专门为
网络
爬虫
开发
的
数据
库系统(在.net中)。1)与
网络
爬虫
一起工作的最好的
数据
库系统是
什么
? 2)是否有涵盖所有功能的
数据
库系统!
浏览 2
提问于2011-07-05
得票数 1
1
回答
谷歌是否跟踪在JSON-LD中发现的链接?
、
、
、
假设我有一个包含20个
产品
的网页,这些
产品
都是通过API提供的。
产品
使用无限滚动加载,因此初始页面呈现有5个
产品
顶部。在滚动时,它会添加5,然后5,等等。JSON-LD用于将信息传递给搜索引擎/
爬虫
。因此,我创建了一个包含20个products...with链接的JSON,而不是创建搜索引擎将找到其HTML的5个
产品
的JSON。谷歌会跟踪
产品
和索引的链接吗?是否允许有一个JSON-LD的
产品
,
爬虫
找不到他们的HTML?goo
浏览 0
提问于2021-09-21
得票数 4
回答已采纳
1
回答
除了后端和API之外,还能用于其他进程吗?
、
、
谷歌应用引擎
可以
用来运行
网络
爬虫
吗?由于google应用引擎用于后端和app,我担心在应用程序
浏览 0
提问于2018-04-05
得票数 0
回答已采纳
1
回答
有一个流行的工具来抓取
网络
数据
吗?
、
我正在做信息提取的工作,我需要一个工具从网页上抓取
数据
,windows中有流行的工具吗?
浏览 7
提问于2009-12-14
得票数 0
9
回答
在创建
网络
爬虫
时,需要考虑哪些关键问题?
我今天刚开始考虑创建/定制一个
网络
爬虫
,对
网络
爬虫
/机器人礼仪知之甚少。我发现大部分关于礼仪的文章都显得过时和笨拙,所以我想从web
开发
人员社区获得一些最新的(和实用的)见解。我想使用
爬虫
通过“
网络
”的一个超级简单的目的-“标记的网站XYZ满足条件ABC?”这给我带来了很多问题,但我认为我首先需要回答的两个主要问题是:
爬虫
应该采取
什么
浏览 17
提问于2008-08-28
得票数 11
回答已采纳
1
回答
如何从网站的多个无关部分刮取
数据
(使用Scrapy)
、
、
我做了一个抓取
网络
爬虫
,
可以
刮亚马逊。它
可以
通过使用关键字列表搜索项目,并从结果页面中刮取
数据
。有谁知道如何以这种方式刮一个网站吗?谢谢。
浏览 4
提问于2020-12-14
得票数 0
回答已采纳
1
回答
是否将标识符附加到Scrapy请求?
、
、
一般来说,我对
爬虫
和
网络
是个新手,所以这可能是一个愚蠢的问题。我正在尝试为每个scrapy请求附加一个标识符,这样我就
可以
识别每个响应。 作为一个例子。假设我从存储在
数据
库中的
产品
中抓取
数据
,并希望将抓取的
数据
存储在与该特定
产品
相关联的
数据
库中。有没有一种方法
可以
将标识符附加到请求中,这样当响应返回时,我就
可以
知道它引用的是
什么
产品
,从而
可以
更新
浏览 2
提问于2017-05-06
得票数 0
2
回答
如何在Asp.net MVC中检测
爬虫
、
、
我正在使用一个动作过滤器,它
可以
检查我的网站上使用的浏览器版本,如果是较旧的浏览器,我会在顶部放置一个div,要求他们升级。我不想让
网络
爬虫
得到div消息,所以我实现了HttpBrowserCapabilitiesBase.Crawler,它看起来对谷歌有效,但必应和其他
爬虫
似乎没有注册为
爬虫
。奇怪的是,微软的
产品
没有注意到Bing作为一个
爬虫
!谢谢!有没有人知道为Bing和其
浏览 0
提问于2011-09-28
得票数 4
回答已采纳
1
回答
Web Crawler -找不到对象
、
、
、
我正在用asp.net
开发
一个
网络
爬虫
。 我的
网络
爬虫
有一个主页,它从HREF标签打开其他HTML页面,下载HTML页面并获取
数据
。
浏览 1
提问于2014-01-06
得票数 0
1
回答
将我的Python电子邮件爬行器转换为Web应用程序的框架
在Python方面经历了几年之后,我才知道它在web
开发
中的应用。我在Python中制作了一个电子邮件
爬虫
程序(基本上是一个使用其他几个功能的函数),它帮助我在generate实习的公司。我的老板问我是否
可以
让我的python电子邮件
爬虫
进入一个
网络
应用程序,这样其他员工就
可以
通过我来抓取电子邮件,这样我就
可以
在更重要的事情上工作。是否有一些web应用程序框架
可以
用来将我的python电子邮件
爬虫
程序转换成一个简单的公司专用web应用
浏览 5
提问于2015-07-08
得票数 0
回答已采纳
4
回答
什么
是一个好的
网络
爬虫
来下载HTML页面?
、
我正在寻找一个
网络
爬虫
/蜘蛛下载个别页面。支持这一点的好
产品
(最好是免费的)是
什么
?
浏览 1
提问于2011-10-18
得票数 3
回答已采纳
1
回答
商业上最好的
网络
爬虫
?
、
我正在
开发
一个爬行数以千万计的网页的系统,它将继续运行。我宁愿不从头开始
开发
爬虫
。哪些开源
网络
爬虫
符合以下标准:如果我错过了任何一个,请评估其他你认为重要的标准。我有以下开源
爬虫
的列表。他们是否具备上述特征? ScrapyMechanizeNutchHeritrixflaxhttrackSpidherSearcharoo
浏览 1
提问于2012-06-21
得票数 1
1
回答
抓取电子商务网站并聚合相同的
产品
、
、
我正在尝试学习
网络
抓取,作为一个应用程序,我想我应该构建一个聚合器,它
可以
抓取零售商的某些
产品
,并为不同零售商的相同
产品
建立一个价格比较。 当我开始做这个的时候,我意识到这是一个多大的任务。首先,我需要抓取的网站,不仅有他们的DOM结构的各种格式,但也略有不同的名称相同的
产品
和项目的价格和销售项目的价格格式。其次,在我以某种方式为x个站点解码了DOM之后(为一两个站点这样做很容易,但我想让
爬虫
变得可伸缩!)并获取各种项目的
数据
。我需要能够比较相同
产品
的
浏览 25
提问于2019-05-29
得票数 1
1
回答
网络
爬虫
会遇到
什么
危险?
我刚写完一个
爬虫
,一直在想为
什么
爬行某个网站会很糟糕。我知道现代浏览器的风险主要是由javascript造成的。因此,我的问题是,web
爬虫
(用PHP或Java编写)是否能够刮起可能会对
爬虫
造成损害的站点?
浏览 3
提问于2014-11-08
得票数 1
2
回答
像阿里·亨特和普间谍这样的间谍工具是如何从shopify商店获得
数据
的?
像Ali和pp间谍这样的间谍工具是如何从Shopify商店获得
数据
的,通常为了获取这些
数据
,您需要使用web钩子,但这只适用于您的商店和安装了应用程序的商店。
浏览 7
提问于2022-06-27
得票数 0
回答已采纳
1
回答
我的
开发
网站在谷歌搜索中显示。有没有办法不表现出来?
、
我在我们的域上做了一个通用搜索,注意到我的
开发
站点出现了。如何向公众隐藏我的
开发
站点?我的网站是使用wordpress构建的,我现在正在查看设置,但我认为它可能与DNS有关,但不是100%肯定。
浏览 2
提问于2015-07-29
得票数 0
回答已采纳
2
回答
为垂直搜索引擎
开发
爬虫
和爬行器
、
、
、
我需要
开发
一个垂直搜索引擎作为网站的一部分。搜索引擎的
数据
来自特定类别的网站。我想我需要一个
爬虫
来抓取几个(几百个)站点(在一个特定的业务类别中),并提取
产品
和服务的内容和urls。
产品
有10到30个属性。 任何关于如何编写这样的
爬虫
和提取器的想法。我使用常见的ruby库编写了一些
爬虫
和内容提取器,但不是一个完全成熟的搜索引擎。而内容提取器
可以
在它读取页面之后更新
数据
库。如何同步
爬虫
和提取器?它们应该紧密地集成在一起
浏览 3
提问于2009-07-05
得票数 6
1
回答
新闻博客的特征提取
、
、
、
、
我是
数据
科学/机器学习的新手。我必须编写一个
网络
爬虫
,并从每个博客中提取特征。这些功能以标签的形式讲述了行业、特定的
产品
、工具和类似的东西。我已经做了一部分抓取,但现在我被实体识别卡住了。我做了
数据
处理(标记化、
数据
清理、删除停用词/标点符号、词干/词汇化)。现在,我需要做些
什么
来进行特征提取?
浏览 26
提问于2020-03-12
得票数 0
回答已采纳
1
回答
最好的值历史
数据
库是
什么
?
我正在
开发
一个
网络
爬虫
,抓取网上商店,并找到
产品
。目前我只存储最近找到的单个价格,但我也想存储历史记录。我在主
数据
库中使用带有InnoDB表的MariaDB (5.3.8)。然而,我不确定MariaDB/MySQL可能是最好的价格历史
数据
库。 我每天最多为每个
产品
节省一个价格,
数据
保留期大约为2-4年。这些
数据
需要能够快速访问(
可以
通过数字ID (
产品
ID)或SHA1散列值进行标识,无论是
浏览 1
提问于2013-02-14
得票数 0
1
回答
如何制作一个使用Javascript路由器的可索引网站?
、
、
、
、
我一直在
开发
一个使用Backbone.js路由器的项目,所有
数据
都是通过restful请求由javascript加载的。服务器使用可索引
数据
呈现此页面,当用户访问此页面时,我
可以
手动初始化Backbone.js路由器。然而,问题是,我需要执行一个sql查询来在服务器端呈现可索引的
数据
,如果访问者不是机器人,它将导致额外的负载。当用户在某个地方共享该网站的网址时,它将不是一个可索引的页面,而且web
爬虫
可能无法识别该网址的内容。另外,
网络
爬虫
搜索页面中的
浏览 1
提问于2013-01-06
得票数 2
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
用 Python 开发网络爬虫提高数据采集效率
什么是网络爬虫?
爬虫学到什么程度可以工作?
Java爬虫在网络数据抓取方面有什么优势和不足
学会网络爬虫,数据轻松到手!
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
实时音视频
活动推荐
运营活动
广告
关闭
领券