腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如果要编写多线程爬行器,应选择哪个web服务提供商
如果我想写一个多线程
爬虫
,我想知道哪个是最好
的
best服务提供商。Appengine,ec2.... Appengine java显然有一些限制..此外,一个免费将是伟大
的
,因为我只是测试
应用
程序。
浏览 2
提问于2009-12-17
得票数 0
2
回答
如何使用asp.net mvc3和c#构建
网络
爬虫
?
、
、
、
、
我需要建立一个小
的
搜索引擎,如谷歌使用ASP.NET MVC3。对于这一个,我还需要建立
网络
爬虫
,其中填充搜索引擎
的
数据。总而言之,我需要以下内容: 如何使用Asp.net MVC3和C#构建
网络
爬虫
。我开始建立一些基本
的
,但我需要一些指南,资源和书籍。使用这个
网络
爬虫
,我轮询搜索引擎
的
数据,并使用Lucene.Net对数据
应用
索引。我需要建立小型搜索引擎,搜索由
网络
爬虫<
浏览 8
提问于2012-11-14
得票数 2
2
回答
浏览器限制会影响网页
爬虫
吗?
、
、
我正在使用普通模式和不推荐
的
浏览器模式创建站点,如果有人进入www.mysite.com,他
的
用户代理就会出现这样
的
情况: if (Request.Browser.IsMobileDeviceRequest.Browser.Version) < 9) return Redirect("/h"); return View(); 问题
浏览 0
提问于2013-02-21
得票数 0
回答已采纳
1
回答
在spring boot中通过REST api处理提交
的
耗时任务
的
最佳方法
、
、
、
、
我有一个春天启动
网络
项目,需要与
网络
爬虫
系统
的
工作。我
的
爬虫
服务在没有任何停机时间
的
情况下工作,每个
爬虫
请求可能有很长
的
处理时间。我想通过一个REST接口获取抓取
的
URL。我
的
web
应用
程序中
的
用户将URL列表提交给web
应用
程序,我想向他/她显示:您
的
请求已提交。完成此请求
的
爬网后,我希望更新web
浏览 32
提问于2020-10-22
得票数 1
1
回答
搜索引擎,它根据非结构化数据创建有关主题
的
信息表。
、
、
、
我正在寻找一个web
应用
程序,它可以以与搜索引擎非常相似的方式从
网络
上收集数据,但它不会将结果作为标题和摘要
的
列表,而是将结果转储到一个表中,试图从其内部索引中
的
页面中提取元数据。(很久以前,谷歌有一个叫做Google Squared
的
网络
应用
程序。今天还有其他类似的工具吗?我记得这是非常有用
的
,令人惊讶
的
直觉--虽然不是完美的,但对于非程序员来说,它是一个非常棒
的
工具,可以快速地创建相当复杂
的
查询
浏览 0
提问于2023-02-07
得票数 2
2
回答
如何阻止不同
的
web
爬虫
访问基于java
的
web
应用
程序?
、
、
我正在开发一个基于struts2
的
web
应用
程序,希望阻止web
爬虫
访问我
的
应用
程序。
浏览 0
提问于2014-11-27
得票数 0
4
回答
如何在Python中每隔十分钟执行一个程序一整天
、
、
我正在工作
的
网络
爬虫
应用
程序下载股票价格每十分钟。我能够提取引用,但我不确定如何安排它在一整天每十分钟运行一次。请给我建议要么是时间循环
的
东西,要么是
网络
爬虫
应用
程序本身
的
解决方案。我需要一个在Windows上工作
的
解决方案。
浏览 1
提问于2015-03-05
得票数 2
2
回答
使用Web Crawler爬行Web数据
、
我想使用一个
网络
爬虫
和抓取一个特定
的
网站。该网站是一个学习管理系统,许多学生在这里上传他们
的
作业,项目演示文稿等。我
的
问题是,我可以使用
网络
爬虫
下载已经上传到学习管理系统中
的
文件吗?用户可以使用我
的
应用
程序作为搜索引擎。
爬虫
能做到这点吗?我知道webeater (用Java编写
的
Crawler )
浏览 1
提问于2011-03-30
得票数 1
回答已采纳
1
回答
web
爬虫
是否读取HTTP标头?
、
、
、
我拥有一个网址缩短服务,我想要检测我收到
的
请求是否来自
网络
爬虫
。作为对请求
的
响应,我发送了一个HTTP头302,它将请求者重定向到原始链接。我在想,我可以为响应提供一个看不见
的
链接,这样机器人也会向我发送对该页面的请求,但普通用户不会。这是基于这样
的
假设:即使机器人读取报头并进行重定向,它们仍然会扫描页面并向其中找到
的
链接发送请求。假设是正确
的
吗?如果不是,我也可以通过Javascript重定向它们,但这不是重定向
的
标准方式(我想)。
浏览 1
提问于2014-02-08
得票数 0
1
回答
爬取白页
的
可能解决方案
、
我正处于一个我必须编写
的
程序
的
开始阶段,该程序将从我拥有的大型数据库中提取用户,并将其与任何类似于Whitepages电话簿
的
内容进行比较。这样做
的
原因是为了用更新
的
相关联系信息更新存储在我
的
数据库中
的
任何旧联系信息。到目前为止,我只接触过Whitepages Pro,它提供了一个API,允许我对他们
的
数据库运行一些查询,并返回我认为是最新
的
信息。我可以访问用户
的
电话号码、姓名和地址,因此最初
的
想法
浏览 1
提问于2015-05-01
得票数 0
1
回答
将我
的
Python电子邮件爬行器转换为Web
应用
程序
的
框架
在Python方面经历了几年之后,我才知道它在web开发中
的
应用
。我在Python中制作了一个电子邮件
爬虫
程序(基本上是一个使用其他几个功能
的
函数),它帮助我在generate实习
的
公司。我
的
老板问我是否可以让我
的
python电子邮件
爬虫
进入一个
网络
应用
程序,这样其他员工就可以通过我来抓取电子邮件,这样我就可以在更重要
的
事情上工作。是否有一些web
应用
程序框架可以用来将我
的
浏览 5
提问于2015-07-08
得票数 0
回答已采纳
1
回答
java--跟踪运行java
应用
程序时所使用
的
带宽和其他参数
的
库/方法
、
我正在努力创建一个Java
的
网络
爬虫
。
爬虫
访问网站,使用JDBC访问/存储数据库中
的
数据,还将文件存储在本地或云存储上。作为爬行
的
一部分,我想记录
爬虫
使用的确切细节--Number of sites visited (HTTP+HTTPS)Number of bytes of data stored+accessed in cloud st
浏览 1
提问于2012-06-28
得票数 0
回答已采纳
1
回答
有一个流行
的
工具来抓取
网络
数据吗?
、
我正在做信息提取
的
工作,我需要一个工具从网页上抓取数据,windows中有流行
的
工具吗?
浏览 7
提问于2009-12-14
得票数 0
1
回答
什么是无效
的
HTTP_HOST头?
、
、
、
、
我已经实现了Django相对新
的
允许主机设置,它
的
目的是防止攻击者提交带有假header
的
请求。我在EC2上托管我
的
站点,对于设置/维护服务器相对来说还是比较新
的
,所以我
的
问题是这里到底发生了什么,以及管理这些无效
的
最佳方法是什么,我假设是恶意请求?
浏览 0
提问于2013-10-31
得票数 2
回答已采纳
2
回答
在网站和独立
应用
程序中使用Django框架
、
我计划为它写一个
网络
爬虫
和一个基于
网络
的
前端(或者至少是它找到
的
信息)。我想知道是否可以使用Django框架让
网络
爬虫
使用与网站相同
的
MySQL后端(而不是让
网络
爬虫
本身成为“网站”)。
浏览 1
提问于2009-06-04
得票数 1
回答已采纳
1
回答
向远程MySQL提供数据
的
模式
、
、
我想从社区中听到一个很好
的
模式来解决下面的问题。 我有一个“无所不包”
的
服务器,它是were服务器,mysql,
爬虫
服务器。由于使用监视工具
的
两三周时间,我发现当我
的
爬虫
运行时,我
的
平均负载总是超过5(一个4核心服务器,可以一直使用到4.00作为负载)。所以,我有另一台服务器,我想把我
的
爬虫
移到那里。我
的
问题是。一旦我在我
的
爬虫
服务器中爬行数据,我必须插入我
的
数据
浏览 2
提问于2011-05-01
得票数 0
1
回答
Facebook Linter / Open Graph截取URL路径
、
、
、
、
我一直在网上和StackOverflow上寻找答案,但我没有找到完全适用于我
的
情况
的
案例。我使用Facebook Linter来调试FB抓取我
的
meta标签
的
方式。如果我在一个简单
的
About页面上使用它,它可以提取所有内容,特别是og:url元标记。当我抓取正常
的
内容页面时,问题就开始了。尽管我已经三次检查了我
的
标记格式是否正确,但FB Linter将URI从URL中删除,因此它报告og:url标记只有域名electionstats.com/!请
浏览 3
提问于2011-10-10
得票数 0
回答已采纳
2
回答
使用用户登录从其他网站导入用户帐户数据
、
、
、
这些网站要求用户提供他们
的
凭据以登录到各自
的
网站,然后导入帐户详细信息。LivingSocial和其他交易网站不提供对用户帐户
的
应用
编程接口访问。到目前为止,我能够发现
网络
爬虫
/蜘蛛可以用来从网页上删除数据。但我不确定
网络
爬虫
在我们需要用户登录并且页面urls是加密
的
,或者至少是动态生
浏览 4
提问于2011-09-09
得票数 0
回答已采纳
2
回答
建立一个自定义
的
网页
爬虫
的
最佳方法,以便在URL中找到带有任意文本
的
站点?
、
我想找到所有的网站,其中有关键字‘冲浪波’在他们
的
地址,非常简单!但是,没有使用任何搜索引擎,这意味着,编写一个纯
网络
爬虫
。我想,我要面对
的
问题是:我说
的
对吗?我不想使用搜索引擎,因为它们限制了结果
的
数量。
浏览 8
提问于2010-09-26
得票数 0
回答已采纳
5
回答
有哪些好
的
基于Ruby
的
网络
爬虫
?
、
我正在考虑写我自己
的
,但我想知道是否有好
的
网络
爬虫
在那里是用Ruby编写
的
。 除了一个成熟
的
网络
爬虫
,任何可能有助于构建
网络
爬虫
的
gem都将是有用
的
。我知道这个问题
的
这一部分在几个地方被涉及到了,但是一个适用于构建
网络
爬虫
的
宝石列表也是一个很好
的
资源。
浏览 2
提问于2011-02-13
得票数 21
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
聊聊 Python 的应用-健壮高效的网络爬虫
网络爬虫常用的几种技巧,三探爬虫,理解爬虫
网络爬虫
网络爬虫简介
网络爬虫换的
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
实时音视频
活动推荐
运营活动
广告
关闭
领券