腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
4
回答
自动
网络
爬虫
、
我正在编写一个
爬虫
,需要从许多网站获取数据。问题是每个网站都有不同的结构。我如何才能轻松地编写一个从(许多)不同网站下载(正确)数据的
爬虫
?如果网站的结构发生变化,我是否需要重写
爬虫
,或者是否有其他方法?谢谢!
浏览 0
提问于2012-07-20
得票数 1
1
回答
在性能方面,为什么facebook不一次加载所有的
JS
文件?
、
登录后,我查看了facebook中的html代码,他们似乎对
JS
文件做了很多请求(根据firebug,多达20个)。所以,虽然我知道facebook需要加载许多
JS
和CSS文件(而不是一个
JS
和一个CSS文件),但我的问题是更通用的网站和
网络
爬虫
的状态。我们应该担心这些技术(通过ajax加载主要内容)会影响
网络
爬虫
(googlebot和朋友)吗?我想提高性能,加载“稍后需要”的内容(text/
js
/css)似乎是个好主意,但如果<e
浏览 2
提问于2013-03-18
得票数 3
3
回答
用户代理识别和搜索引擎优化
爬虫
数据库
、
特别是,我必须从收集的user agent值开始识别
爬虫
。现在问题来了。是否有公共目录或
网络
爬虫
库?一个空的用户代理头是与
爬虫
有关还是与一个创作过程有关?
浏览 0
提问于2012-08-07
得票数 2
12
回答
可以用
javascript编写
网络
爬虫
吗?
、
我想抓取页面并检查相应页面中的超链接,并跟踪这些超链接并从页面中捕获数据
浏览 1
提问于2012-06-18
得票数 15
2
回答
使用单个Web
爬虫
以预定义的格式抓取多个带有附件的网站?
、
、
基于我的无知和缺乏研究,我开始构建每个网页的
爬虫
,这开始变得难以完成和维护。 根据我到目前为止的分析,我已经知道我想在每个网页上抓取什么信息,很明显,这些网站都有自己的结构。我的百万美元的问题,有没有一个单一的技术或单一的
网络
爬虫
,我
可以用
来抓取这些网站?我已经知道我想要的信息,这些网站很少在其网站结构方面进行更新,而且大多数网站都有需要下载的文档。或者,有没有更好的解决方案,可以减少我需要构建的
网络
爬虫
的数量?此外,这些
网络
爬虫
将仅用于下载我针对的网
浏览 3
提问于2019-04-29
得票数 0
1
回答
使用多个EC2实例爬行
、
我已经编写了这个
爬虫
,这样它就
可以用
它的结果向一个单独的"hub“实例报告。集线器处理
爬虫
的结果,
爬虫
可以自由地继续爬行。我在这个爬行实例中想到的是,克隆
爬虫
的几个实例很容易,每个实例都要向中心报告以便处理。 (这是一个假设)如果每个
爬虫
都有自己独立的i
浏览 2
提问于2015-01-08
得票数 0
回答已采纳
2
回答
使用用户登录从其他网站导入用户帐户数据
、
、
、
到目前为止,我能够发现
网络
爬虫
/蜘蛛
可以用
来从网页上删除数据。但我不确定
网络
爬虫
在我们需要用户登录并且页面urls是加密的,或者至少是动态生成的urls的情况下是否有用。如果
爬虫
是这个问题的解决方案,请提供一些我可以在我的.net应用程序中使用的web
爬虫
API的链接。Atif
浏览 4
提问于2011-09-09
得票数 0
回答已采纳
1
回答
将我的Python电子邮件爬行器转换为Web应用程序的框架
我在Python中制作了一个电子邮件
爬虫
程序(基本上是一个使用其他几个功能的函数),它帮助我在generate实习的公司。我的老板问我是否可以让我的python电子邮件
爬虫
进入一个
网络
应用程序,这样其他员工就可以通过我来抓取电子邮件,这样我就可以在更重要的事情上工作。是否有一些web应用程序框架
可以用
来将我的python电子邮件
爬虫
程序转换成一个简单的公司专用web应用程序?制作
网络
应用程序所需的时间范围是什么?
浏览 5
提问于2015-07-08
得票数 0
回答已采纳
2
回答
如何打开需要node.
js
的web应用程序
、
、
、
我必须运行微
爬虫
,这是一个
爬虫
网络
应用程序,与node.
js
运行。我不知道如何打开这个应用程序,我下载了node.
js
,当我在node.
js
命令行中编写install npm和install bower时,什么也没有发生。我也不知道如何在安装后启动web应用程序。
浏览 2
提问于2014-09-28
得票数 1
3
回答
非常简单的C++
网络
爬虫
/蜘蛛?
、
我试图在C++中做一个非常简单的网页
爬虫
/蜘蛛应用程序。我一直在使用谷歌搜索一个简单的,以了解这个概念。我发现了这个: 然而,这是复杂的理解对我来说,因为我开始学习C++大约一个月前。
浏览 15
提问于2010-11-25
得票数 22
回答已采纳
1
回答
如何让Scrapy在部署到Scapinghub后访问Tor
、
、
、
、
我将
爬虫
配置为使用setup Privoxy访问Tor,但这只在我在localhost中使用时有效,因为我配置的设置指向127.0.0.1: port。这是我
可以用
来让
爬虫
通过我的
网络
和端口通过我的机器的任何解决方案吗? 据我所知,如果在同一
网络
上,我们可以使用内部IP。我能不能把公网IP改成127.0.0.1,但是我想知道如何将
网络
转发到哪台机器。
浏览 0
提问于2018-03-05
得票数 1
1
回答
我是否可以使用
网络
爬虫
将新的youtube视频添加到播放列表?
、
、
我想编程一个
网络
爬虫
去到IGN的你管页面在晚上11:00每晚,并添加过去24小时内上传的每个视频到一个新的播放列表,然后命名该播放列表与日期。例如:"IGN新闻3.18.16“ 这是
可以用
Javascript的
网络
爬虫
来完成的事情吗?如果是这样的话,我该怎么做呢?
浏览 5
提问于2016-03-19
得票数 0
1
回答
除了后端和API之外,还能用于其他进程吗?
、
、
谷歌应用引擎
可以用
来运行
网络
爬虫
吗?由于google应用引擎用于后端和app,我担心在应用程序引擎上部署这样的
爬虫
系统会有其局限性。
浏览 0
提问于2018-04-05
得票数 0
回答已采纳
2
回答
浏览器限制会影响网页
爬虫
吗?
、
、
return Redirect("/h"); return View(); 问题:如果我限制一些浏览器访问我的主视图,它也会限制对
网络
爬虫
的访问吗
浏览 0
提问于2013-02-21
得票数 0
回答已采纳
1
回答
Spring有没有Web抓取的解决方案?
、
、
我需要建立一个
网络
应用程序,这将抓取和爬行一些网站,并提取数据和
爬虫
将有调度器。我知道有很多工具可以解析和提取数据,比如Jsoup,但我只想知道我是否
可以用
Spring工具实现这一点?
浏览 0
提问于2017-02-24
得票数 4
1
回答
如何使用PHP从另一个网站获取数据并将其存储在MySQL数据库中?
、
、
我需要使用PHP从网站中获取数据,并将其保存在MySQL数据库中。我还想获取图像并将它们保存在我的服务器中,以便在我的站点中显示它们。我听说可以使用API,但是我想知道我是否可以使用CURL来完成这个任务。我想每天获取大量的数据,那么使用CURL会消耗大量的服务器端资源吗?还有哪些其他方法可以获取数据?
浏览 5
提问于2011-08-17
得票数 1
1
回答
如何在Heroku上连续运行和托管Node.
js
脚本?
、
我目前想部署一个网站排名API,为此,我需要一个
网络
爬虫
。事情是,我想让
网络
爬虫
运行24/7,以便它可以不断更新网站。但是,对于Heroku这样的服务,一个小时后服务器就停止了。我如何宿主一个总是在Heroku上活动的Node.
js
脚本。如果不可能,我还能做些什么呢?
浏览 0
提问于2021-01-21
得票数 1
回答已采纳
1
回答
用NodeJS查找域上的所有页面
、
、
我正在用Node查找域上的所有页面。我在Stackoverflow上搜索,但我只找到了这个用于Ruby:的线程--我有同样的问题,但是对于Node。我也在谷歌上搜索过这个问题,但我发现的都是刮刀器,它们没有找到可以自己抓取的链接。我也在寻找类似“站点地图生成器”、“网页机器人”、“自动刮刀”、“用Node获取域上的所有页面”之类的东西,但没有带来任何结果。 我有一个刮板,需要它将要处理的一系列链接,例如,我有一个页面www.example.com/products/,其中我想找到所有现有的子页面,例如www.example.com/products/product1.html,www.exam
浏览 0
提问于2014-07-08
得票数 3
1
回答
搜索引擎,它根据非结构化数据创建有关主题的信息表。
、
、
、
我正在寻找一个web应用程序,它可以以与搜索引擎非常相似的方式从
网络
上收集数据,但它不会将结果作为标题和摘要的列表,而是将结果转储到一个表中,试图从其内部索引中的页面中提取元数据。(很久以前,谷歌有一个叫做Google Squared的
网络
应用程序。今天还有其他类似的工具吗?这是维基百科页面中的相关描述: Google从整个
网络
中提取结构化数据,并以类似电子表格的格式显示其结果。每个搜索查询返回一个搜索结果表,其中有自己的一组列--与搜索主题相关联的公共属性。
浏览 0
提问于2023-02-07
得票数 2
3
回答
在HBase中使用PHP和Mapreduce添加/查看/删除数据?
、
、
、
嗨,朋友们1)我可以使用Map reduce从
网络
获取数据吗 2)是否可以将拉取的数据保存到HBase?3)我
可以用
PHP写一个从HBase中获取数据的应用吗?如果可以,你能给我一个代码片段吗?我如何使用PHP从HBase中添加/查看/删除数据?
浏览 1
提问于2010-11-14
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
免费代理IP可以用来做爬虫吗
网络爬虫
爬虫之旅(2)——网页知识储备html、css及js
网络爬虫简介
网络爬虫常用的几种技巧,三探爬虫,理解爬虫
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券