腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
4
回答
Java
-销毁正在执行某些操作的对象
、
我看过
Java
中关于析构函数的帖子,了解到
Java
没有析构函数,但我很困惑,如果没有析构函数,我的应用程序需要做什么。 我的应用程序允许用户创建一系列的网络
爬虫
,这些
爬虫
保存在一个数组列表中。每个crawler都有一个进度面板gui,显示已爬行的
页面
等,并允许用户暂停该
爬虫
。但是,用户可能还想“终止”该
爬虫
程序。我需要做什么才能让用户按下"Terminate“,对于那个爬行器,它的
抓取
器,以及
抓取
器的DatabaseConn
浏览 4
提问于2011-07-08
得票数 0
回答已采纳
2
回答
使用javascript导入外部
页面
、
、
我想做一个
java
脚本
爬虫
,从php服务器获得一个分配,然后索引
页面
。但是我想
抓取
的网站是外部的,我不能用javascript访问它们,有没有人有其他赋值语言或javascript的解决方案。我想过在加载新站点时使用greasemonkey
抓取
页面
。
浏览 1
提问于2012-03-06
得票数 0
6
回答
爬虫
vs刮板
、
、
有人能在范围和功能方面区分
爬虫
和刮板吗?
浏览 0
提问于2010-07-09
得票数 71
回答已采纳
2
回答
数据挖掘,用于收集网站的详细信息并放入CSV或SQL中
我如何开始编写一个程序,它将
抓取
他们的
页面
,并将
页面
的选择性信息放入CSV格式,然后我可以将其导入到我的网站中? 至少,我可以在哪里学到这一点?谢谢。
浏览 9
提问于2011-03-26
得票数 0
回答已采纳
2
回答
用crawler4j请求发送cookies?
、
、
我需要
抓取
一些链接,这些链接依赖于GET请求中发送的cookie。因此,当我想用crawler4j
抓取
页面
时,我需要发送一些cookie来获取正确的
页面
。或者,有没有
Java
爬虫
能够做到这一点? 感谢您的帮助。
浏览 3
提问于2011-12-16
得票数 3
回答已采纳
2
回答
抓取
图像、整个Web
页面
并缓存它们
我想
抓取
一些图像和他们的网页。我需要将
抓取
结果保存在本地磁盘中以供进一步分析。我想知道这个问题有没有开源的?
浏览 0
提问于2010-06-16
得票数 0
5
回答
C#中任何好的开源网络爬行框架
、
、
、
我已经决定在C#中构建
爬虫
。我对HttpWebRequest/HttpWebResponse类有很多不好的体验,众所周知,它们对于大型
爬虫
来说是高度错误和不稳定的。如果他们知道有什么好的开源
爬虫
框架,比如
java
有nutch和apache commons,它们是非常稳定和高度健壮的库,我想要这里的专家们的意见,他们已经编码
爬虫
程序。编辑:我必须
抓取
的一些网站使用非常复杂的
Java
Script呈现
页面
,现在这增加了我的网络
爬虫</em
浏览 2
提问于2010-12-06
得票数 9
回答已采纳
2
回答
有没有可以下载整个网站的网络
爬虫
?
、
需要知道是否有一个
爬虫
/下载器,可以
抓取
和下载和整个网站的链接深度至少为4页。我正在尝试下载的站点有
java
script超链接,这些超链接只能由浏览器呈现,因此
爬虫
程序无法
抓取
这些超链接,除非
爬虫
程序自己呈现它们!
浏览 4
提问于2010-09-30
得票数 0
回答已采纳
1
回答
将Nutch web爬行功能集成到
Java
应用程序中
、
、
我会在我的
Java
应用程序中使用Apache从一个或多个网站
抓取
网页。基本上,为了处理
页面
内容(文本等),我需要为web
爬虫
找到的每个网页调用我的
Java
应用程序的方法。如何做到这一点?
浏览 7
提问于2016-06-01
得票数 2
回答已采纳
2
回答
Google为我的网站显示了错误的标题- robots.txt问题
、
、
我们直截了当地说吧。我已经建立了这个网站以及所有的东西,但是当我在google上输入"lissa mariage“时,它显示了这从罗马尼亚翻译过来的意思:"pages_rss_title”。User-agent: GoogleDisallow: /现在,我需要你们的帮助,帮助我创建一个合适的robots.txt,因为我知道如果你不知道自
浏览 0
提问于2015-12-17
得票数 4
3
回答
更新sitemap.xml有什么好处?
、
、
与
爬虫
做他们的工作相比,这样做有什么好处呢? 网站地图是一个简单的方式,让网站管理员告知搜索引擎的网页,在他们的网站上,可供爬行。最简单的形式是,Sitemap是一个XML文件,它列出站点的URL以及关于每个URL的附加元数据(最后一次更新它的时间、它通常更改的频率以及它相对于站点中其他URL的重要性),以便搜索引擎能够更智能地
抓取
站点目前,我们的系统还没有动态地提供站点地图,所以我们必须用
爬虫
创建一个站点地图,这不是一个很好的过程。
浏览 1
提问于2009-08-28
得票数 0
回答已采纳
2
回答
web爬行工具,支持在开始爬行之前与目标站点进行交互
、
我正在寻找一个
爬虫
,它能够处理与Ajax的
页面
,并能够在开始爬行网站之前与目标网站执行某些用户交互(例如,点击某些菜单项,填写一些表格等).I尝试webdriver/selenium (这是真正的网络
抓取
工具),现在我想知道是否有任何
爬虫
程序,支持模拟某些用户交互之前开始爬行?(用
Java
、Python或Ruby ...)如果是,我很感谢任何描述这一点的链接。
浏览 1
提问于2011-06-28
得票数 0
1
回答
为什么我的动态创建的内容不能在Google中搜索
、
我的网站提供了动态创建的内容,
爬虫
可以看到,基于以下规范:。这样,谷歌
爬虫
用以下语法索引了大约5000个: urls 用谷歌的网站管理员工具查看我的
抓取
报告,我确信这些
页面
都被成功
抓取
了。请注意,我确实找到了我的通用网站,在“更多结果”下,我找到了大约40个动态生成的
页面
,但显然这不是我想要的。我想根据它们的内容(AAPL,GOOG,...)找到
页面
。也许,
爬虫
认为我的
页面
或多或少是一样的。但事实并非如此。
浏览 3
提问于2013-06-09
得票数 0
3
回答
scrapy能像Selenium一样控制和显示浏览器吗?
、
、
当我使用Selenium时,我可以看到浏览器GUI,是否可以使用scrapy或严格基于scrapy命令行?
浏览 4
提问于2015-11-03
得票数 1
回答已采纳
1
回答
HTML
抓取
-如何在yelp商业
页面
中找到商业类别?
、
、
我不想使用API,我希望
抓取
一个HTML
页面
并提取这些数据。
浏览 0
提问于2015-07-21
得票数 1
4
回答
构建web
爬虫
、
、
我目前正在开发一个内置网络
爬虫
的自定义搜索引擎。由于某种原因,我不喜欢多线程,因此到目前为止,我的索引器是以单线程的方式编写的。现在,我在构建
爬虫
时遇到了一个小难题。有人能建议一下,先
抓取
1个
页面
再索引,还是先
抓取
1000+
页面
和缓存,然后再索引,哪个更好?
浏览 2
提问于2009-05-14
得票数 1
1
回答
Nutch与Heritrix的比较
、
、
这不是互联网范围内的
抓取
。我不是建立一个搜索索引,而是有兴趣从网站上
抓取
特定的
页面
。 有没有人能详细介绍一下上述的利弊?谢谢Nayn
浏览 1
提问于2010-07-16
得票数 2
回答已采纳
1
回答
用于
爬虫
应用的数据库系统
、
我在一个基于
java
的
爬虫
上工作。我想在我的
爬虫
恢复功能,用户可以在任何时候暂停
爬虫
,在他想要的情况下,
爬虫
崩溃的情况下,他应该能够开始从
爬虫
停止的点上一次爬行。为此,我必须在数据库中存储所有outlink (在任何
页面
找到的链接)。我不确定哪个数据库是最好的这类系统,因为它需要非常快的插入和检索的链接从数据库和频率插入和检索将非常高。
浏览 2
提问于2012-01-06
得票数 1
回答已采纳
9
回答
BeautifulSoup和Scrapy crawler有什么区别?
、
、
、
我想做一个网站,显示亚马逊和易趣产品价格的比较。其中哪一个会工作得更好?为什么?我对BeautifulSoup比较熟悉,但对Scrapy crawler不太熟悉。
浏览 323
提问于2013-10-30
得票数 146
回答已采纳
2
回答
浏览器限制会影响网页
爬虫
吗?
、
、
return Redirect("/h"); return View(); 问题:如果我限制一些浏览器访问我的主视图,它也会限制对网络
爬虫
的访问吗
浏览 0
提问于2013-02-21
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
爬虫抓取页面图片
爬虫抓取页面图片 update
scrapy爬虫实战-国外soybase网站跨页面抓取
Java爬虫在网络数据抓取方面有什么优势和不足
如何吸引百度蜘蛛来抓取页面,蜘蛛抓取页面的因素
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券