腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
5
回答
如何在
Java
中设计一个网络
爬虫
?
、
、
我在一个项目上工作,这需要在
Java
中设计一个网络
爬虫
,可以采取用户查询一个特定的新闻主题,然后访问不同的新闻
网站
,然后从这些网页提取新闻内容,并将其存储在一些文件/数据库中。现在我有代码从单个页面提取新闻内容,这需要手动获取页面,但我不知道如何将它集成在一个网络
爬虫
中,从不同的页面提取内容。有没有人可以提供一些好的
Java
教程或实现的链接,我可以根据需要使用或修改这些链接?
浏览 0
提问于2012-04-05
得票数 4
回答已采纳
3
回答
网络
爬虫
反馈?
、
、
、
嘿,伙计们,偶尔我需要自动从
网站
收集数据。有时我需要一个目录中的一堆URL,有时我需要一个XML站点地图(是的,我知道有很多软件用于这个和在线服务)。无论如何,作为对我上一个问题的跟进,我写了一个小的网络
爬虫
,可以访问
网站
。 可以建立JDBC连接,以将链接存储在数据库中,而不是跟踪对象中已处理的链接和排队链接。但是,目前一次只限于一个
网站
,可以通过添加
浏览 12
提问于2010-05-29
得票数 2
回答已采纳
1
回答
识别搜索爬行器
、
、
、
我有一个
网站
,统计有多少人访问了这个特定的网页,但我不想计数什么时候搜索
爬虫
访问他们。
java
是否有任何方法来识别它是
爬虫
还是真正的用户?使用
Java
7和tomcat 谢谢
浏览 2
提问于2015-10-21
得票数 1
回答已采纳
1
回答
运行
网站
爬虫
、
我正在用
java
编写一个
网站
爬虫
,我想知道运行它最明智的方式是什么?换句话说,我是走标准的web应用程序路线,放入web服务器并使用某种类型的消息队列,还是忘记容器而将其作为独立的
java
应用程序运行?这不是一个真正的网络
爬虫
,因为它只关心x个
网站
,但我想不断循环通过这些
网站
(24小时),以确保我有最新的内容。
浏览 0
提问于2012-01-10
得票数 0
回答已采纳
3
回答
Java
用户代理
、
我最近开始在我的
网站
上看到像
Java
/1.6.0_14 (及其变体)这样的用户代理 这是什么意思。它是浏览器还是机器人还是别的什么?
浏览 0
提问于2009-07-02
得票数 5
回答已采纳
2
回答
浏览器限制会影响网页
爬虫
吗?
、
、
return Redirect("/h"); return View(); 问题:如果我限制一些浏览器访问我的主视图,它也会限制对网络
爬虫
的访问吗
浏览 0
提问于2013-02-21
得票数 0
回答已采纳
2
回答
有没有可以下载整个
网站
的网络
爬虫
?
、
需要知道是否有一个
爬虫
/下载器,可以抓取和下载和整个
网站
的链接深度至少为4页。我正在尝试下载的站点有
java
script超链接,这些超链接只能由浏览器呈现,因此
爬虫
程序无法抓取这些超链接,除非
爬虫
程序自己呈现它们!
浏览 4
提问于2010-09-30
得票数 0
回答已采纳
1
回答
网络
爬虫
会遇到什么危险?
我刚写完一个
爬虫
,一直在想为什么爬行某个
网站
会很糟糕。我知道现代浏览器的风险主要是由javascript造成的。因此,我的问题是,web
爬虫
(用PHP或
Java
编写)是否能够刮起可能会对
爬虫
造成损害的站点?
浏览 3
提问于2014-11-08
得票数 1
1
回答
有一个流行的工具来抓取网络数据吗?
、
我正在做信息提取的工作,我需要一个工具从网页上抓取数据,windows中有流行的工具吗?
浏览 7
提问于2009-12-14
得票数 0
2
回答
使用Web Crawler爬行Web数据
、
我想使用一个网络
爬虫
和抓取一个特定的
网站
。该
网站
是一个学习管理系统,许多学生在这里上传他们的作业,项目演示文稿等。我的问题是,我可以使用网络
爬虫
下载已经上传到学习管理系统中的文件吗?
爬虫
能做到这点吗?我知道webeater (用
Java
编写的Crawler )
浏览 1
提问于2011-03-30
得票数 1
回答已采纳
2
回答
在GUI中显示另一个线程的状态
、
我有一个GUI,GUI正在启动另一个线程(
Java
)。此线程正在启动一个正在爬行许多
网站
的类。现在,我想在GUI中显示抓取了多少
网站
以及还剩下多少
网站
。我想知道对此最好的解决方案是什么。第一个想法是在GUI中启动一个计时器,并定期询问
爬虫
还剩下多少。但我想这是很脏的..。 然后,可以将GUI传递给
爬虫
程序,并且每当准备好的
网站
数量发生变化时,
爬虫
程序都会调用GUI方法。
浏览 0
提问于2013-07-12
得票数 0
回答已采纳
1
回答
用
Java
开发自动web
爬虫
你好,我想抓取多个电子商务
网站
,并获得所有可用的产品被抓取和显示在我的
网站
。我已经使用
Java
开发了
爬虫
,但在这方面,我们必须通过提供URL和HTML标记来手动抓取
网站
,并通过连接URL和解析URL来抓取站点,并在相应的HTML标记中获取产品。如果我在我的
网站
上搜索一个产品,那么相应的产品应该自动从电子商务
网站
上爬行。如果我想爬行佳能相机,
爬虫
应该自动完成。 有可能使
爬虫
自动化吗?如果是,请帮助我做这件事。
浏览 1
提问于2014-01-20
得票数 1
5
回答
价格比较
网站
-它们是如何工作的?
、
、
我想知道是否有人可以向我解释一下价格比较
网站
是如何工作的?我的意思是,如果它像我想的那样工作(下面解释),那么我有一个非常好的项目可以为自己工作,从长远来看,应该会赚很多钱。所以我认为它的工作原理是每个供应商提供一个RSS提要,比较
网站
连接到这个RSS提要。每种产品都有自己的唯一代码(由制造商提供),这些代码在RSS提要的标准标记中提供。比较
网站
收集关于谁提供哪种产品的数据,并比较确实提供特定产品的数据。出售图书的比较
网站
可以按流派、作者等过滤这些图书,并使用xsl样式表( RSS提要以XML格式提供)显示它们想要的内容。
浏览 2
提问于2010-08-03
得票数 3
回答已采纳
1
回答
java
--跟踪运行
java
应用程序时所使用的带宽和其他参数的库/方法
、
我正在努力创建一个
Java
的网络
爬虫
。
爬虫
访问
网站
,使用JDBC访问/存储数据库中的数据,还将文件存储在本地或云存储上。作为爬行的一部分,我想记录
爬虫
使用的确切细节--Number of sites visited (HTTP+HTTPS) Number of bytes of data received也许是一些必须插入到我的
java
应用程序中的库?当
爬虫
执行某些操作(如访问
网站
、下载数据等)时,我是否需要在每个阶段单独记录
浏览 1
提问于2012-06-28
得票数 0
回答已采纳
3
回答
如何在
Java
中使用Sitemap进行网页抓取?
、
我需要开发的
爬虫
,这将从一个
网站
抓取所有的产品链接和价格。我听说使用robots.txt文件中提到的站点地图更有效和更快,但我不能想出如何使用站点地图进行爬行。请谁帮我如何使用
网站
地图爬行。 谢谢。
浏览 0
提问于2011-11-15
得票数 0
1
回答
Google运行代理IP
、
、
、
我的用例是托管一个,它解析多个启用地理封锁的
网站
。例如,我的应用程序需要爬行
网站
A,它只允许来自亚洲国家的流量,另一个
网站
B只允许来自美国的流量。
浏览 13
提问于2022-01-19
得票数 0
1
回答
支持windows增量爬行的Web
爬虫
、
、
、
、
我需要一个开源的web
爬虫
在
java
开发的增量爬行支持。 Nutch -一个网络
爬虫
,有更多的hadoop支持功能。但是我浏览了很多
网站
和教程,没有合适的文档,api可以在windows中通过编程方式定制它。我可
浏览 4
提问于2014-09-22
得票数 1
回答已采纳
5
回答
如何将动态站点转换为可从CD演示的静态站点?
、
、
我需要找到一种方法来爬行我们公司的web应用程序之一,并从它创建一个静态
网站
,可以烧录到cd上,供旅行的销售人员用来演示
网站
。有没有人对
爬虫
有什么好的建议,可以处理像链接清理,flash,一些ajax,css等等?我知道机会很小,但我认为在我开始编写自己的工具之前,我应该在这里抛出这个问题。
浏览 3
提问于2008-09-22
得票数 9
回答已采纳
1
回答
为什么我的Crawler会得到错误的HTML代码?
、
我想用
java
写一个
爬虫
来做一些学校练习。实际上,用jsoup库实现的
爬虫
代码可以工作,因为我的请求的结果是一些HTML代码,但是当我搜索一个明确写在
网站
上的单词时,没有找到它,因为一些div的来自于空的
爬虫
。然后我意识到,当您导航到
网站
并右键单击‘查看页面源’时,我得到了与相同的代码。当我将代码与进行比较时,右键单击“->”检查“”时,代码与“查看页面源”中的不同。
浏览 0
提问于2019-09-12
得票数 1
回答已采纳
2
回答
使用
Java
的web索引器
、
、
、
当用
Java
开发时,并行系统和分布式系统哪个更适合
网站
爬虫
和web索引器?可用的框架有哪些?
浏览 3
提问于2010-08-01
得票数 2
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
【Java爬虫】测测面相
IPIDEA干货|Java爬虫与Python爬虫的区别
php 网站爬虫入门
Java 爬虫遇上数据异步加载
学习分享Java爬虫伪代码
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
实时音视频
活动推荐
运营活动
广告
关闭
领券