腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
5
回答
Googlebot是用哪种编程
语言
编写的(或任何其他高效的网络
爬虫
)?
、
有人知道谷歌机器人是用哪种编程
语言
编写的吗? 或者,更普遍的是,高效的网络
爬虫
是用哪种
语言
编写的?我见过很多
Java
语言
,但在我看来,它不是最适合开发网络
爬虫
的
语言
,因为它产生了太多的开销(尝试使用Heritrix网络
爬虫
,它非常重)。
浏览 0
提问于2009-10-29
得票数 1
回答已采纳
2
回答
Lucene
爬虫
(它需要建立lucene索引)
、
、
我正在寻找Apache Lucene网络
爬虫
写在
java
,如果可能的话,或在任何其他
语言
。
爬虫
必须使用lucene并创建有效的lucene索引和文档文件,因此这就是nutch被排除的原因。有没有人知道这样的网络
爬虫
是否存在,如果答案是肯定的,我可以找到它。Tnx..。
浏览 0
提问于2009-10-16
得票数 1
回答已采纳
3
回答
检索包括嵌入对象的网页
、
我想取一个网页,包括图像,flash动画和其他嵌入式对象。实现这一目标的直接方法是什么?
浏览 1
提问于2010-04-19
得票数 2
1
回答
网站互动
、
我学习了
Java
的基础知识。我更喜欢用
Java
做这件事,我知道这不是最好的,甚至可能还很接近,但我还在学习,还不希望混淆多种
语言
。 因此,我正在尝试创建一个可以与网站交互的程序。
浏览 2
提问于2013-06-04
得票数 0
回答已采纳
1
回答
在
java
中获取网站的资源文件夹
、
、
、
这是我试图通过
java
访问的文件夹的图像。
浏览 4
提问于2016-01-13
得票数 0
1
回答
如何检测网页中大多数不常见的超链接和隐式重定向?
、
、
、
、
我在C++/Qt4.8.5中为Windows创建了网站
爬虫
。我发现,有时页面可能包含隐式(伪)重定向,就像script标记中的script。原始
爬虫
只检测到href标记中的a属性。但是还有其他节点可以包含urls。例如,<META HTTP-EQUIV="REFRESH" CONTENT="0; URL=/relative_url">。也许,C++/
Java
中的某些库包含了这些情况的处理。 另外,我注意到向请求中添加首选
语言
的标题不能更改站点
浏览 1
提问于2014-03-30
得票数 3
回答已采纳
3
回答
高效网络
爬虫
的
语言
建议
、
、
、
我正在寻找一种
语言
来编写一个高效的网络
爬虫
。我所看重的东西:我试过node.js。
浏览 6
提问于2010-12-03
得票数 2
1
回答
使用javascript URL数组的网络
爬虫
?
、
、
我对
Java
很熟悉,所以我试着用
Java
做一个网络
爬虫
,但我不太明白如何把这个数组从javascript转换成
Java
。为了能够抓取数组中的每个URL,最兼容的
语言
是什么?
浏览 3
提问于2016-01-17
得票数 0
2
回答
带有最佳可定制
爬虫
和抓取器的建议
、
、
、
我相信
爬虫
是最好的方法吗?如果我的理解是正确的,请建议您是否有任何其他方法来获取信息,而不使用来自各种来源的
爬虫
。因为这非常耗费资源和时间。在选择
爬虫
之前,我应该考虑哪些因素。任何提供信息和研究因素的来源在创建
爬虫
或教育
爬虫
时都需要考虑,这将是很棒的。我更喜欢用
java
编写代码,但我可以用任何其他
语言<
浏览 0
提问于2010-11-11
得票数 0
3
回答
如何在ABOT C#网络
爬虫
中获取html输出页面?
、
我正在尝试用ABOT在c#.i中制作网络
爬虫
,我搜索了很多例子,并添加了ABOT网络
爬虫
。从那我只能得到日志输出而不是超文本标记
语言
页面输出。我想得到超文本标记
语言
页面输出only.because,超文本标记
语言
输出是超文本标记
语言
敏捷工具的输入。帮助我从ABOT网络
爬虫
在C#中获得超文本标记
语言
输出。谢谢。
浏览 4
提问于2013-09-12
得票数 5
1
回答
将Web Scraper/ Web Crawler移植到移动设备?
、
、
、
是否可以将网络爬行器/网络
爬虫
移植到智能手机等移动设备上?如果是这样,我会怎么做呢?
浏览 0
提问于2011-12-20
得票数 0
1
回答
TYPO3 - indexed_search -
爬虫
配置-多
语言
站点
、
、
我想禁用前端索引,利用
爬虫
。如何设置以下
爬虫
配置:( B)用几种
语言
编制定制记录索引 但是,在文档中没有任何关于
语言
的内容:
浏览 0
提问于2018-07-24
得票数 1
回答已采纳
2
回答
用于Crawler4j的JavaDoc
、
我最近在
Java
语言
中遇到了用于WebCrawling的 Api,但是在开发我的自定义
爬虫
的过程中,我了解到没有为此提供javaDoc 有人知道这个接口有JavaDoc吗?如果有,那么它在哪里?
浏览 6
提问于2015-03-12
得票数 0
3
回答
C++网络
爬虫
、
、
、
我正在尝试并尝试制作一个最小的网络
爬虫
。我在很高的层次上理解了整个过程。那么进入下一层细节,程序如何“连接”到不同的网站来提取HTML?谢谢!
浏览 1
提问于2012-07-01
得票数 0
回答已采纳
1
回答
twitter好友爬行器
、
是否有可能根据友谊信息为twitter编写一个
爬虫
? 我环顾四周,但至今没有发现任何有用的东西。谢谢莱拉
浏览 1
提问于2011-03-17
得票数 0
1
回答
除了下面的链接之外,还有什么方法可以抓取网页?
、
除了使用超链接之外,还有什么方法可以抓取网页?
浏览 14
提问于2021-03-25
得票数 0
5
回答
如何在
Java
中设计一个网络
爬虫
?
、
、
我在一个项目上工作,这需要在
Java
中设计一个网络
爬虫
,可以采取用户查询一个特定的新闻主题,然后访问不同的新闻网站,然后从这些网页提取新闻内容,并将其存储在一些文件/数据库中。现在我有代码从单个页面提取新闻内容,这需要手动获取页面,但我不知道如何将它集成在一个网络
爬虫
中,从不同的页面提取内容。有没有人可以提供一些好的
Java
教程或实现的链接,我可以根据需要使用或修改这些链接?
浏览 0
提问于2012-04-05
得票数 4
回答已采纳
1
回答
什么工具或
语言
,或者我如何才能建立像谷歌新闻的网站
我必须建立一个网站,我需要爬行过滤,或者你可以说阅读50个网站管理员。然后阅读这些网站后,我需要过滤新闻e,例如与梅赛德斯奔驰相关的新闻,然后我需要显示在该网站上参考原始来源。目前,我知道PHP,可以在其中建立复杂的网站。但是我不知道如何阅读其他网站。我不知道如何继续,我的意思是,在尝试制作网站之前,我需要学习哪些东西。或者我可以直接潜入这个网站。
浏览 2
提问于2010-09-13
得票数 0
回答已采纳
2
回答
使用javascript导入外部页面
、
、
我想做一个
java
脚本
爬虫
,从php服务器获得一个分配,然后索引页面。但是我想抓取的网站是外部的,我不能用javascript访问它们,有没有人有其他赋值
语言
或javascript的解决方案。
浏览 1
提问于2012-03-06
得票数 0
2
回答
PHP与
、
、
我计划制作的网络
爬虫
,可以抓取200+领域,哪一种
语言
将适合它。我非常熟悉PHP,但我是Python的业余爱好者。
浏览 2
提问于2014-11-21
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
为什么爬虫语言选择Python而不是Java?
IPIDEA干货|Java爬虫与Python爬虫的区别
【Java爬虫】测测面相
Go语言网络爬虫概述
R语言网络爬虫经验
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券