腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
5
回答
Googlebot是用哪种编程
语言
编写
的
(或任何其他高效
的
网络
爬虫
)?
、
有人知道谷歌机器人是用哪种编程
语言
编写
的
吗? 或者,更普遍
的
是,高效
的
网络
爬虫
是用哪种
语言
编写
的
?我见过很多
Java
语言
,但在我看来,它不是最适合开发网络
爬虫
的
语言
,因为它产生了太多
的
开销(尝试使用Heritrix网络
爬虫
,它非常重)。
浏览 0
提问于2009-10-29
得票数 1
回答已采纳
2
回答
Lucene
爬虫
(它需要建立lucene索引)
、
、
我正在寻找Apache Lucene网络
爬虫
写在
java
,如果可能的话,或在任何其他
语言
。
爬虫
必须使用lucene并创建有效
的
lucene索引和文档文件,因此这就是nutch被排除
的
原因。有没有人知道这样
的
网络
爬虫
是否存在,如果答案是肯定
的
,我可以找到它。Tnx..。
浏览 0
提问于2009-10-16
得票数 1
回答已采纳
3
回答
检索包括嵌入对象
的
网页
、
我想取一个网页,包括图像,flash动画和其他嵌入式对象。实现这一目标的直接方法是什么?
浏览 1
提问于2010-04-19
得票数 2
1
回答
网站互动
、
我是这个网站
的
新手(和一般
的
编程人员),所以不要对我太苛刻了,哈哈。我学习了
Java
的
基础知识。我更喜欢用
Java
做这件事,我知道这不是最好
的
,甚至可能还很接近,但我还在学习,还不希望混淆多种
语言
。因此,我正在尝试创建一个可以与网站交互
的
程序。基本上我希望运行一个程序,它打开一个网站,我将能够从网站上获取数据,分析它,并与页面交互(不使用Robot类)。我尝试使用:来使用浏览器,但是我不太确定如何读取从网站发送
的
数据或交互 我听说过,
浏览 2
提问于2013-06-04
得票数 0
回答已采纳
1
回答
在
java
中获取网站
的
资源文件夹
、
、
、
我正在开发一个从instagram下载照片
的
应用程序,例如:如果我把这个uri放到应用程序上,它就会把图片下载到我
的
电脑上。我现在想做
的
是通过instagram页面的链接(例如:)并下载该页面上
的
所有照片,我如何实现这一点?我以为我可以从instagram
的
Frame文件夹中访问这些图片,但我不知道如何做到这一点,一些可以帮助我?有什么建议吗?这是我试图通过
java
访问
的
文件夹
的
图像。
浏览 4
提问于2016-01-13
得票数 0
1
回答
如何检测网页中大多数不常见
的
超链接和隐式重定向?
、
、
、
、
我在C++/Qt4.8.5中为Windows创建了网站
爬虫
。我发现,有时页面可能包含隐式(伪)重定向,就像script标记中
的
script。原始
爬虫
只检测到href标记中
的
a属性。但是还有其他节点可以包含urls。例如,<META HTTP-EQUIV="REFRESH" CONTENT="0; URL=/relative_url">。与url容器、隐式重定向相关
的
标记/属性(包括script)
的
非正式列表
浏览 1
提问于2014-03-30
得票数 3
回答已采纳
3
回答
高效网络
爬虫
的
语言
建议
、
、
、
我正在寻找一种
语言
来编写一个高效
的
网络
爬虫
。我所看重
的
东西:我试过node.js。Node
的
异步特性允许我在不处理线程
的
情况下并行地爬行许多urls。V8对于解析来说是很好
的
和快速
的
。 实际上,node并不适合我。我<
浏览 6
提问于2010-12-03
得票数 2
1
回答
使用javascript URL数组
的
网络
爬虫
?
、
、
我让用户输入他们想要抓取最新更新
的
URL列表。我对
Java
很熟悉,所以我试着用
Java
做一个网络
爬虫
,但我不太明白如何把这个数组从javascript转换成
Java
。为了能够抓取数组中
的
每个URL,最兼容
的
语言
是什么?
浏览 3
提问于2016-01-17
得票数 0
2
回答
带有最佳可定制
爬虫
和抓取器
的
建议
、
、
、
我有一个网站,这是相当好,但与非常少
的
信息。所以我想添加一些信息,比如关于特定领域
的
新闻(比如政治、好莱坞等)。我相信
爬虫
是最好
的
方法吗?如果我
的
理解是正确
的
,请建议您是否有任何其他方法来获取信息,而不使用来自各种来源
的
爬虫
。因为这非常耗费
浏览 0
提问于2010-11-11
得票数 0
3
回答
如何在ABOT C#网络
爬虫
中获取html输出页面?
、
我正在尝试用ABOT在c#.i中制作网络
爬虫
,我搜索了很多例子,并添加了ABOT网络
爬虫
。从那我只能得到日志输出而不是超文本标记
语言
页面输出。我想得到超文本标记
语言
页面输出only.because,超文本标记
语言
输出是超文本标记
语言
敏捷工具
的
输入。帮助我从ABOT网络
爬虫
在C#中获得超文本标记
语言
输出。谢谢。
浏览 4
提问于2013-09-12
得票数 5
1
回答
将Web Scraper/ Web Crawler移植到移动设备?
、
、
、
是否可以将网络爬行器/网络
爬虫
移植到智能手机等移动设备上?如果是这样,我会怎么做呢?
浏览 0
提问于2011-12-20
得票数 0
1
回答
TYPO3 - indexed_search -
爬虫
配置-多
语言
站点
、
、
我想禁用前端索引,利用
爬虫
。如何设置以下
爬虫
配置:( B)用几种
语言
编制定制记录索引 但是,在文档中没有任何关于
语言
的
内容:
浏览 0
提问于2018-07-24
得票数 1
回答已采纳
3
回答
C++网络
爬虫
、
、
、
我正在尝试并尝试制作一个最小
的
网络
爬虫
。我在很高
的
层次上理解了整个过程。那么进入下一层细节,程序如何“连接”到不同
的
网站来提取HTML?另外,对于网络
爬虫
来说,C++是一个很好
的
选择吗? 谢谢!
浏览 1
提问于2012-07-01
得票数 0
回答已采纳
2
回答
用于Crawler4j
的
JavaDoc
、
我最近在
Java
语言
中遇到了用于WebCrawling
的
Api,但是在开发我
的
自定义
爬虫
的
过程中,我了解到没有为此提供javaDoc 有人知道这个接口有JavaDoc吗?如果有,那么它在哪里?
浏览 6
提问于2015-03-12
得票数 0
1
回答
twitter好友爬行器
、
我是一个研究生,他
的
研究是复杂
的
网络。我正在从事一个项目,其中包括分析用户之间
的
联系(折叠和折叠)。是否有可能根据友谊信息为twitter编写一个
爬虫
? 我环顾四周,但至今没有发现任何有用
的
东西。
浏览 1
提问于2011-03-17
得票数 0
5
回答
如何在
Java
中设计一个网络
爬虫
?
、
、
我在一个项目上工作,这需要在
Java
中设计一个网络
爬虫
,可以采取用户查询一个特定
的
新闻主题,然后访问不同
的
新闻网站,然后从这些网页提取新闻内容,并将其存储在一些文件/数据库中。我需要这个来做一个整体存储内容
的
摘要。我是这个领域
的
新手,所以希望有经验的人能给我一些帮助。现在我有代码从单个页面提取新闻内容,这需要手动获取页面,但我不知道如何将它集成在一个网络
爬虫
中,从不同
的
页面提取内容。有没有人可以提供一些好
的
Java<
浏览 0
提问于2012-04-05
得票数 4
回答已采纳
1
回答
除了下面的链接之外,还有什么方法可以抓取网页?
、
除了使用超链接之外,还有什么方法可以抓取网页?
浏览 14
提问于2021-03-25
得票数 0
1
回答
什么工具或
语言
,或者我如何才能建立像谷歌新闻
的
网站
然后阅读这些网站后,我需要过滤新闻e,例如与梅赛德斯奔驰相关
的
新闻,然后我需要显示在该网站上参考原始来源。目前,我知道PHP,可以在其中建立复杂
的
网站。我不知道如何继续,我
的
意思是,在尝试制作网站之前,我需要学习哪些东西。或者我可以直接潜入这个网站。 请帮帮忙,我该怎么做呢?
浏览 2
提问于2010-09-13
得票数 0
回答已采纳
2
回答
PHP与
、
、
我计划制作
的
网络
爬虫
,可以抓取200+领域,哪一种
语言
将适合它。我非常熟悉PHP,但我是Python
的
业余爱好者。
浏览 2
提问于2014-11-21
得票数 0
回答已采纳
3
回答
谷歌机器人信息?
、
、
有没有人知道更多关于谷歌网络
爬虫
(又称GoogleBot)
的
细节?我很好奇它是用什么写
的
(我自己做了几个
爬虫
,现在正准备做另一个),以及它是否能解析图像之类
的
东西。我假设它是这样做
的
,b/c images.google.com中
的
图像都被调整了大小。如果它都是用Python编写
的
,如果他们使用自己
的
库来做大多数事情,包括html/image/pdf解析,我也不会感到惊讶。也许他们不会这样做。也许它们都是用
浏览 1
提问于2010-04-14
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
为什么爬虫语言选择Python而不是Java?
IPIDEA干货|Java爬虫与Python爬虫的区别
基于r语言的爬虫
Java爬虫框架WebMagic的使用总结
java语言“最经典的编程语言”
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
实时音视频
活动推荐
运营活动
广告
关闭
领券