腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
Web Crawler与Html解析器
、
、
、
web
爬虫
和解析器有什么区别? 他们的目的是一样的吗?
浏览 3
提问于2018-11-14
得票数 2
回答已采纳
4
回答
如何在
java
中创建网络
爬虫
?
、
嗨,我想创建一个网络
爬虫
在
java
中,我想检索一些
数据
,如标题,从
网页
描述,并存储在
数据
库中的
数据
浏览 1
提问于2010-11-09
得票数 0
1
回答
识别搜索爬行器
、
、
、
我有一个网站,统计有多少人访问了这个特定的
网页
,但我不想计数什么时候搜索
爬虫
访问他们。
java
是否有任何方法来识别它是
爬虫
还是真正的用户?使用
Java
7和tomcat 谢谢
浏览 2
提问于2015-10-21
得票数 1
回答已采纳
1
回答
Web Crawler的功能
、
、
网络
爬虫
是否只从
网页
中返回提取的文本?例如,如果web服务器中也存储了一些pdf/doc文件。网络
爬虫
可以爬行它们并返回它们的内容吗?不管怎样,对于一个好的开源
Java
网络
爬虫
有什么建议呢? 谢谢!
浏览 2
提问于2011-06-26
得票数 0
回答已采纳
1
回答
谷歌网站
爬虫
如何找到我的网站,如果我没有张贴网址任何地方?
、
想知道谷歌网站
爬虫
是如何找到我的网站。假设我没有在谷歌索引的任何其他地方发布网址。 有人能解释一下吗?
浏览 2
提问于2016-04-22
得票数 0
回答已采纳
2
回答
如何使用
java
或Python动态读取
网页
中的流式/推送
数据
?
、
、
、
、
我正在寻找最好的方法,可以帮助我从
网页
获取/接收推流(例如lightstreamer)。 由于网站每5秒通过JavaScript更新一次表,因此无法为此编写
爬虫
程序,它是动态加载的。我想要这个
网页
中的
数据
表,但我不知道如何使用
Java
或Python来实现。我已经搜索了很多,大多数答案都是关于“如何从服务器流式传输
数据
”这样的问题,但我想要的恰恰相反,我如何从
网页
读取动态流式/推送的
数据
?
浏览 19
提问于2016-08-26
得票数 0
1
回答
哪个用于
Java
的html DOM解析库是最好的?
、
、
我正在研究
爬虫
,这将搜索在网上商店的商品。这是我的论文所以没什么商业意义..我需要一些高级的库,做一些诊断测试(如果那个
网页
是我要找的),并从正确的
网页
中提取相关
数据
。
浏览 2
提问于2011-03-04
得票数 4
回答已采纳
1
回答
在某个网站中搜索的
java
程序
、
我想写一个
Java
代码来解析某个网站。网站中的每个结果都出现在指定的URL中。我该怎么开始呢?有没有好的库可以使用?我能从你在这个领域的经验中受益吗?
浏览 0
提问于2011-07-26
得票数 2
回答已采纳
1
回答
利用JSoup浏览
网页
、
、
、
我制作了一个网络刮刀,在IMDB上抓取一些信息。它通过将url中的数字更改为不同的随机数字来遍历每个页面,然后在这个新页面上重复web抓取过程。我怎样才能在BFI网站上做到这一点?我看不到从一部电影到另一部电影的路。
浏览 2
提问于2013-10-25
得票数 0
回答已采纳
1
回答
如果我为我的python脚本做了一个简单的gui,它会影响它的效率吗?
、
、
嗨,我想做一个
网页
爬虫
,检查URL的
数据
,如果我做一个简单的Gui,使脚本更容易查找变量的
数据
,添加代码的gui会使我的网络
爬虫
效率降低吗? 我需要
爬虫
尽可能高效,能够尽可能快地处理
数据
。为这个Python脚本制作一个gui,会不会妨碍web
爬虫
的性能?
浏览 3
提问于2015-01-27
得票数 0
回答已采纳
3
回答
“索引,跟随”和“跟随”的区别是什么?
、
、
以下清单有哪些不同之处: <meta name="
浏览 4
提问于2018-07-11
得票数 6
1
回答
将Nutch web爬行功能集成到
Java
应用程序中
、
、
我会在我的
Java
应用程序中使用Apache从一个或多个网站抓取
网页
。基本上,为了处理页面内容(文本等),我需要为web
爬虫
找到的每个
网页
调用我的
Java
应用程序的方法。如何做到这一点?
浏览 7
提问于2016-06-01
得票数 2
回答已采纳
2
回答
索引在
数据
库中意味着什么?
、
它对网络
爬虫
有什么用处?
浏览 4
提问于2010-08-18
得票数 0
回答已采纳
1
回答
从
Java
获取带有javascript链接的
网页
、
、
、
、
我在
Java
中有一个web
爬虫
应用程序,需要访问
网页
中的所有链接。问题是,在某些页面中,链接是由javascript函数生成的。其他远程
网页
花费了更多的时间。 我希望找到
网页
中所有链接的最简单/最快的方法,甚至是
Java
中的javascript链接。(欢迎使用C/C++解决方案)。我也知道 (
爬虫
)有一个来自Javascript的链接提取器,但我不确定该代码是否可以从Nutch中“提取”出来,用于另一个上下文中。
浏览 4
提问于2010-11-09
得票数 0
2
回答
使用crawler4j库实现
Java
crwaler中模式匹配的一些信息
、
、
、
我想用
Java
实现一个非常简单的web
爬虫
,我已经找到了这个库: crawler4j:从URL开始(由我指定),并识别当前页面中是否有一个特定的单词,比如自己的名称或公司名称(这个词也是由我指定的) 如果找到这个单词,则必须将当前页面URL保存在
数据
库中。因此,没有语义分析,只有语法分析(
爬虫
必须尝试将
网页
内容与我指定的标记匹配)。
浏览 4
提问于2013-02-21
得票数 0
回答已采纳
5
回答
如何将动态站点转换为可从CD演示的静态站点?
、
、
后端
数据
存储分布在很多很多系统上,所以简单地在销售人员的笔记本电脑上的虚拟机上运行站点是行不通的。而且他们在一些客户端无法访问互联网(我知道没有互联网,手机phone....primitive )。有没有人对
爬虫
有什么好的建议,可以处理像链接清理,flash,一些ajax,css等等?我知道机会很小,但我认为在我开始编写自己的工具之前,我应该在这里抛出这个问题。
浏览 3
提问于2008-09-22
得票数 9
回答已采纳
1
回答
搜索引擎如何唯一地识别web上的每个页面
、
、
、
、
如果我写了一篇文章,他的链接是'example.com/abc.php‘&这篇文章在搜索引擎中排名靠前。 几天后,我更新了这篇文章,包括它的内容和'xyz.php‘的永久链接。 现在,之前URL为'example.com/abc.php‘的帖子被更新为'example.com/xyz.php’。 那么搜索引擎将如何知道这是与URL example.com/abc.php排名相同的页面/帖子。并且需要将搜索结果中的链接更新为“example.com/xyz.php”,而不影响排名。 在更新固定链接之前和之后,在为搜索引擎创建一个唯一标识页面的新帖子时,有
浏览 35
提问于2021-01-25
得票数 0
5
回答
如何在
Java
中设计一个网络
爬虫
?
、
、
我在一个项目上工作,这需要在
Java
中设计一个网络
爬虫
,可以采取用户查询一个特定的新闻主题,然后访问不同的新闻网站,然后从这些
网页
提取新闻内容,并将其存储在一些文件/
数据
库中。现在我有代码从单个页面提取新闻内容,这需要手动获取页面,但我不知道如何将它集成在一个网络
爬虫
中,从不同的页面提取内容。有没有人可以提供一些好的
Java
教程或实现的链接,我可以根据需要使用或修改这些链接?
浏览 0
提问于2012-04-05
得票数 4
回答已采纳
2
回答
滚动您自己的web
爬虫
来抓取一个有多个条目的特定网站。
、
什么样的语言能够处理编写自己的
网页
爬虫
?但是如果我需要的话,我想有一个很好的理由去学习一门新的语言。
浏览 0
提问于2011-08-02
得票数 0
回答已采纳
3
回答
Python web crawler与MySQL
数据
库
、
、
、
、
我想创建或找到一个用Python编写的开源网络
爬虫
(
爬虫
/机器人)。它必须找到并跟踪链接,收集元标签和元描述,
网页
的标题和
网页
的网址,并将所有的
数据
放入一个MySQL
数据
库。
浏览 4
提问于2011-08-11
得票数 6
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Java 爬虫遇上数据异步加载
用Python做网页爬虫
Python网络爬虫抓取动态网页并将数据存入数据库MYSQL
Python爬虫实现网页截图的方法
网页爬虫与Bioconductor!
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
即时通信 IM
活动推荐
运营活动
广告
关闭
领券