腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(2265)
视频
沙龙
1
回答
如何使用wget下载页面,但如果页面不存在,则忽略404错误消息?
有没有办法让wget在下载网址或
爬
取
网页
时忽略HTTP错误响应码?
浏览 5
提问于2015-08-19
得票数 6
回答已采纳
1
回答
如何用python
爬
取
数据并保存到excel?
利用python
爬
取
豆瓣电影排行榜(https://movie.douban.com/chart)的数据并保存到excel中。用相同代码
爬
取
网页
豆瓣top250的数据可以
爬
取到excel中,但将网址及相关信息改为
网页
豆瓣电影排行榜中的信息时便无法
爬
取
,也找不出问题所在。以下图片为完整代码。
浏览 340
提问于2021-01-09
2
回答
请问一下页面上的图片,怎样获取它的URL呢?
、
浏览 365
提问于2020-10-26
2
回答
关闭浏览器或单击中止时,脚本不会停止
、
、
我写了一个网络爬虫,它在do while循环中调用
网页
,循环时间为3秒 总共有7000个网站...我解析数据并将其保存在我的数据库中。
浏览 0
提问于2010-01-22
得票数 0
0
回答
新浪微博搜索是否禁用了huginn,有什么解决办法吗?
比如,用huginn
爬
网这个链接: https://s.weibo.com/weibo?换了其他地方的机器,电脑和ip不同,huginn照样无法正常
爬
取
。而在同一台机器上用 下载工具甚至简单的脚本下载这个链接的
网页
内容,却可以实现,不知道是什么情况。
浏览 114
提问于2021-09-28
0
回答
java
怎样
爬
取
js
动态请求的数据?
、
、
动态加载的数据获取不到(cd.fangfaxian.com)
浏览 229
提问于2020-04-28
1
回答
如何找出有多少人在使用你创建的脚本?
、
、
我创建了一个jQuery插件,想知道是否有人知道有多少人在使用它?有没有办法抓取网站,并返回一个是,如果网站正在使用它?
浏览 0
提问于2011-09-19
得票数 0
回答已采纳
2
回答
在
Java
中从某个URL调用脚本?
、
、
、
、
为了方便起见,我使用
Java
解析一个随机网站的超文本标记语言,假设它是。在解析HTML数据之后,我希望提取其中的一些数据,并将其显示在显示器上。之后,用户将输入搜索词,并按下一个按钮。
浏览 0
提问于2012-03-30
得票数 0
回答已采纳
1
回答
IE 8的问题
我的网站在mozila上工作正常,但当我们转到IE 8时,它在状态栏上显示错误User Agent: Mozilla/4.0 (compatible; MSIE 8.0; Windows
浏览 0
提问于2011-04-04
得票数 0
1
回答
通过硒的jscriptexecutor更改
网页
中的标签
、
、
方法(使用Selenium):
js
.executeScript("w
浏览 6
提问于2017-05-19
得票数 0
回答已采纳
1
回答
如何避免
爬
取
CGI生成的日历
网页
、
网页
由CGI程序生成。大多数
网页
的URL都包含诸如?id=2323&title=foo之类的表达式。然而,我面临的一个问题是,这个网站有一个日历。也会生成一些类似日期的
网页
。这意味着纳奇将试图抓取一些无害的
网页
,如year=2030&month=12。如何在Nutch中避免这样的陷阱?编写很多正则表达式?
浏览 1
提问于2012-01-27
得票数 0
回答已采纳
1
回答
Nutch API建议
、
、
我目前的需求相对简单:我需要一个能够将数据保存到磁盘的爬虫程序,并且我需要它能够仅重新
爬
取
站点的更新资源,并跳过已经
爬
取
的部分。有没有人有在
Java
中直接使用Nutch代码的经验,而不是通过命令行。
浏览 0
提问于2010-12-03
得票数 6
回答已采纳
1
回答
雅虎管道合法性
、
、
如果一个网站声明不抓取他们的网站,那么使用Yahoo Pipes或YQL这样的工具来创建mash up还合法吗?谢谢。
浏览 2
提问于2013-09-26
得票数 0
3
回答
未调用Thread类中的Run方法
、
、
、
/* StreamGobbler.
java
*/import
java
.io.IOException;import
java
.io.InputStreamReader;import
java
.io.PrintWriter; class StreamGobbler
浏览 0
提问于2011-03-28
得票数 0
1
回答
如何找到在不同的页面上是否实际需要包含的JavaScript文件?
、
、
、
我正在寻找一种方法来搜索站点(或顶级页面列表),并确定是否实际需要包含在相关页面上的
JS
文件,或者哪些页面确实需要特定的
JS
文件。 30k+文件在
网页
目录中,Google索引域的350k+页面。
浏览 4
提问于2013-12-10
得票数 4
1
回答
zombiejs与
java
应用程序的集成
、
、
、
、
在上一篇关于
爬
网问题的帖子(#!)对于单页面应用程序,我们决定摆脱html单元(这对于
JS
来说非常慢),并选择实现Phantom
Js
with pushstate (以获得漂亮的urls)。由于Phantom
Js
不支持pushstate,我们现在正在考虑实现僵尸
Js
(希望是最后一次修改!) 有什么实现僵尸for
Java
应用的小贴士吗?或者其他更适合的无头浏览器(支持that状态并拥有强大的
Js
引擎)?
浏览 1
提问于2013-11-16
得票数 1
3
回答
大规模机器学习- Python还是
Java
?
、
、
、
、
我目前正在着手一个项目,该项目将涉及
爬
取
和处理大量数据(数百个数据集),并对它们进行挖掘以提取结构化数据,命名实体识别,重复数据删除,分类等。我熟悉来自
Java
和Python世界的ML工具: Lingpipe、Mahout、NLTK等。然而,当涉及到为如此大规模的问题选择平台时-我缺乏足够的经验来决定是
Java
还是Python。我知道这听起来像是一个模糊的问题,但我正在寻找关于选择
Java
或Python的一般建议。JVM提供了更好的性能(?)
浏览 6
提问于2012-03-15
得票数 34
回答已采纳
2
回答
为什么evaluateJavaScript只工作一次?
、
、
、
、
nextPage() mainFrame()->evaluateJavaScript("readweb.nextPage()");单击后,mainFrame应该加载一个新的url指向下一个
网页
(其中包含我想
爬
的图像)。在第一次单击之后,第二次单击并没有导致
网页
的新url loading.The
js
脚本已经加载,并且只加载了一次。 为什么不起作用?有人有类似的情况吗?
浏览 2
提问于2012-02-18
得票数 0
1
回答
JAVA
中的Web Crawler。
java
.out.lang.outofmemory无法创建本机线程
、
、
我目前正在构建这个网络爬虫来获取起始url的所有链接,并从这些链接中
爬
取
所有链接,等等。如果有人知道如何限制线程或修复以下错误:
java
.lang.outOfMemory :无法创建本机线程
浏览 1
提问于2012-05-02
得票数 0
回答已采纳
1
回答
无法使用Phantom
JS
从特定url获取屏幕截图
、
、
我想截取屏幕,但是页面没有完全加载。我测试了其他的网址没有问题,但这个网址我不能。我使用phantomjs-2.1.1-windows。在下面的链接中,你可以看到: I checked page.onError no error webpage.viewportSize = { width: 1280, height: 800 }; webpage.open('https
浏览 2
提问于2018-03-19
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Node.js爬取豆瓣数据
如何轻松爬取网页数据?
Java使用WebMagic 爬取网站
使用JS和NodeJS爬取Web内容
14行代码带你爬取网页小说
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券