腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
从整个WebSite中提取所有URL
、
、
我想抓取一个网站使用
C
#或VB.NET。我希望
爬虫
从
网页
中提取网址,我也希望
爬虫
遵循网址,以便我能够从网站中提取所有的网址。 我该怎么
写
呢?
浏览 1
提问于2011-04-06
得票数 0
2
回答
如何知道html页面的
语言
?
我正在创建一个从网站下载
网页
文档的
爬虫
,并将
网页
内容存储在数据库中。我不能设法找出哪种
语言
是一个特定的
网页
,以便我可以决定是否将其存储在数据库中。
浏览 1
提问于2019-03-19
得票数 1
1
回答
生成Joomla页面的脚本
、
、
我正在尝试将一个标准的html
网页
传输到Joomla!不育系。我将使用Scrapy,一个Python网络
爬虫
来抓取和解析旧的
网页
。有没有办法(最好是用Python
语言
)
写
一个脚本把3000+页面转换成Joomla的mySQL数据库?保留旧的样式/css不是优先考虑的问题。 加分的答案可以做到这一点,同时保持旧的网址。一个有用的答案将看起来像“这是不可能的”或“这是可能的,但你需要使用X,其中X是一种
语言
、工具或其他帮助器”。
浏览 0
提问于2012-05-08
得票数 0
回答已采纳
1
回答
Robots.txt:允许除根目录之外的所有内容
、
我有一个站点,它的根目录是,任何到的流量都被重定向到。在网站管理员工具中,我将站点添加为,但我只在/blog目录和其他静态页面上获取谷歌。对吗?有人能验证一下这是否会达到我想要达到的目的吗?Allow: /$
浏览 1
提问于2015-11-18
得票数 0
回答已采纳
2
回答
我能把这个放在哪里?
、
、
我正在寻找一个VPS或专用,可以有一个网络
爬虫
整天运行。它会收集数据,然后将其添加到一些网站。我的预算是每月20-60美元。
浏览 0
提问于2010-11-16
得票数 0
3
回答
非常简单的
C
++网络
爬虫
/蜘蛛?
、
我试图在
C
++中做一个非常简单的
网页
爬虫
/蜘蛛应用程序。我一直在使用谷歌搜索一个简单的,以了解这个概念。我发现了这个: 然而,这是复杂的理解对我来说,因为我开始学习
C
++大约一个月前。
浏览 15
提问于2010-11-25
得票数 22
回答已采纳
3
回答
如何在ABOT
C
#网络
爬虫
中获取html输出页面?
、
我正在尝试用ABOT在
c
#.i中制作网络
爬虫
,我搜索了很多例子,并添加了ABOT网络
爬虫
。从那我只能得到日志输出而不是超文本标记
语言
页面输出。我想得到超文本标记
语言
页面输出only.because,超文本标记
语言
输出是超文本标记
语言
敏捷工具的输入。帮助我从ABOT网络
爬虫
在
C
#中获得超文本标记
语言
输出。谢谢。
浏览 4
提问于2013-09-12
得票数 5
3
回答
C
++网络
爬虫
、
、
、
我正在尝试并尝试制作一个最小的网络
爬虫
。我在很高的层次上理解了整个过程。那么进入下一层细节,程序如何“连接”到不同的网站来提取HTML?谢谢!
浏览 1
提问于2012-07-01
得票数 0
回答已采纳
2
回答
编写linux服务的最佳
语言
、
我想要创建一个
爬虫
扫描一个单一的
网页
,并给我一封电子邮件,以防有什么问题在页面上(该页面持有一些web服务器的状态/下降)。此外,
C
/
C
++不是一个选项。
浏览 0
提问于2013-02-05
得票数 0
回答已采纳
5
回答
如何将动态站点转换为可从CD演示的静态站点?
、
、
有没有人对
爬虫
有什么好的建议,可以处理像链接清理,flash,一些ajax,css等等?我知道机会很小,但我认为在我开始编写自己的工具之前,我应该在这里抛出这个问题。
浏览 3
提问于2008-09-22
得票数 9
回答已采纳
1
回答
最有效的
语言
来创建一个非常快的网络
爬虫
?
我需要快速扫描不同的
网页
。我应该使用哪种
语言
来创建一个高效的网络
爬虫
?
浏览 1
提问于2014-02-19
得票数 0
2
回答
搜索引擎会索引DOM生成的HTML吗?
、
、
、
、
内容和渲染输出会被Google和其他搜索引擎索引吗?<script>html += '<head>';html += '<title>This Is The Stacked Overflown Network</title>'; html
浏览 0
提问于2013-07-13
得票数 2
2
回答
木偶人爬行器大规模爬行
、
、
我们正在使用Puppeteer编写一个网络
爬虫
。我们
写
的木偶
爬虫
执行和爬行网站的网址没有问题的
网页
,如约1,500 - 5,000,但是,当我们执行的网站超过5,000,如果它在中间由于一些错误或崩溃而中断,那么它需要重新开始。如果出现任何错误,如何使基于Puppeteer的网络
爬虫
从爬行的最后状态恢复?在Puppeteer中有没有内置的函数?如何让这个木偶手无头的chrome web爬行通过一个队列系统?
浏览 14
提问于2020-12-05
得票数 2
1
回答
C
# -用
网页
爬虫
下载网站ajax页面
、
、
我用
c
# (使用Microsoft WebCrawler)编写了一个简单的网络
爬虫
项目,它可以下载特定站点的内容。正如Marcom建议的那样,我从我的
网页
爬虫
和
网页
浏览器上看到了小提琴的响应。当我的
网页
爬虫
导航到
网页
时,他会在与
网页
相反的一个仿真器上接收假信息。 有线索吗?
浏览 1
提问于2011-03-11
得票数 0
2
回答
如何抓取特定
语言
的
网页
、
我试图收集所有可用的文本信息(尽可能多)从
网页
乌兹别克语(为我的研究)。做这件事最好的方法是什么? 我找到了通用
爬虫
,但不确定是否容易提取特定的
语言
文本。
浏览 2
提问于2019-04-05
得票数 1
2
回答
网络
爬虫
是如何影响网站统计的?
网络
爬虫
(包括搜索引擎和非搜索引擎)会以什么方式影响网站统计(例如,在进行AB测试不同页面的变化时)?解决这些问题的方法是什么?例如: 什么是启发式来识别某物是一个机器人?为了澄清,基于以下评论:我也感兴趣的情况下,我的网站是具体的目标(可能是非法
爬虫
)。
浏览 3
提问于2010-04-12
得票数 1
回答已采纳
2
回答
如何在Web浏览器中禁用网站URL?
、
、
、
、
这个问题,当我在互联网上搜索,并得到的结果在javascript代码,但我想要的
c
#代码。谢谢
浏览 6
提问于2014-12-06
得票数 1
8
回答
如何使用Nokogiri美工打印HTML?
、
、
、
我用Ruby
语言
编写了一个网络
爬虫
,我正在使用Nokogiri::HTML来解析页面。我需要把页面打印出来,当我在IRB中闲逛的时候,我注意到了一个pretty_print方法。我的
爬虫
正在缓存
网页
的HTML,并将其写入我的本地计算机上的文件。我想要“漂亮打印”的HTML,以便它看起来很好和适当的格式时,我这样做。
浏览 1
提问于2009-12-14
得票数 28
回答已采纳
1
回答
如何使用正则表达式获取价格值
、
、
、
我正在尝试
写
一个网上商店的
爬虫
,现在我需要获得
网页
的价格价值。这是我的尝试: $match = "";echo "<pre>";echo "</
浏览 69
提问于2021-06-27
得票数 0
回答已采纳
2
回答
滚动您自己的web
爬虫
来抓取一个有多个条目的特定网站。
、
什么样的
语言
能够处理编写自己的
网页
爬虫
?但是如果我需要的话,我想有一个很好的理由去学习一门新的
语言
。
浏览 0
提问于2011-08-02
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
C语言写的日历程序
C 语言这么厉害,它自身是用什么语言写的?
C/C+编程笔记:C语言中的类型转换,今天教你怎么写!
开源网页爬虫抓取工具 [Crawl4AI]:专为大型语言模型设计
用Python做网页爬虫
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
实时音视频
活动推荐
运营活动
广告
关闭
领券