腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
perl中的Web Crawler问题
、
、
我用Perl构建了一个网络
爬虫
。HTML::ContentExtractor 从
网页
中提取文本。示例代码的参考链接问题是,它不会从具有.
aspx
扩展名的
网页
中获取文本。它非常适合其他
网页
,我不知道为什么这个
爬虫
在
aspx
页面上会失败。
浏览 8
提问于2014-04-25
得票数 0
1
回答
Web窗体:返回http状态以获取未找到的分页url结果?
、
、
、
、
我们有一个分页的URL,如:example.
aspx
/?pn=2...这是返回产品列表的web表单URL。什么是正确的方式通知客户/
爬虫
,我们没有内容在这个
网页
。
浏览 3
提问于2017-09-04
得票数 1
回答已采纳
1
回答
如何浏览包含多个html源的
网页
?
、
、
、
、
我正在做一个
网页
爬虫
,发现我的目标
网页
的url是这样的。当我尝试查看这个
网页
的源码时,我发现如果我右击不同的位置,会有很多不同的html源,如果我在IE中点击View->Source
浏览 1
提问于2014-08-28
得票数 0
1
回答
搜索引擎如何唯一地识别web上的每个页面
、
、
、
、
如果我写了一篇文章,他的链接是'example.com/abc.php‘&这篇文章在搜索引擎中排名靠前。 几天后,我更新了这篇文章,包括它的内容和'xyz.php‘的永久链接。 现在,之前URL为'example.com/abc.php‘的帖子被更新为'example.com/xyz.php’。 那么搜索引擎将如何知道这是与URL example.com/abc.php排名相同的页面/帖子。并且需要将搜索结果中的链接更新为“example.com/xyz.php”,而不影响排名。 在更新固定链接之前和之后,在为搜索引擎创建一个唯一标识页面的新帖子时,有
浏览 35
提问于2021-01-25
得票数 0
1
回答
谷歌网站
爬虫
如何找到我的网站,如果我没有张贴网址任何地方?
、
想知道谷歌网站
爬虫
是如何找到我的网站。假设我没有在谷歌索引的任何其他地方发布网址。 有人能解释一下吗?
浏览 2
提问于2016-04-22
得票数 0
回答已采纳
2
回答
浏览器限制会影响
网页
爬虫
吗?
、
、
return Redirect("/h"); return View(); 问题:如果我限制一些浏览器访问我的主视图,它也会限制对网络
爬虫
的访问吗
浏览 0
提问于2013-02-21
得票数 0
回答已采纳
1
回答
Robots.txt:允许除根目录之外的所有内容
、
我有一个站点,它的根目录是,任何到的流量都被重定向到。在网站管理员工具中,我将站点添加为,但我只在/blog目录和其他静态页面上获取谷歌。对吗?有人能验证一下这是否会达到我想要达到的目的吗?Allow: /$
浏览 1
提问于2015-11-18
得票数 0
回答已采纳
1
回答
我们的网站上有多个404请求。是攻击还是错误的索引机器人?
、
例如,正确的链接是/Info/SiteMap.
aspx
,但糟糕的请求是缺少'o‘的/Inf/SiteMap.
aspx
。通常有很多请求,比如一分钟内有20个请求。全部抛出404。
浏览 1
提问于2009-05-07
得票数 0
回答已采纳
2
回答
抓取: Web抓取由于结构变化而停止
、
、
当抓取一个
网页
时,
网页
的结构一直在变化,我的意思是它的动态性导致我的
爬虫
停止工作。是否有一种机制可以在运行完整的
爬虫
程序之前识别
网页
结构的变化,以便识别结构是否已经改变。
浏览 32
提问于2020-09-28
得票数 0
1
回答
C# -用
网页
爬虫
下载网站ajax页面
、
、
我用c# (使用Microsoft WebCrawler)编写了一个简单的网络
爬虫
项目,它可以下载特定站点的内容。正如Marcom建议的那样,我从我的
网页
爬虫
和
网页
浏览器上看到了小提琴的响应。当我的
网页
爬虫
导航到
网页
时,他会在与
网页
相反的一个仿真器上接收假信息。 有线索吗?
浏览 1
提问于2011-03-11
得票数 0
1
回答
使用apache nutch对solr中的结构进行索引
、
、
、
、
我只是想抓取特定网站的页面,以及页面的特定部分,并将其索引到solrTy
浏览 0
提问于2016-08-02
得票数 0
3
回答
“索引,跟随”和“跟随”的区别是什么?
、
、
以下清单有哪些不同之处: <meta name="
浏览 4
提问于2018-07-11
得票数 6
1
回答
Twitter Card API -通过javascript打开twitter对话框,并动态设置元标签
、
、
、
如何调用/创建Twitter Card并动态设置元值,而不是从head部分获取或声明元数据。就像下面的代码实现一样。 method: 'share_open_graph', action_properties: JSON.stringify({ 'og-image':'image-url'
浏览 3
提问于2018-08-18
得票数 1
1
回答
谷歌网站管理员工具需要多长时间才能注意到已经删除的链接?
、
、
为了更好地遵守谷歌的指导方针,我们已经做了很多努力来删除我们网站的链接。然而,不再链接到我们的网站仍然出现在我们的谷歌网站管理员工具中。这些链接一个多月前就被删除了。
浏览 0
提问于2012-08-11
得票数 1
2
回答
当我按CSS类过滤时,为什么scrapy和beautifulsoup都不返回任何内容?
、
、
、
、
我正在构建一个网络
爬虫
作为我实习的一部分,当我通过某些属性过滤时,我找不到我得到空列表的原因。我正在尝试抓取会议的名称、日期和地点。 我试过几种不同的方法,都得到了相同的结果。allowed_domains = ['aacr.org/MEETINGS'] start_urls = ['https://www.aacr.org/MEETINGS/PAGES/EVENTLISTING.
ASPX
上面的4个方法都返回空列表,而不是返回我知道存在于
网页
上
浏览 24
提问于2019-06-08
得票数 2
回答已采纳
1
回答
在网站的Robots.txt页面上,这意味着什么?
我一直试图从数据库中抓取一个网站的数据来构建一个游戏,而且我经常被CAPTCHA的请求屏蔽。当我检查站点的Robots.txt文件时,我看到了以下内容:Disallow: /contact-us/
浏览 1
提问于2021-02-24
得票数 0
回答已采纳
2
回答
SEO最佳实践的网站很少有
网页
,但大量的查找信息?
、
我正试图弄清楚如何正确地使用搜索引擎,我想知道:mySite.com/StartsWith/predmySite.com/Words.
aspx
?StartsWith=pred更新网站上不会有重复的内容
浏览 0
提问于2012-04-27
得票数 1
回答已采纳
2
回答
Web Crawler与Html解析器
、
、
、
web
爬虫
和解析器有什么区别? 他们的目的是一样的吗?
浏览 3
提问于2018-11-14
得票数 2
回答已采纳
1
回答
从Flask路由开始scrapy
、
、
我想建立一个
爬虫
,需要抓取
网页
的网址,并将结果返回给一个
网页
。现在,我从终端启动scrapy并将响应存储在一个文件中。当一些输入发布到Flask、处理并返回响应时,我如何启动
爬虫
?
浏览 1
提问于2015-07-24
得票数 5
2
回答
使用单个Web
爬虫
以预定义的格式抓取多个带有附件的网站?
、
、
150个我需要抓取的
网页
。基于我的无知和缺乏研究,我开始构建每个
网页
的
爬虫
,这开始变得难以完成和维护。 根据我到目前为止的分析,我已经知道我想在每个
网页
上抓取什么信息,很明显,这些网站都有自己的结构。在积极的一面,我注意到每个网站的
网页
在其网站结构中都有一些共性。我的百万美元的问题,有没有一个单一的技术或单一的网络
爬虫
,我可以用来抓取这些网站?或者,有没有更好的解决方案,可以减少我需要构建的网络
爬虫
的数量?此外,这些网络
爬虫
将仅用于下载我针对的网站的新
浏览 3
提问于2019-04-29
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
用Python做网页爬虫
Python爬虫实现网页截图的方法
网页爬虫与Bioconductor!
Python之多线程爬虫抓取网页图片
CefSharp:网页自动化和爬虫神器
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
实时音视频
活动推荐
运营活动
广告
关闭
领券