腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如何使搜索引擎不读取.
php
扩展urls
、
、
我如何才能限制搜索引擎不读取我们的.
php
url,因为我们希望我们干净的url出现在搜索引擎中。我使用htaccess文件从所有的urls中删除.
php
,但是搜索引擎同时使用了这两个urls,即使用.
php
和不使用.
php
。 我想让搜索引擎只读没有.
php
扩展名的urls。
浏览 7
提问于2015-12-15
得票数 0
1
回答
如何使用Apache Nutch抓取ajax
网站
?
我想
爬
这个
网站
:使用Apache。该网页
动态
加载ajax内容。如果我用默认配置爬行它,Nutch只会带来头和页脚,
动态
加载的内容就会丢失。我用的是Nutch 1.14。
浏览 0
提问于2018-06-08
得票数 0
回答已采纳
1
回答
如果我们要用Hadoop和Solr做一个搜索引擎,NUTCH的作用是什么?
、
、
我想在其中爬行一些
网站
,并将其索引和信息存储在Hadoop中。然后使用Solr搜索就可以了。但我面临着很多问题。5)请解释我一个步骤,如果可能的话,我如何爬行一些
网站
,并将其信息保存到
数据
库(Hadoop或任何其他),然后做搜索。提前说一声非常感谢。
浏览 2
提问于2012-09-06
得票数 3
1
回答
使用Apify抓取多个页面
、
可以使用带有伪URL的Apify抓取多个页面吗? 当人们问同样的问题时,答案大多指向伪URL,如果有可能或不可能这样做,并不会直接解决问题。 如果我在运行爬虫的时候不知道伪URL,并且我从一个页面上抓取了10个链接-然后想要抓取这10个链接,那怎么做呢? https://kb.apify.com/tutorial-creating-your-first-crawler/crawling-multiple-pages
浏览 15
提问于2019-03-19
得票数 0
1
回答
在没有存储元
数据
的
网站
的情况下实现Open Graph的可能性,Open Graph元
数据
可以
动态
注入到URL中吗?
、
、
背景:移动应用程序可以将
数据
共享给其他
网站
和其他移动应用程序。这个移动应用程序只适用于移动设备,而不适用于web。这意味着没有面向前端的
网站
来查看用户可以在应用程序中查看的项目。问题:我正在试图找出一种方法,将这个移动应用程序中的项目分享到Twitter和Facebook等服务,移动设备iOS设备内的笔记等,而不是附加原始的图像/视频
数据
。我希望能够在共享时发送Open Graph元
数据
,以便项目像普通的Open Graph卡一样显示在这些其他
网站
和应用程序上。我发现没有任何关
浏览 0
提问于2019-09-23
得票数 0
1
回答
重复的标题标签。
谷歌分析公司在我的
php
上显示了29个重复的标题标签。这是一个电子商务
网站
,我知道重复的标题标签是恼人的蜘蛛
爬
一个
网站
,我想解决这个问题和流线的问题。
浏览 4
提问于2013-10-15
得票数 0
回答已采纳
2
回答
如何找到未使用的或旧的树枝模板文件?
、
、
有时会从内容类型中删除字段,但如果不手动查看存储库,就无法知道是否存在相关的字段枝模板。 除了查找文件名外,是否有任何实用程序或其他方法可以查找未使用的twig模板?
浏览 0
提问于2018-07-06
得票数 3
回答已采纳
1
回答
IE 8的问题
我的
网站
在mozila上工作正常,但当我们转到IE 8时,它在状态栏上显示错误User Agent: Mozilla/4.0 (compatible; MSIE 8.0; Windows
浏览 0
提问于2011-04-04
得票数 0
2
回答
单击提交按钮时在后台运行
PHP
脚本,无需重新加载页面
我需要运行一个
php
脚本(
网站
爬虫)上提交按钮点击,而不是页面重新加载。后台脚本运行后,应出现确认/警报弹出窗口,表明站点
爬
网程序已结束。有什么想法吗?
浏览 0
提问于2012-04-17
得票数 0
1
回答
Nutch不
爬
网页面内容
、
、
、
我有一个问题,我不能从一个
网站
抓取内容,其中包含一个
php
形式的内容。我假设这就是问题所在,因为所有其他页面都被爬行而没有问题。我目前正在尝试使用默认的配置,除了那些允许在URL中执行
php
查询的配置,以便接受诸如'?=‘这样的字符,而不是它的所有默认设置。
浏览 5
提问于2016-05-16
得票数 0
1
回答
如何限制来自同一个IP的多个请求?(Centos + APACHE)
、
、
、
我像
数据
库
网站
一样运行wiki。有些人经常
爬
(刮)我的
网站
数据
。所以我想阻止这些爬虫。 是否有一个脚本来阻止一定数量的来自同一个IP地址的请求?
浏览 14
提问于2021-12-12
得票数 0
1
回答
想要做一个搜索引擎
、
我想做一个洪流搜索引擎,将提供其他洪流
网站
的链接。因此,我需要从其他
网站
的
数据
,以索引他们在
数据
库。所以,为了这个目的
爬
一个
网站
是合法的,还是有其他的方法来做到这一点。
浏览 0
提问于2013-07-25
得票数 0
回答已采纳
2
回答
爬虫如何查看未链接的目录/文件?
我在我的
网站
上运行一个爬虫来测试断链接等等。一件奇怪的事情是,它显示的目录没有内部链接。
浏览 0
提问于2011-11-03
得票数 5
2
回答
网站
管理员工具中/a文件夹上的404错误
、
、
在谷歌
网站
管理员工具中,在爬行错误下,我的第一个404错误名为在我的
网站
上没有这样的东西,也没有链接到它。什么是错的,它是什么意思?
浏览 2
提问于2011-03-24
得票数 4
回答已采纳
1
回答
为什么这个env对象的大小一直在增长?
、
、
、
、
我已经在网络爬虫上工作了一段时间,想法很简单,我有一个包含
网站
列表的SQL表,我有许多线程从表中获取第一个
网站
并删除它,然后爬行它(以堆的方式)。}} e.printStackTrace();如你所见,每次我创建一个crawlerController,抓取一个
网站
等等
浏览 13
提问于2015-07-28
得票数 0
1
回答
如何在htacces中将/page.
php
?1重命名为/welcome.html?
、
、
、
现在我在.htacces中有: RewriteRule about-us.html page.
php
?2[L]任何帮助都将不胜感激
浏览 2
提问于2010-12-02
得票数 0
回答已采纳
2
回答
如果不将整个
网站
的规则设置为“作为http内容
爬
网”,则无法对复杂的URL进行
爬
网
、
、
我的站点中有一些页面,其中包含一个控件,该控件使用查询字符串向用户提供
动态
数据
()。只有当我创建一个规则,将根站点(*)设置为“包含复杂的urls”和“抓取sharepoint内容作为http内容”时,我才能让我的内容源索引这些
动态
页面。这是不可接受的,因为将
爬
网协议从SharePoint更改为HTTP将阻止在索引项上收集任何元
数据
。托管元
数据
功能是我们的SharePoint应用程序的关键组件。请记住,这是针对外部发布
网站
的,我的搜索范围正在使用content类进行调整
浏览 0
提问于2010-09-14
得票数 0
回答已采纳
1
回答
网站
集之间搜索结果的私密性
目前,SharePoint允许一个
网站
集以这种方式配置搜索中心的搜索结果,以访问其他
网站
集的索引结果。 是否可以禁止其他
网站
集查看特定
网站
集的已
爬
网
数据
?例如:如果一个
网站
集管理员配置了他的搜索结果,我不希望他能够访问我自己的
网站
集的搜索结果。 谢谢
浏览 29
提问于2020-04-22
得票数 0
回答已采纳
1
回答
雅虎管道合法性
、
、
如果一个
网站
声明不抓取他们的
网站
,那么使用Yahoo Pipes或YQL这样的工具来创建mash up还合法吗?谢谢。
浏览 2
提问于2013-09-26
得票数 0
2
回答
爬行
网站
,代理功能问题
、
、
我在
爬
一个教育
网站
。我想插入学院和课程的细节。有链接到下一页:这个javascript函数将AJAX请求发送到:它设置CourseId Session并重定向到页面:课程将按照存储在会话中的CourseID加载,如何从C# code中在ajax.
php
浏览 0
提问于2014-06-12
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
JS动态加载数据不会爬?老司机教你两个方法爬取想要的数据
旅游网站数据爬取+数据清洗+绘图+分析
PHP动态网站开发 智慧树知到网课答案
Excel爬虫功能:爬取网站中多页数据
抖音大数据,教你爬爬爬!
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券