腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
搜索引擎爬行问题
、
、
我的站点的主页是/home.
php
--这个页面有
分页
,带有锚标记,链接到同一页面的许多其他查询,例如等等..。我的问题是,当我在站点地图中包含home.
php
页面时,
爬虫
会爬行任何页面home.
php
链接到的内容。/home.
php
?star=4)?还是我必须把每一页都包含在一个站点地图上?
浏览 2
提问于2010-02-25
得票数 0
回答已采纳
1
回答
关于无限滚动和SEO的几个问题
、
、
我有一页有很多中等大小的图片(目前是100‘S),我正在考虑为用户实现无限滚动,并与链接prev/next结合使用
分页
,因此SEO仍然会选择后面的图像(这将被js隐藏在文档加载中)我知道还有其他问题,但我有一些问题还没有得到回答: 对于使用onload隐藏
分页
,如果我使用display:none代替
分页
,SEO是否仍然会捡起它,或者当onload事件发生时,我应该通过js将显示更改为none?如果我实现
分页
为www.domain.com/content?page=1,...page=2等,SEO会拿起G
浏览 0
提问于2014-01-25
得票数 1
回答已采纳
6
回答
如何让搜索
爬虫
正确地索引无限滚动的页面?
、
然而,这意味着搜索
爬虫
无法获得第一个“
分页
符”之后的所有内容。例如,我有一个页面,其中列出了所有带有"infographic“标签的项目。实际上有几十个这样的项目,但
爬虫
只能看到前10个项目,因为其他项目是根据内容相对于浏览器窗口的位置加载的。由于
爬虫
没有浏览器窗口,所以根本不会加载新项目。那么,什么才是正确的方式,让搜索
爬虫
通过无限滚动访问网页的全部内容,同时又允许用户享受无限滚动和没有
分页
的情况?
浏览 0
提问于2012-05-28
得票数 13
回答已采纳
1
回答
用于非标准
分页
系统的import.io
爬虫
我正在尝试建立一个这个网站的import.io
爬虫
,但当我点击“下一步”到下一页训练,它把我带回第一页,因为正在使用的
分页
系统。非常感谢任何关于如何让import.io
爬虫
爬行通过这些页面的建议。根据import.io网站上的建议,我试图在与服务器交换的数据包中找到
分页
系统,但没有成功。如果你能帮上忙,谢谢。JRH
浏览 1
提问于2015-08-31
得票数 1
1
回答
asp.net站点的
PHP
爬虫
、
我想写一个
爬虫
来获取数据。来自使用javascript进行
分页
的asp.net站点
浏览 0
提问于2010-10-31
得票数 0
回答已采纳
1
回答
google crawl ajax
、
我有一个结果页面,结果是用ajax加载的,这意味着
分页
按钮正在调用JS。链接到结果页是美丽的‘/结果/销售/06589’,我会引导谷歌到这个页面,但有没有办法让
爬虫
机器人点击
分页
按钮。
浏览 0
提问于2011-06-04
得票数 1
2
回答
了解可爬行ajax的Google规范
、
我的
分页
功能类似于twitter和facebook的
分页
功能。对于非javascript用户,我没有一个规范的
分页
。我读了关于爬行ajax的Google规范,但我不确定如何将我的模型转换为google新模型。但是,不知何故,我必须传播这个页面链接到谷歌
爬虫
http://www.domain.com/search.aspx#!somevalue。这样可以吗? 好的!但是当谷歌
爬虫
访问我的页面时,
爬虫
不会看到任何到的链接,除非我在网站地图中指出它,这对我来说毫无
浏览 4
提问于2011-11-05
得票数 1
回答已采纳
1
回答
百度蜘蛛会理解无限滚动的页面吗?
、
、
、
page=4 似乎完全有可能使无休止的
分页
,SEO友好,只要您的每个页面是分开寻址使用rel="next"/"prev"和HTML5历史API是用来警告DOM时,一个新的页面被加载。因此,我的问题是:百度的
爬虫
(百度的
爬虫
)是否足够聪明,能够理解无止境的JavaScript
分页
,就像谷歌的机器人显然能做到的那样?
浏览 0
提问于2015-12-03
得票数 2
回答已采纳
1
回答
谷歌
爬虫
会错过页脚内容,如果我们实现无限懒惰加载我们的产品在我们的目录页在我们的电子商务网站?
、
、
我们的SEO专家建议,我们不做懒惰加载和
分页
,因为他们说,谷歌
爬虫
将无法抓取页脚内容,如果我们实现我们的产品在目录页无限懒惰加载。这是真的吗?
浏览 0
提问于2018-09-27
得票数 1
2
回答
模拟ASP.NET PostBack
、
、
、
我有一个
爬虫
应用程序,应该分析从一个页面与
分页
的所有项目。不幸的是,我的应用程序爬行的网站使用回发进行
分页
。如何以编程方式获取第二页的内容,以便在C#中使用下面的网址。
浏览 4
提问于2011-06-20
得票数 0
回答已采纳
2
回答
基于
PHP
的Web
爬虫
或基于JAVA的Web
爬虫
、
、
我对基于
PHP
的网络
爬虫
有些怀疑,它能像基于java线程的
爬虫
一样运行吗?我之所以问这个问题,是因为在java中,线程可以一次又一次地执行,我不认为
PHP
有类似线程的功能,你们能说一下,哪个网络
爬虫
更能充分利用吗?基于
PHP
的
爬虫
还是基于Java的
爬虫
浏览 1
提问于2010-07-27
得票数 0
回答已采纳
1
回答
使用
php
爬虫
将数据索引到ElasticSearch
、
、
我想索引爬行网站到ElasticSearch,但我不知道,我可以索引爬行信息到ElasticSearch与
php
爬虫
。我知道Apache可以将爬行网站索引到ElasticSearch,但是我对
php
爬虫
一无所知!我可以在
php
web应用程序中使用Apache吗?
浏览 4
提问于2013-05-12
得票数 3
2
回答
一个网站会被列入黑名单,如果它提供不同版本的谷歌的佩格
爬虫
和正常用户?
、
、
这个问题实际上是双重的: 是否有可能通过检测用户代理(~灯塔,其他页面
爬虫
)来欺骗
分页
分析器,并为该网站提供一个简化的、更快的版本?如果是的话,这会不会随着时间的推移而被发现,让你被列入黑名单?另外,与之相反的是,是否有可能向
爬虫
提供额外的数据(json-ld),而这些数据是您不希望加载给普通用户的?
浏览 0
提问于2019-04-03
得票数 0
回答已采纳
1
回答
分页
和复制内容
、
、
因为有这么多,我运行了一个
分页
脚本:其中p是页码,pp是每页要显示的文章数。
分页
内容如下:将每一项链接到p,如<a href="?p=x">x</a>。现在我有了一个
PHP
脚本,它将pp修正为一个会话变量。但是我担心重复的内容(因为增量pp值将是包含的),也担心内容没有被索引,因为它不在
分页
链接中。因此,
浏览 0
提问于2014-08-22
得票数 0
2
回答
如何抓取整个网站,如果滚动后的数据附加了Javascript
我需要抓取一个网站,但问题是,在底部没有链接的
分页
。如果滚动到底部,则会追加数据。现在,我怎样才能用我的
爬虫
做到这一点呢?有什么想法吗?
浏览 0
提问于2013-02-05
得票数 0
1
回答
Google与Codeigniter URLS的问题
、
、
、
我在我的网站管理员工具帐户中收到了6000+
爬虫
错误。下面是被识别为问题URL的URL之一。我允许代码点火器config.
php
中的字符。我只使用查询字符串进行
分页
,比如?page=1。 关注1:为什么google在URL中添加额外的参数2:为什么它开始使用&而不是?
浏览 0
提问于2015-07-21
得票数 1
1
回答
使用导入IO搜索数据
、
、
如何在importIO中的
爬虫
中使用crawler?我需要抓取一个公司的详细信息,以及每个公司的“所有”评论。
浏览 0
提问于2014-10-06
得票数 0
1
回答
我们是否必须在url中添加/删除
分页
页码的尾随斜杠。seo是怎么看待这个的?
、
、
、
我的模块
分页
了。我想要添加一个尾随斜杠或删除一个尾随斜杠。现在,我正在考虑在所有URLS中添加一个拖尾斜杠。对于像sitename.com/module/page/5/这样的
分页
URLS,添加尾随斜杠会产生什么效果? /page/5/和/page/5在用户、seo和
爬虫
方面会有什么不同?
浏览 0
提问于2013-01-28
得票数 2
回答已采纳
1
回答
如何阻止Web
爬虫
下载文件
、
、
是否有可能阻止web
爬虫
在我的服务器上下载文件(如zip文件)?有可能阻止网络
爬虫
吗?或者,在下载最多3个文件后,是否还有其他选项可以将文件隐藏在web
爬虫
上?我可以很容易地创建一个
PHP
脚本,使用cookie强制访问者登录/注册,但是web
爬虫
呢? 顺便说一下,我用的是nginx和drupa
浏览 0
提问于2013-07-27
得票数 1
3
回答
正则表达式来过滤具有多个符号和"&“的URL
、
、
我正在使用一个网络
爬虫
(称为Nutch),当我把一堆urls输入到它中时,它会爬行网络。我设置了某些正则表达式过滤器来控制
爬虫
到特定的域和特定的过滤器。/]+/){6,}.*$ crawler :在特定的域中,我的
爬虫
正在用我不想要的所有
分页
和查询参数爬行所有搜索表单contains&SubjectText=abc_ar
浏览 2
提问于2014-06-02
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Miss的PHP开发之-php封装分页类+分页实例
php分页的原理
PHP爬虫
php爬虫
php 网站爬虫入门
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
实时音视频
活动推荐
运营活动
广告
关闭
领券