腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(3894)
视频
沙龙
2
回答
网站
内容评级有没有元标签?
、
、
我的一位客户说,她注意到她的
网站
在一家杂货店的wifi咖啡厅被屏蔽了。它不包含任何丑闻--它只是一个旅游博客。该公司表示,这一限制的原因是禁药类别“未评级”。
浏览 5
提问于2010-07-09
得票数 3
4
回答
网站
爬行自动检测
是否可以编写代码来检测
网站
是否正在
爬
取
内容?
浏览 1
提问于2009-04-08
得票数 1
4
回答
将asp.net动态站点转换为静态站点的工具
、
有没有什么工具可以
爬
取
asp.net
网站
并创建一个静态站点?
浏览 2
提问于2008-09-04
得票数 0
回答已采纳
1
回答
禁用爬行
子
域google爬虫
、
我想知道我怎么能不允许谷歌爬行我的
子
域名
?另一个曾经是
子
域。我想说的是谷歌不应该
爬
这个,但我不知道怎么
爬
。 我在awesom媒体文件夹中没有robot.txt,但正如您在/部件中所看到的那样。我怎么能告诉google不要爬行
子
域
浏览 5
提问于2014-09-08
得票数 1
回答已采纳
1
回答
为什么谷歌机器人不能抓取这个robots.txt?
、
、
我不明白为什么谷歌机器人不能抓取和索引我创建的WordPress
网站
。
浏览 1
提问于2014-11-24
得票数 0
2
回答
Scrapy没有拿起我的url
、
、
我有一个破烂的代码,应该能够采取电话和地址从一个网页中的表格: name="People" 'http://canada411.yellowpages.ca/search/si/1/519-896-7080/', def parse(self,response): yield
浏览 0
提问于2017-02-16
得票数 0
2
回答
Google可以访问受密码保护的
子
域吗?
我在
子
域文件夹中的.htaccess中添加了以下内容:AuthType BasicRequireuser username 我只想仔细检查一下,这将阻止谷歌(和其他机器人)
爬
取
内容,这样我就不必处理重复内容的问题。
浏览 0
提问于2014-03-05
得票数 0
2
回答
HTML爬行到ePub的转换工具
、
、
目前似乎还没有工具可用于
爬
取
站点并将内容转换为ePub格式。我认为,在没有得到
网站
所有者明确同意的情况下,在
网站
上执行这一行动是有法律含义的。
浏览 2
提问于2011-05-08
得票数 1
回答已采纳
1
回答
如何隐藏我的IP在python中进行网络抓取?
、
、
、
我正在用python在一些页面上做web抓取,我已经被其中的一些阻止了。当我试图通过TOR浏览器检查它时,我已经看到我无法访问页面,所以我认为这些页面已经能够跟踪我所有的IP或我没有很好地配置TOR (我认为不是因为我用Chrome和TOR检查了我的IP地址和TOR是不同的),所以,有人知道为什么吗?谢谢!
浏览 19
提问于2020-05-21
得票数 2
回答已采纳
1
回答
家庭pc为服务器
、
我的dns A-记录指向我的家庭PC IP,大部分时间是下降的.这个事实是否会令我的注册主任有任何麻烦,或没有甚麽可担心的?
浏览 0
提问于2012-10-07
得票数 3
回答已采纳
2
回答
使用机械化来检索
网站
的所有链接
、
、
、
如何使用Mechanize库查找
网站
上的所有链接? 我喜欢递归地解析内部链接,以便抓取一个
网站
的所有链接。
浏览 0
提问于2012-07-23
得票数 2
回答已采纳
1
回答
在plesk面板中增加
子
域的memory_limit
、
、
面板中将memory_limit增加到512M,然后运行phpinfo()并测试这两个地址:memory_limit=128M -> 如何增加
子
域的
浏览 0
提问于2013-05-05
得票数 0
1
回答
IE 8的问题
我的
网站
在mozila上工作正常,但当我们转到IE 8时,它在状态栏上显示错误User Agent: Mozilla/4.0 (compatible; MSIE 8.0; Windows
浏览 0
提问于2011-04-04
得票数 0
1
回答
将Sharepoint 2013
网站
作为常规
网站
进行
爬
网
、
、
、
、
我用Sharepoint 2013创建了一个“品牌化”
网站
。我无法配置搜索引擎,使其能够从自定义web部件中查找内容。来自
网站
的大多数“静态”内容(机构内容)都是通过自定义web部件显示的。因此,我现在的方法是尝试将内容搜索配置为"Web site“类型,以便让爬行将所有页面作为常规
网站
进行处理。
浏览 0
提问于2014-11-18
得票数 1
1
回答
雅虎管道合法性
、
、
如果一个
网站
声明不抓取他们的
网站
,那么使用Yahoo Pipes或YQL这样的工具来创建mash up还合法吗?谢谢。
浏览 2
提问于2013-09-26
得票数 0
3
回答
网站
质量保证测试
、
、
它主要是爬行一个
网站
,并显示对死链接、页面等的引用:。 我发现这对我们发布的
网站
的质量保证非常有用。我想知道是否有人使用应用程序来
爬
取
这样的站点,但也会检查诸如缺少ALT标记、可访问性问题和有效的xHtml代码。
浏览 1
提问于2009-08-28
得票数 0
2
回答
我如何“获得”数据的所有酒吧/俱乐部在美国的数据库。Yelp API?
、
、
、
、
我要做的是创建一个美国所有酒吧的数据库。我需要这个数据库半定期更新(大约每周),以包括新开的酒吧。
浏览 0
提问于2011-01-18
得票数 1
1
回答
有没有可能通过
子
域集成Google Analytics与多个帐户?
、
、
我遇到的大多数示例都是为了拉
取
您控制的
网站
的信息,并且已经为其设置了分析,这与我的用例略有不同。编辑:我仍然想看看其他人会如何处理这个问题,但我遇到的一个想法是,只需设置一个主帐户,然后在API中按
子
域进行过滤。
浏览 0
提问于2012-11-16
得票数 0
2
回答
通过
爬
取
网站
来构建
网站
的结构
、
当我重构一个
网站
时,我喜欢弄清楚现有的结构,以确保在将其移植到新的导航/菜单系统时不会遗漏任何东西。有没有自动化的工具可以在一个页面上生成
网站
的视觉结构?
浏览 0
提问于2015-02-04
得票数 0
1
回答
Scrapy访问被拒绝
爬
取
网站
的头部
、
、
、
我想抓取一个
网站
,但我得到了下一个错误: '<head>\n<title>Access Denied</title>\n</head>' 我只是在控制台中尝试: scrapy shell https:
网站
有没有防爬虫的方法?如何抓取这个
网站
?
浏览 27
提问于2020-07-14
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
scrapy爬取1024种子
Java使用WebMagic 爬取网站
爬取美团网站信息(三)
多线程爬取小说网站
爬取美团网站信息(一)
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
实时音视频
活动推荐
运营活动
广告
关闭
领券