腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
使用noscript优化SEO
、
、
我有使用ajax加载帖子的
新闻
门户,以获得更好的用户体验。Web
爬虫
看不到javascript生成的链接和文本,所以我读到了关于为
爬虫
使用noscript标记的文章。在noscript部分中,我以正确的方式(在我的
php
代码中)使用标题标记来呈现标题、字幕、描述和链接到post。许多SEO分析器网站现在看到了这些内容,但我不知道真正的
爬虫
像谷歌和其他。他的这是一个很好的方式,使我的内容可见的
爬虫
?我知道这很容易..。
浏览 0
提问于2015-04-22
得票数 3
1
回答
如何从网站的数据库中抓取链接?
、
、
我想写一个简单的
爬虫
将链接保存在数据库(mysql)中,并使用链接在网站上公布的时间戳(而不是
爬虫
检测到链接的时间)。
爬虫
如何知道一个新的链接已经添加到该网站?例如,如果一个
新闻
网站发布了一篇新文章,而我希望我的
爬虫
立即解析链接,那么
爬虫
如何知道这一点(googlenews也能够做it...so .?)也就是说,
爬虫
是否立即知道新的文章链接?或者google只是在一个固定的时间间隔(每一小时等一次)爬行网站
浏览 4
提问于2014-06-06
得票数 3
回答已采纳
3
回答
(网络
爬虫
)如何从
新闻
网站获取
新闻
文章的文本
、
、
、
、
我要从一个
新闻
网站上得到我必须得到的1k网站内容的文本。这个网站发布每一个最新的
新闻
,新的url是在id中添加1。 如何在Java中实现 汤汁?还是其他网络
爬虫
?
浏览 3
提问于2016-06-24
得票数 0
5
回答
如何在Java中设计一个网络
爬虫
?
、
、
我在一个项目上工作,这需要在Java中设计一个网络
爬虫
,可以采取用户查询一个特定的
新闻
主题,然后访问不同的
新闻
网站,然后从这些网页提取
新闻
内容,并将其存储在一些文件/数据库中。现在我有代码从单个页面提取
新闻
内容,这需要手动获取页面,但我不知道如何将它集成在一个网络
爬虫
中,从不同的页面提取内容。
浏览 0
提问于2012-04-05
得票数 4
回答已采纳
1
回答
什么工具或语言,或者我如何才能建立像谷歌
新闻
的网站
然后阅读这些网站后,我需要过滤
新闻
e,例如与梅赛德斯奔驰相关的
新闻
,然后我需要显示在该网站上参考原始来源。目前,我知道
PHP
,可以在其中建立复杂的网站。
浏览 2
提问于2010-09-13
得票数 0
回答已采纳
2
回答
Google
新闻
爬虫
翻页
、
、
、
、
继续之前的工作,抓取有关查询的所有
新闻
结果,并返回标题和网址,我正在完善的
爬虫
,以获得所有的结果从所有页面的谷歌
新闻
。目前的代码似乎只能返回第一页的谷歌
新闻
搜索结果。
浏览 7
提问于2017-05-04
得票数 0
回答已采纳
2
回答
如何建立一个基于Scrapy的网络
爬虫
来永久运行?
、
、
我想建立一个基于Scrapy的网络
爬虫
,从几个
新闻
门户网站抓取
新闻
图片。我想让这个
爬虫
: 这意味着它将定期重新访问一些门户页面,以获得更新。 安排优先次序。
浏览 8
提问于2010-02-28
得票数 11
回答已采纳
1
回答
谷歌如何频繁地抓取更新的网页?
有些网站是
新闻
/博客网站。如果我爬行,比方说,techcrunch.com,并存储和索引他们的首页,那么在几个小时内,我的索引该页将过时。
浏览 0
提问于2012-04-26
得票数 2
4
回答
python中的网络
爬虫
数据库?
、
、
嗨,我用python编写了一个网络
爬虫
,从nytimes.com这样的
新闻
网站上提取
新闻
文章。我想知道什么是一个好的数据库作为这个项目的后端? 提前感谢!
浏览 3
提问于2010-01-27
得票数 1
回答已采纳
1
回答
一个完全动态的(动态生成的每个页面)网站如何保持对搜索引擎的友好?
、
、
、
、
大多数完全动态的网站允许几乎每个页面都被搜索引擎发现、爬行和索引。如何正确实现这一点才能让一个完全动态的网站对搜索引擎友好呢?请注意,没有目录结构,用户可以输入复杂的url (www.example.com/news/recent),但文件夹结构实际上并不存在,它全部由htaccess处理,它将输入的url提交到主web应用程序以生成页面。
浏览 1
提问于2013-06-20
得票数 2
2
回答
查找相似/相关文本的算法
、
、
实际上,我打算开发一个
新闻
阅读器系统,可以从网络上抓取和收集
新闻
(用
爬虫
),然后,我想在网站上找到相似或相关的
新闻
(为了防止在网站上显示重复的
新闻
)。我认为最好的活生生的例子是谷歌
新闻
,它从网络上收集
新闻
,然后对相关的
新闻
和文章进行分类和查找。这就是我想要做的。 做这件事最好的算法是什么?
浏览 0
提问于2012-09-21
得票数 4
回答已采纳
1
回答
像googlebot这样的
爬虫
会看到我重写的urls吗?
、
、
、
、
我使用htaccess重写www.mysite.com/index.
php
?id=#并将其重定向到友好的urls,如www.mysite.com/news。所以所有的
新闻
文章都会写成www.mysite.com/news/article1等. 现在,我封锁了服务器上不需要用robots.txt进行索引的所有目录。但是,由于www.mysite.com/news目录实际上并不存在,而是用htaccess重写,那么封锁所有目录(如/core等)是否仍然允许
爬虫
对我的网站进行索引?所以基
浏览 8
提问于2013-08-09
得票数 0
回答已采纳
2
回答
有没有办法在python中抓取网页,让
爬虫
只抓取新的链接。
、
、
我想抓取一个网页(
新闻
),只获得最新的链接。我有一个
爬虫
代码,从一个网站获得所有的链接,需要2-3个小时来获得大约30000个链接,并在数据库中存储。如果下次运行
爬虫
程序时,我只想插入新的链接,该怎么办?我知道我可以在插入数据库之前做一个过滤器,但我希望
爬虫
只抓取新的链接,而不是再次抓取旧链接(基本上是整个网站)。有没有可能做这样的事情?
浏览 1
提问于2018-04-18
得票数 0
2
回答
使用哪个网络
爬虫
将网站中的
新闻
文章保存为.txt文件?
我现在非常需要
新闻
文章来测试LSI实现(它是一门外语,所以没有常用的文件包)。所以我需要一个
爬虫
,它给定一个起始url,假设遵循所有包含的链接,并将它们的内容保存到.txt文件中,如果我们可以指定格式为UTF8,我会在天堂。我没有这方面的专业知识,所以我恳求你一些建议,其中
爬虫
用于这项任务。
浏览 2
提问于2010-02-19
得票数 1
2
回答
TYPO3:编辑内容后不要清除缓存
、
、
这会导致大量的性能问题,例如,当您有数百条
新闻
记录并编辑
新闻
详细信息页面时。 是否有一种方法可以对特定页面禁用此功能?
浏览 2
提问于2017-08-09
得票数 2
回答已采纳
1
回答
如何用基于Python的Crawler机器连接Django?
、
、
好日子,朋友们如果有人知道我可以参考的资源,你们能分享一下吗? 谢谢
浏览 2
提问于2019-10-11
得票数 0
回答已采纳
1
回答
如果我有这个网站的其他部分,我如何分离网站的一个部分?
、
、
、
我创建了一个网站与asp.NET webform应用程序,获得
新闻
网站的网址,并检查他们串联找到新的
新闻
,并保存标题,网址的
新闻
,描述到数据库中…现在我想在数据库中保存数据。我可以在Rss中找到
新闻
的描述,然后我想在
新闻
页面中找到细节。有点像
爬虫
。
浏览 1
提问于2015-01-28
得票数 1
1
回答
谷歌
爬虫
和
新闻
报价器
、
、
我在我的网站上使用jQuery
新闻
收报器。由于我主要关注SEO,我想知道google crawler是否会将不断更新的
新闻
标题视为新内容?或者我最好在网站上有一个
新闻
栏目?
浏览 2
提问于2013-02-26
得票数 0
1
回答
如何配置crawler扩展以从tt_news中排除隐藏字段?
、
、
http://www.example.com procInstrFilter = tx_indexedsearch_reindex} 结果
爬虫
还要索引隐藏的
新闻
条目
浏览 2
提问于2015-11-02
得票数 1
1
回答
黑客
新闻
API -获取最受欢迎的项目
、
、
、
、
我无意中发现了黑客
新闻
API (),我想知道我是否错过了如何获得主页中最受欢迎的故事列表。是否还有其他API可以这样做,或者我应该自己实现一个
爬虫
来手动获取它呢?
浏览 3
提问于2014-09-17
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
PHP爬虫
php爬虫
php 网站爬虫入门
爬虫练习-百度新闻
PHP爬虫技术知识点总结
热门
标签
更多标签
云服务器
ICP备案
对象存储
即时通信 IM
实时音视频
活动推荐
运营活动
广告
关闭
领券