什么是正确的Stormcrawler设置以将元标记捕获到索引中？

Stormcrawler是一个开源的分布式爬虫框架，用于爬取互联网上的网页内容并将其索引。为了正确地将元标记捕获到索引中，需要进行以下设置：

配置文件：打开Stormcrawler的配置文件，通常是stormcrawler.yaml，找到相应的配置部分。
搜索策略（SearchBolt）：确保在配置文件中有一个SearchBolt，它负责将爬取的数据发送到索引服务。检查其中的字段映射（field-mappings）配置，确保元标记（metadata）字段被正确映射到索引中。
抽取策略（ParseBolt）：抽取策略负责解析爬取到的网页，并从中提取出需要的元标记。检查相应的解析配置，确保所需的元标记被正确地提取出来，并且被传递给下游的SearchBolt。
索引服务：Stormcrawler支持多种索引服务，例如Elasticsearch、Solr等。确保正确配置索引服务的连接信息，并确保索引服务已启动和可用。
元标记定义：在网页中，元标记是位于<head>标签内的<meta>标签。在抽取策略中，可以使用正则表达式或其他方式，指定需要提取的元标记名称、属性或其他特征。

推荐的腾讯云相关产品：腾讯云的云爬虫（Cloud Spider）产品可以作为Stormcrawler的替代方案。云爬虫提供了高度可扩展的爬虫集群，具有自动化部署、任务调度、数据存储和数据分析等功能。详情请参考：腾讯云云爬虫产品介绍

请注意，以上仅为一般性的设置指导，实际设置可能因具体需求和环境而异。在进行任何设置之前，建议仔细阅读Stormcrawler的官方文档，并根据实际情况进行适当的调整和优化。

页面内容是否对你有帮助？

有帮助

没帮助

什么是正确的Stormcrawler设置以将元标记捕获到索引中？

、

对于来自以下元标记的信息，crawler-conf.yaml (以及其他地方，如果需要)中的正确设置是什么： <meta name="college" content="artdesign"/> 才能正确地捕获到字段名为“学院”或“种子”的索引中？我看到了以下可能需要设置的设置

浏览 8提问于2019-06-10得票数 0

回答已采纳

1回答

处理空字段

、、

我是stormcrawler和elasticsearch的新手。我目前正在使用stormcrawler 2.0将网站数据(包括PDF和Word文档等非HTML项目)索引到elasticsearch中。在某些情况下，PDF或Word文档的元数据不包含标题，因此该字段在elasticsearch中存储为空。不幸的是，这在我用来显示搜索结果( search -ui)的w

浏览 12提问于2020-07-25得票数 1

1回答

基于RSS提要中的pubDate/lastBuildDate重新爬网页面

、

我正在设置一个基于Stormcrawler (v1.13)和Elasticsearch的and搜索。我已经将Stormcrawler配置为每24小时重新爬行一次索引页面。我最初的想法是，只要文档被标记为status (使用自定义索引器螺栓)，就向FETCHED索引添加一个元数据indexedDate。这将是上一次索引页面的时间戳。然后，我将实现一

浏览 1提问于2019-08-02得票数 1

1回答

您如何配置ApacheNutch2.3以表彰机器人metatag？

、、、、

我有一个以HBase为后端的Nutch2.3设置，并运行了一个爬行，其中包括Solr和Solr的索引。在网上搜索答案时，我在nutch-site.xml中找到了设置Protocol.CHECK_ROBOTS或将protocol.plugin.check.robots设置为属性的建议。

浏览 1提问于2016-02-05得票数 2

回答已采纳

1回答

如果使用HTML5=true路由器，则Angularjs和更改元标记以支持不同视图的SEO。

我使用Angularjs作为客户端，在服务器端为基于SPA的站点使用dustjs & Nodejs。我需要添加<meta>标签在<head>部分，以支持搜索引擎优化。我也在使用HTML5=true路由方法，因此我的URL没有#。因此，由于我使用的是HTML5=true路由，所以我可以选择以下两个选项之一来实现SEO。通过从发出事件并将其捕获到全局控制器中并更新元标记来更改元标记

浏览 0提问于2015-04-28得票数 1

1回答

Google搜索显示的结果与元标记不同。

、、

在Drupal项目中，使用模块Metatag设置标题和描述。元数据在检查器中是正确的，但是Google显示的结果不同。对于页面上的所有站点来说都是这样。这并不是因为变化，Google需要重新索引，因为这是缓存页面中的数据。 Google似乎在标题的末尾加上-EMU‘’en，尽管元标签和标题没有。此外，该描述将被忽略，取而代之的是

浏览 1提问于2019-03-08得票数 0

1回答

joomla API:头数据被覆盖

、、、

我使用下面的PHP代码在一篇文章中设置页面标题和描述元标记$options = $doc->getHeadData();echo '<pre>'; print_r($options); echo '</pre>';

浏览 2提问于2011-04-24得票数 0

回答已采纳

1回答

Azure Search : Blob元数据字段值未出现在索引数据中

我们已经在块blob上设置了元数据，并且能够验证Blob上正确标记的键/值。此字段实际上已映射到索引器中的键"ID“。

浏览 12提问于2020-03-03得票数 0

回答已采纳

1回答

根目录中的Robots.txt，这将覆盖Meta标记还是Meta标记将覆盖robots.txt文件？

、、

我不想让任何搜索引擎索引我的网站，所以我将robots.txt放在根目录中；这会覆盖Meta标记还是Meta标记会覆盖robots.txt文件？问这个问题的原因是，一些网页可能有元标签告诉机器人索引，跟随，但是我已经将网站移动到一个子域名，我仍然在调整网站之前，它的生活，以取代旧网站，我不想要删除所有的元标签告诉机器人索

浏览 0提问于2013-03-29得票数 1

2回答

Facebook共享者应该从获取的URL中提取图像，而不是从规范URL中提取图像？

、、、、

最近我注意到，如果有人在facebook上分享我的网站URL，那么它会从规范的URL中提取图像，而不是从获取的URL中提取图像，因为我添加了-我的URL看起来是那样的-fetched URL - http://www.mywebsite.com/tags&#x

浏览 4提问于2014-11-17得票数 2

回答已采纳

1回答

在大多数情况下，我使用的是配置默认值，但做了以下更改：对于弹性索引映射，我启用了_source: true，并为所有属性(内容、主机、标题、url)启用索引和存储。在crawler-conf.yaml配置中，我注释掉了所有的textextractor.include.pattern和textextractor.exclude.tags设置，以强制捕获整个页面在重新创建新的ES索引，运行mvn clean package，然后启动

浏览 3提问于2021-04-16得票数 1

回答已采纳

1回答

. metatag =‘metatag 1’>移动版页面中的任何索引元数据.什么后果？

、、、、

我也有一个移动版本的网站，以迎合手机访客。/page-1"><link rel="canonical" href="http://www.example.com/page-1"><meta name="robots" content="noi

浏览 0提问于2015-07-07得票数 2

回答已采纳

7回答

Web开发最佳实践-如何支持禁用Javascript

、、

当用户没有启用JavaScript时，最好的做法是什么？向这种用户提供内容的最佳方法是什么？通过搜索引擎保持网站可读性的最佳方法是什么？我可以想出两种方法来实现这一点，但不知道什么更好(或者第三种选择更好)：依靠元刷新标记将用户重定向到站点的非javascript版本。将元刷新标记包装在noscript标记中</e

浏览 5提问于2011-03-21得票数 8

回答已采纳

1回答

SEO Ajax问题

、

我正在努力改善我的搜索引擎优化我的主干/Ajax网站。到目前为止，我遵守了所有的指导方针：当?_escaped_fragment_=被爬行时，该网站提供html快照。然后，我用"Fetch as Google“索引页面并将其发送到索引中。页面被正确列出，但在1或2天后，它们以错误的方式列出--也就是说，ajax内容不是爬行的，而是我的<

浏览 0提问于2015-05-13得票数 0

2回答

Tika Parser减慢StormCrawler

、

我有相当常见的任务，有几千个网站，并且必须尽可能多地解析(当然，以适当的方式)。喷射器： name: "injector"

浏览 2提问于2019-03-08得票数 2

1回答

Robots.txt不允许

我正在使用一个电子商务系统，该系统正在释放数百个潜在的复制页面urls，并试图通过robots.txt来隐藏它们，直到开发人员能够在那里排序.出去吧。我成功地阻止了其中的大多数，但最后一种类型被困住了，所以问题是:我有4个urls到相同的产品页面，下面的结构，我如何阻止第一个，而不是其他。subcategory/ProductPage 到

浏览 0提问于2013-10-18得票数 2

1回答

不为elasticsearch获取/索引页面的风暴爬虫

、、、

我使用的是带有弹性搜索的风暴爬虫，在Kibana爬行网页时没有显示带有FETCHED状态的页面。此外，尽管没有标题，但Elasticsearch的索引似乎得到了一些项目我扩展了com.digitalp

浏览 0提问于2018-04-05得票数 0

回答已采纳

2回答

Javascript:如何在响应字符串解析中处理syntaxError

、、、

在我的HTML文件中，我有一行(下面)从WiFi上的设备获得响应，并使数据对我的JavaScript可用，它可以正常工作，除非响应文本中有错误&它停止了。，这样我就可以再次运行上面的语句来获得一个新的字符串。谢谢问题是，一旦加载了脚本，它的内容可能会出现格式错误，因此我希望避免出现错误。Http.responseText Http.onreadystatechange =

浏览 3提问于2020-10-18得票数 1

1回答

indexer.md.mapping -如果元数据标记不存在，会发生什么？

、

在我们的一些(但不是全部)站点上，我们有一个<meta name="college" content="thiscollege"/>标记，SC将indexer.md.mapping设置为- parse.college对于具有元标记集的站点来说，这似乎是正确的。我们遇到的问题是，如果对于3.html、4.html和5.ht

浏览 0提问于2019-06-06得票数 0

回答已采纳

1回答

特定国家的SEO

、

该网站是一个简单的4页个人网站，我的学术证书，出版物和健康博客，我开始。因此，我刚刚购买了.com.mt域，并将DNS名称服务器指向我当前的主机提供程序，并将其重定向到.com地址。我的目标是确保我不会搞砸我的google.co.uk搜索

浏览 0提问于2014-08-21得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

什么是正确的Stormcrawler设置以将元标记捕获到索引中？

相关·内容

什么是正确的Stormcrawler设置以将元标记捕获到索引中？

处理空字段

基于RSS提要中的pubDate/lastBuildDate重新爬网页面

您如何配置ApacheNutch2.3以表彰机器人metatag？

如果使用HTML5=true路由器，则Angularjs和更改元标记以支持不同视图的SEO。

Google搜索显示的结果与元标记不同。

joomla API:头数据被覆盖

Azure Search : Blob元数据字段值未出现在索引数据中

根目录中的Robots.txt，这将覆盖Meta标记还是Meta标记将覆盖robots.txt文件？

Facebook共享者应该从获取的URL中提取图像，而不是从规范URL中提取图像？

风暴爬虫没有从网页中检索所有文本内容

. metatag =‘metatag 1’>移动版页面中的任何索引元数据.什么后果？

Web开发最佳实践-如何支持禁用Javascript

SEO Ajax问题

Tika Parser减慢StormCrawler

Robots.txt不允许

不为elasticsearch获取/索引页面的风暴爬虫

Javascript:如何在响应字符串解析中处理syntaxError

indexer.md.mapping -如果元数据标记不存在，会发生什么？

特定国家的SEO

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐