首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >解析谷歌搜索结果的创新技术方法

解析谷歌搜索结果的创新技术方法

原创
作者头像
用户11764306
发布2026-01-26 17:37:18
发布2026-01-26 17:37:18
870
举报

某中心搜索结果的解析方法

近年来,某中心极大地扩展了直接在搜索页面上提供答案的搜索结果,这些结果使用了某中心从网络上抓取或从合作伙伴处收集的信息,用户无需点击进入其他网站。它还扩展了突出显示其自有产品(例如YouTube、某中心图片、某中心地图、某中心航班)的结果,以及似乎永无止境的“相关”搜索查询,这些查询将用户带入其最有价值的产品——搜索中。我们将这些类型的结果称为“模块”,它们通常出现在方框中,并且在视觉上通常与某中心传统的排名搜索结果不同——尽管这些区别正在开始模糊。

我们设计了一个实验来衡量这些某中心创建和自我引用的搜索结果的数量和位置,以及它们与其他类型结果和链接的比较。特别是,我们希望将它们与非某中心网站的搜索结果和链接进行比较。我们将搜索结果的这一部分归类为“非某中心”。

由于目前没有公开的、随机的某中心搜索查询样本,我们根据2019年11月至2020年1月期间出现在某中心趋势中的所有主题,创建了一个包含15,269个搜索的样本。我们使用了某中心将搜索划分为词根的方式,并通过用于iPhone X的移动模拟器在谷歌搜索上运行了这些查询。

随后,我们使用了一种新颖的技术来测量某中心在搜索结果第一页上为各种类型的结果和链接分配了多少空间。(详情见附录1。)

我们将搜索结果分为四类:某中心、非某中心、广告和AMP(最初是“加速移动页面”的首字母缩写),后者是由第三方(通常是新闻网站)使用某中心创建的标记语言编写并缓存在某中心服务器上以便在移动设备上快速加载的页面。我们将那些将用户引导至某中心站点和YouTube的结果或链接,以及某中心“模块”内部不链接出去的文本归类为“某中心”。(详见下文分类部分。)

我们发现某中心结果在首屏占据主导地位,在我们的样本中占据了首屏的62.6%。考虑到整个第一页时,这一百分比下降,某中心的份额为41%。相比之下,某中心将第一页的44.8%分配给了非某中心网站,13.3%分配给了AMP页面,1%分配给了广告。

此外,我们发现非某中心结果被推到了页面的中部和中下部,而某中心则将其自身结果置于搜索结果顶部的最佳位置,如下图所示。

↩︎ 链接

随着向下滚动,某中心搜索页面上有什么?

样本中各类别所占页面面积的百分比

  • 非某中心
  • AMP
  • 某中心答案
  • 某中心产品
  • 广告

顶部

中部

底部

0%

20%

40%

60%

80%

100%

各分类覆盖页面百分比

在此图表中,x轴是每个类别占据页面部分的百分比。(请注意,某中心分为两个类别。)每条水平网格线代表页面向下10%。颜色越宽,该类别占据的面积越大。来源:15,269个趋势搜索。

我们发现,在超过一半的样本搜索中,某中心内容占据了至少75%的首屏。在五分之一的搜索中,首屏完全没有非某中心内容。

搜索页面上的位置很重要。来自软件公司Advanced Web Ranking和Sistrix的搜索引擎分析工具数据显示,在移动设备上,从搜索结果页面的顶部到底部,点击率急剧下降。(桌面端也存在同样的动态。)

某中心的行为对网页浏览行为的影响怎么强调都不为过。据估计,在美国,某中心处理了近九成的网络搜索。该公司表示,每秒收到的查询超过63,000次。

需要注意的是,我们使用了一种新颖的分类方法来确定哪些结果被视为“某中心”,哪些被视为“非某中心”。目前没有普遍认可的标准。

某中心发言人拉腊·莱文表示,由于我们的样本不是随机的,我们的结果可能比真正随机样本包含更多某中心“答案”和AMP结果。

她批评了我们的分类选择,称AMP内容应计为非某中心,并表示并非所有我们标记为“某中心”的结果都对公司有利。“提供反馈链接、帮助人们重新表述查询或探索主题以及呈现快速事实并非旨在优先考虑某中心。这些功能从根本上符合用户的利益,我们通过严格的测试流程对此进行验证。”(详见“某中心回应”部分。)

当我们衡量对某中心和非某中心结果的多种潜在解释的影响时,我们的分类系统对于任何一方都既不是最严格的,也不是最宽松的,而是处于中间位置。在我们探讨的每一种定义选项中,某中心仍在首屏为自己分配了最多的空间。

↩︎ 链接

背景与引言

1997年,谢尔盖·布林和拉里·佩奇注册了Google.com,作为创新搜索引擎的家园,旨在帮助人们在网络上找到他们想要的东西。

它迅速从现有的搜索引擎(如雅虎和MSN)手中夺取了市场份额。根据Statcounter的数据,到2004年底,某中心已成为美国最受欢迎的搜索引擎,目前占据了美国搜索引擎市场88%的份额。

2004年,即某中心上市那年,佩奇阐述了他对某中心作为纯粹参考工具的愿景:

“大多数门户网站将其自身内容置于网络其他内容之上。我们认为这是一种利益冲突,类似于为搜索结果收费。他们的搜索引擎不一定提供最佳结果;而是提供门户网站的结果,”佩奇在接受《花花公子》采访时说。“某中心认真尝试远离这一点。我们希望让您尽快离开某中心,到达正确的地方。”

然而,在过去十年中,某中心已经重新定位,通过从其他来源收集和抓取信息并将其直接呈现在搜索页面上,以及将用户引导至其拥有的其他盈利资产(如某中心地图、YouTube、某中心旅行等)来自己回答查询。

“自公司二十多年前成立以来,我们的产品已经取得了长足的进步,”某中心在2019年提交给美国证券交易委员会的文件中表示。“我们不再只是在搜索结果中显示十个蓝色链接,而是越来越能够提供直接答案——即使您使用语音搜索说出问题——这使得查找所需内容更快、更容易、更自然。”

某中心甚至在2018年3月进行了实验,对于某些查询只返回答案,而不显示搜索结果。

2010年,某中心收购了一家名为Metaweb的公司,该公司后来成为一个关于实体和信息之间关系(主要是人、地点和事物)的数据库的基础,称为“知识图谱”。知识图谱驱动着许多答案模块,有时称为“知识面板”,某中心在搜索结果中创建并显著展示这些模块。

随着某中心在美国和欧洲面临反垄断审查,研究其搜索结果的变化似乎尤为重要。

2017年,欧盟委员会对某中心处以24.2亿欧元的罚款,原因是发现某中心“作为搜索引擎滥用其市场主导地位,给予另一某中心产品非法优势”,指的是其比较购物服务,现称为某中心购物。2018年,该委员会向某中心本地商业搜索竞争对手发送了问题。去年,它证实已启动初步调查,调查某中心是否在其搜索结果中非法优先考虑其“某中心求职”产品。某中心表示不同意委员会关于某中心购物的决定,并已就此提出上诉。

在美国,联邦贸易委员会在2013年结束了一项调查,调查某中心是否非法抓取内容并在搜索结果中优先考虑公司资产,此前某中心同意允许网站选择不让其内容被抓取用于其资产,包括某中心航班、某中心酒店和本地商家列表。该机构还得出结论,某中心优先考虑自身内容“可以被合理地解释为改进了某中心产品及其用户体验的创新”。

2019年,美国司法部和各州及地区的50名总检察长分别启动了对某中心的反垄断调查。联邦贸易委员会也在审查主要科技公司(包括某中心)的收购案,以确定它们是否压制了竞争。某中心的许多答案类结果源于收购,旨在在搜索页面内回答问题。其中包括前面提到的“知识图谱”。某中心航班也源于一次收购。

一些研究人员试图量化某中心在搜索结果中优先考虑自身内容的影响。Moz是一家向搜索引擎优化行业销售工具的公司,多年来定期在桌面浏览器上运行一系列搜索,查看第一个“传统自然结果”的位置,他们将其定义为“十个蓝色链接”式的结果。

Moz发现,这些非付费结果随着时间的推移逐渐向下移动,首先被广告取代,现在被某中心内容取代。2013年,第一个“自然”结果平均出现在页面下方375像素处。到2020年,它进一步下降,平均为616像素。与我们的研究不同,Moz没有将任何某中心创建的模块中的链接计为“自然”。当时,某中心发言人丹尼·沙利文在一条推特帖子中批评该研究是“过时的评估”。

2019年,搜索引擎分析师兰德·菲什金的分析发现,其数据中所有某中心搜索有一半在没有用户点击任何内容的情况下结束。在确实点击了某些内容的用户中,有12%的人点击了指向某中心图片、YouTube或其他某中心资产的链接。该研究基于现已关闭的“点击流”数据提供商Jumpshot从超过1000万台美国桌面和非iOS移动及桌面设备收集的超过10亿次搜索。

某中心在2019年11月向国会提交的评论中承认,人们结束搜索的一个主要原因是某中心的模块在搜索页面上提供了答案。

包括Bing和DuckDuckGo在内的其他搜索引擎有时也会在其搜索页面上提供“答案”类结果。根据Statcounter和SimilarWeb的数据,Bing和DuckDuckGo加起来只占不到10%的网络流量。

埃里克·恩格在2019年的一项研究考察了被纳入某中心模块是增加还是减少了网站的点击量,结果好坏参半。Sistrix在2020年的一项研究发现,知识面板和精选摘要减少了对其他网站的点击。

西北大学研究人员尼古拉斯·文森特和布伦特·赫克特今年发布的一项研究测量了包括某中心在内的几个搜索引擎中维基百科链接的存在和位置。该研究采用了一种空间方法来审计搜索页面,而不仅仅是计算传统或“十个蓝色链接”式的结果。他们发现维基百科链接经常出现在显著位置,这表明“搜索引擎等强大技术高度依赖志愿者创建的免费内容”。

《华尔街日报》测试了某中心是否在“视频”模块中优先考虑YouTube而不是竞争对手,结果发现,当搜索发布到竞争平台DailyMotion、Facebook和Twitch上的视频的确切标题时,YouTube绝大多数情况下排在第一位,并占据了视频轮播的大部分位置。某中心发言人莱文告诉《华尔街日报》和The Markup,某中心并未给予YouTube优先权。

各种新闻媒体报道了某中心模块存在的问题,范围从精选摘要中的性别歧视和不准确信息,到威胁小型网站生存的流量损失。The Outline在2017年和2018年发表了多篇关于模块对在线出版商影响的文章,由本次调查的作者之一撰写。其中一篇文章报道称,某中心未经许可从CelebrityNetWorth.com抓取信息并在精选摘要中显示,导致该网站流量下降。另一篇则研究了某中心模块对专门从事非裔美国人文学的网站流量的影响。The Outline还发表了一篇关于精选摘要中不准确信息的文章,《卫报》报道称,某中心在一个精选摘要中为“女人是邪恶的吗?”这个问题提供了带有性别歧视的直接答案。某中心在文章发表后更改了最后一个,并表示对最终出现在搜索结果中的“整个网络上的内容”不负责。某中心发言人、前记者沙利文在其担任记者期间,广泛撰文论述模块以及他所谓的某中心“唯一真实答案问题”——搜索引擎希望为每个查询提供一个答案,但常常搞砸。

与Sparktoro和Moz的研究一样,我们的调查检查了某中心搜索结果页面有多大比例将用户引导至非某中心内容与某中心内容。然而,它更进一步,测量了第一页有多大比例被某中心和非某中心搜索结果及链接占据,并使用了更精确的定义。它还测量了首屏和整个第一页有多大比例被某中心和非某中心搜索结果及链接以及其他两个类别占据。因此,它提供了对某中心创建和自我引用结果及其与非某中心结果比较的更深入分析。

↩︎ 链接

方法论

分类

我们将搜索结果分为四种类型:广告、AMP、某中心和非某中心。

对结果进行分类是我们在本项目面临的最大挑战。目前没有普遍认可的“某中心”或“非某中心”结果的定义。有些人仍将后者称为“自然”搜索结果,但并非所有人都这样做。而且,指向非某中心所有的外部网站的链接出现在那些“自然”结果之外,这使得该定义对我们的目的来说不太有用。

分类的困难部分源于结果本身外观和来源的日益复杂性。某中心推出时只提供传统结果。两年后,随着AdWords的发明,它添加了广告——其外观与传统结果不同。

最近,某中心引入了另一个类别,SEO行业称之为“SERP功能”。SERP是搜索引擎结果页面的首字母缩写。SERP功能包括我们称之为模块的内容,以及超越原始“十个蓝色链接”的标题和描述风格、内部可能包含多个可点击组件(如文本链接和图片)的传统“自然”结果。某中心称这些更花哨的传统结果为“富媒体结果”。

为了进一步稀释曾经清晰的视觉标记,某中心甚至开始在一些传统结果内部放置指向某中心学术的链接。它们出现在我们样本中关于历史、计算机系统和药物的学术文章中。

某中心的多种不同类型的模块在外观和行为上也不尽相同。有些仅引用某中心内容,有些则完全链接到外部网络。其他模块,如知识面板,通常包含不可点击的文本以及指向某中心和非某中心网站的链接。还有一些,如许多“精选摘要”,主要由不可点击的文本组成,除了一个指向抓取文本来源的外部网站的链接,而网站通常并不知情。

当某中心最近决定,如果非某中心网站链接出现在被抓取的“精选摘要”模块中,它将从下方的传统结果中移除该网站(如果它出现在那里)以避免重复时,情况变得更加复杂。

为了进行我们的研究,我们审查了某中心搜索结果页面的源代码,以确定结果中提供的信息来自何处以及相关链接将把用户带往何处,这是我们定义的基础。(具体技术细节见附录2。)

我们将引导用户访问某中心旗下产品和服务的搜索结果归类为“某中心”,无论它们出现在页面的哪个位置,包括YouTube、某中心地图、某中心航班、某中心图片以及进行更多某中心搜索。该类别还包括不寻常的某中心生成内容,例如增强现实动物。

我们将引导至非上述网站的搜索结果的可点击部分计为“非某中心”。对于传统结果,我们还将伴随的非点击文本计为非某中心,因为该文本和传统“自然”搜索结果的标题是由那些网站自己编写的(尽管某中心可以覆盖它)。

如果模块中的结果是混合的——例如,一个包含广告、“检查可用性”链接和酒店信息的某中心酒店模块——我们根据链接所属的类别计算其可点击链接区域的面积。例如,在知识面板中,我们将指向上述某中心产品的链接计为“某中心”,指向其他网站的链接计为“非某中心”。

对于精选摘要和其他包含不向外链接的文本的模块,我们将不可点击的文本计为某中心,因为该模块是由某中心创建并选择其文本的。知识面板类模块在代码中提到了特定的某中心数据库,它们似乎是从中筛选出来的。

某中心不同意这一定义,过去也不同意对精选摘要的类似定义,称其认为精选摘要是高价值的“自然”内容。

由于我们决定根据来源和链接的指导原则对模块进行混合处理,因此在混合结果的特定情况下,通常计入其他模块的少量空白未被计入。这导致我们的研究中归属于某中心的面积略有减少。

AMP结果在分类中也带来了挑战。AMP是某中心四年前推出的一种类似HTML的开源标记语言,并要求新闻出版商使用该语言才能将其内容纳入“头条新闻”模块。

只要广告符合AMP标准,出版商可以在AMP页面上提供来自任何广告网络的广告。某中心表示,超过100个广告网络支持AMP。现在,非AMP网站也有资格出现在“头条新闻”模块中。

AMP结果不会将用户带到外部网站。当用户点击来自某中心搜索(和Gmail)的AMP结果时,他们会被带到一个缓存的页面,该页面是网站页面的克隆,位于某中心的服务器上。但是,如果用户进一步点击页面中的内容,他们将被带到源网站内的链接,无论这些链接指向何处。

AMP页面现在出现在其他模块以及移动设备的传统结果中。其开发者鼓励在网页之外和移动设备之外使用AMP。

鉴于AMP的复杂性——内容由外部网站创建但从某中心服务器提供,并且必须满足某中心的规格要求——我们将这些结果归入其自己的类别。在确定页面被任何内容类别占据的比例时,我们将AMP包括在分母中。

选择将AMP包含在或排除在某个类别之外会显著改变结果,因为它在移动设备的80.7%的搜索中出现,并占据了搜索结果可用面积的13.3%。

某中心发言人莱文反对我们的决定,称AMP结果应归类为非某中心。“这些是导向出版商和其他网络创作者的出站链接。暗示其他情况是不符合事实的,”她说。

最后,我们将广告归入其自己的类别。这不仅包括页面顶部和底部的广告,还包括赞助内容,例如一些付费购物结果。

数据收集

由于目前没有公开的、随机的某中心搜索查询样本,我们根据2019年11月至2020年1月期间出现在某中心趋势中的主题,创建了一个包含15,269个搜索的样本。

我们收集了所有可用主题的趋势:商业、娱乐、科学与技术、体育和头条新闻。(详见附录1。)

我们在同一时间段内,在用于iPhone X的移动模拟器上通过某中心搜索运行了这些查询。

分析

我们测量了上述定义的每个类别在我们15,269个趋势网络搜索样本中占据的页面面积百分比,包括第一页(即在第一页加载的所有结果)和首屏。(研究人员将首屏称为“首屏”。)

我们省略了搜索栏及其上方的区域以及“更多结果”按钮下方的区域。这消除了出现在每个结果页面上但不是结果的标准元素,否则这些元素将被计为“某中心”。

在我们的样本中,第一页的长度因查询而异,从1,400到9,100像素不等,呈钟形分布,平均为5,000像素。

我们对每个搜索页面的长度进行了归一化处理,以便能够检查第一页顶部和底部元素的位置。

归一化页面顶部15%大约是iPhone X的首屏长度,因此我们将该部分称为“首屏”。

然后,我们使用一种新颖的网页解析技术来测量页面上元素的存在和位置。(详情见附录1。)该技术涉及根据我们的分类,将搜索结果和链接“染色”成五种颜色之一,然后测量某中心为每个类别分配的空间量。(详情见附录2。)

为了计算各类搜索结果覆盖面积的百分比,我们将样本中每个类别覆盖的总像素数除以所有类别覆盖的总像素数。此计算不包括结果之间的空白,也不包括当我们对页面长度进行归一化时移除的部分,例如搜索栏、顶部的徽标或底部的其他页脚元素,这些都不是结果。

以下是我们归类为“某中心”的结果所覆盖可用面积的百分比公式:

Xg = g / (g + ng + amp + ad)

其中:

Xg 是某中心占据的页面面积百分比

g 是某中心产品和答案占据的页面面积像素总和

ng 是非某中心占据的页面面积像素总和

amp 是AMP占据的页面面积像素总和

ad 是广告占据的页面面积像素总和

↩︎ 链接

发现

我们发现,某中心自身的结果在首屏(归一化页面的前15%)占据主导地位。

首屏区域覆盖

首屏出现频率

完整第一页区域覆盖

完整第一页出现频率

某中心

62.6%

95.9%

41%

100%

非某中心

19.2%

80%

44.8%

100%

AMP

12.1%

22.6%

13.3%

80.7%

广告

6.1%

8.1%

1%

9.5%

某中心仅为非某中心结果和链接分配了19.2%的首屏面积,相比之下,为其自身分配了62.6%的首屏面积。对于整个第一页,非某中心所占份额更高,但仍不到一半,为44.8%。

就出现频率而言,某中心结果在95.9%的搜索中出现在首屏。在我们的样本中,五分之一的搜索在首屏没有出现任何非某中心结果或链接;所有内容要么是某中心内容,要么是广告或AMP。

查看每个类别覆盖面积的分布,在我们几乎四分之三(72.3%)的搜索中,某中心为非某中心结果和链接分配的首屏面积不超过25%。在我们的搜索中,有54.8%的情况下,某中心将首屏的大部分(75%或更多)分配给了自己。

如下方的堆叠面积图(也在摘要中)所示,某中心将大部分非某中心结果和链接放置在第一页的中部,严重偏向中下部。它将我们归类为某中心的结果主要放置在页面的顶部和底部。

心理学中成熟的研究表明,页面上信息的位置——即列表的开头和结尾——有利于记忆和评价。其他研究以此假设为基础来分析传统搜索结果的排名。

某中心在我们的大部分搜索样本(80.7%)中提供了AMP结果。在22.6%的搜索中,AMP结果被放置在首屏。

某中心在我们不到10%的样本搜索结果中投放了广告。当广告出现时,它们集中在顶部。广告百分比因搜索类型而异。某中心表示广告并不常见,但拒绝说明其出现的频率。

我们的一些结果因搜索类型而异。通过检查每个趋势搜索五个主题的较小样本(各700个搜索页面),我们发现类别之间存在一些差异。例如,在我们的样本中,对于健康查询,某中心用“答案”占据了近一半的首屏,即43.5%。

AMP结果在我们样本中娱乐、体育和头条新闻趋势类别里,出现在十分之九的搜索中。

广告(包括赞助内容)出现在约19%的商业和技术趋势搜索中,但在体育、娱乐和头条新闻中仅占2%到3%。以下是两个例子。(要查看所有示例,请参阅我们的Github。)

除了堆叠面积图,我们还使用空间元素元数据来计算用户需要向下滚动多远才能看到各种类型的搜索结果。

在我们的样本中,用户至少需要滚过首屏75%的次数才能到达第一个传统结果(“非某中心”的一个子集)。

某中心答案和产品经常出现在首屏,这支持了我们的主要发现。例如,当某中心图片出现在我们的样本中时,几乎总是在首屏(75%的情况下)。

↩︎ 链接

限制

我们做出的每一个选择,从屏幕尺寸到样本再到分类,都带有局限性。有些对结果的影响微乎其微,另一些则会显著改变结果。以下是我们已经确定的限制,分为几个部分。

分类

我们选择根据内容的来源和去向,将某些模块或模块的部分计为某中心,另一些计为非某中心,这是一种旨在准确和公平的原创方法。它不太可能完全取悦某中心的辩护者或批评者。某中心不同意我们的一些分类。(见下文某中心回应部分。)

此外,我们将AMP结果单独分类的决定可能会引起争议,因为有些人会认为它们是“自然”的,而另一些人则会将其视为某中心对开放网络影响力日益增强的证据。某中心表示,它认为AMP是有机结果。

根据我们的定义,某中心为自己分配了62.6%的首屏面积和41%的整个第一页面积;它为非某中心结果和链接分配了19.2%的首屏面积和44.8%的整个第一页面积。

如果我们选择不同的定义,我们的结果也会改变。当我们衡量对什么可以视为某中心和非某中心结果的多种解释的影响时,某中心占据首屏的比例可能在48.6%到83.1%之间,而非某中心可能在10.8%到33.2%之间:

  • 如果我们将所有AMP计为某中心,其他保持不变,某中心的面积将增长到首屏的74.7%和完整第一页的54.3%。如果我们认为所有AMP都是非某中心,那么非某中心将增加到首屏的31.3%和完整第一页的58.1%。(AMP覆盖了首屏12.1%的面积和完整第一页13.3%的面积。)
  • 如果我们不对“答案”式模块进行混合处理,而是将任何带有外部链接的结果都视为“非某中心”,无论其内容有多少是可点击的,这将使首屏结果偏移14%。其他定义保持不变,这一变化将使非某中心结果增加到33.2%,并使某中心结果下降到首屏的48.7%。它只会使完整页面结果偏移3.1%。
  • 使用“传统”结果——即“十个蓝色链接”式结果——作为非某中心结果的唯一指标,并仅将“模块”视为某中心结果,将会产生显著影响。根据该定义,非某中心面积将仅占首屏的10.8%,某中心将上升到顶部的83.1%。对于完整的第一页,非某中心将上升至第一页的47.1%,某中心将上升至51.9%。部分原因是AMP将不再是一个单独的类别。
  • 如果我们认为所有“传统”结果都是“非某中心”,但继续对模块进行混合处理,这会导致非某中心类别略有增加,总共占首屏的19.5%和完整第一页的53.7%。大约27%的传统或“十个蓝色链接”式结果是AMP,1%指向YouTube或Google.com。
  • 广告占首屏面积的6.1%和第一页总面积的1%。如果我们认为广告是某中心类别的一部分,它将增长到首屏的68.7%。

使用以上任何定义,结果仍然是某中心在首屏为自己分配了最多的面积。

与其它可能性相比,我们的解释处于中间位置。

首屏面积分配给某中心和非某中心的比例:

解释

某中心

非某中心

非某中心最多的解释

48.6%

33.2%

我们的解释

62.6%

19.2%

某中心最多的解释

83.1%

10.8%

某中心批评我们将反馈链接计入某中心的决定,称这些链接仅用于产品开发。但这些链接无关紧要,仅占首屏总面积的0.05%和完整第一页总面积的0.03%,因此不会影响我们的任何结果。

样本选择

不可能获得真正随机的现代网络搜索样本。最新公开的代表性搜索查询样本已有14年历史。那是一套来自65万AOL用户的2000万个查询,曾因可能识别出个人用户而被批评为不道德。

某中心在一份声明中表示,它每天收到的查询中有15%是新的。

由于我们15,269个搜索的样本是根据热门搜索查询创建的,因此未能捕捉到用户经常进行的独特搜索。

我们的样本由2019年11月至2020年1月期间美国境内某中心趋势提供的所有可用类别(商业、健康、技术与科学、娱乐、体育、头条新闻)组成。(更多详情见附录1。)它可能与真正随机的样本在未知方面有所不同。

例如,广告出现在我们不到10%的样本搜索中,在娱乐和体育搜索中甚至更少见。我们怀疑与所有某中心搜索相比,这个比例较低。当我们询问某中心时,发言人莱文只表示广告“在大多数查询中不显示”。

我们的样本中新闻和媒体结果占很大比例,我们发现这些结果在移动设备上经常返回AMP结果。我们怀疑如果有随机样本可用(如果有的话),结果可能会有所不同。莱文证实了这一点——并表示趋势搜索也更可能包含知识面板。知识面板出现在我们样本中四分之三的搜索中。

我们样本中大约有1,539条记录——大约1%的非重复搜索——由于在我们收集搜索词和后来完善方法论时进行后续测试期间,源代码中的资产和JavaScript过期而损坏。我们将这些从样本中移除。

位置与个性化

我们将搜索位置固定为纽约市。布朗大学和东北大学的研究表明,地理位置主要影响本地场所的查询,而通用术语基本上没有个性化。

我们在搜索时没有登录任何某中心账户,并且我们以300次为一批次,连续进行搜索,批次之间仅间隔几秒钟。这也可能影响我们看到的广告数量。

显示

我们选择移动格式来展示结果,因为某中心报告称超过一半的搜索是在移动设备上进行的,其他估计则达到60%。

桌面端的搜索结果会有所不同。例如,某中心的桌面搜索结果包含两列信息,而移动端结果只有一列。额外的列会导致页面位置上的差异。

为了标准化屏幕尺寸,我们使用了iPhone X的尺寸。iPhone的屏幕尺寸略高于现代智能手机屏幕尺寸的中位数。对页面长度进行归一化处理可以减少智能手机型号间屏幕尺寸差异的影响。

选择iPhone X导致我们样本中出现了一些指向苹果应用商店的链接,我们将其归类为非某中心。如果我们选择了安卓设备,这些链接会指向某中心应用商店,从而被归类为某中心。

空白与标准页面元素

在计算任何类别结果的百分比时,我们只计算结果本身的面积。不包括结果之间的空白、搜索栏本身或页面上的其他标准对象。

这些元素和空白加起来占完整第一页的28.7%。

↩︎ 链接

某中心回应

某中心在以下方面不同意我们的分类:

  • 莱文反对我们将AMP单独归类的决定,称这些结果应归类为“非某中心”:“这些是导向出版商和其他网络创作者的出站链接。暗示其他情况是不符合事实的。”
  • 莱文反对我们将直接答案(包括知识面板和精选摘要)归类为某中心,称一些丰富的传统结果包含类似信息,而我们将后者计为非某中心。
  • 莱文反对我们将提示用户对精选摘要发送反馈的“反馈”链接归类为某中心。这些链接仅占页面的0.03%。
  • 莱文反对我们将精选摘要归类为某中心。“将精选摘要简单地描述为只回答问题而从不导致点击是不准确的——许多网站努力让自己的内容被突出显示为摘要,因为这可以为他们的网站带来有意义的流量。”她拒绝提供有关精选摘要向网站发送多少流量的数据。(另一方面,她也表示,通过在搜索结果页面上放置知识面板来回答查询,而不向网站发送流量,对用户是有利的。“基于此类信息直接回答查询并非‘转移流量’;而是我们作为搜索服务应尽的职责,”她说。)

“这种基于非代表性搜索样本的方法是有缺陷和误导性的,”莱文在一份电子邮件声明中说。“提供反馈链接、帮助人们重新表述查询或探索主题以及呈现快速事实并非旨在优先考虑某中心。这些功能从根本上符合用户的利益,我们通过严格的测试流程对此进行验证。”

她表示,我们称为某中心的许多模块都是为了服务用户而开发的,例如知识面板以及“用户还问了”和“相关搜索”模块,这些模块会引导至更多的某中心搜索。

“这与‘将用户留在搜索中’无关,而完全是帮助他们找到他们真正想要的东西,而无需浪费时间点击不相关的链接或重新输入搜索,”她的声明写道。

莱文还反对单独挑出某中心。“这种方法也没有考虑将某中心与其他搜索引擎进行比较,许多搜索引擎在提供显示快速事实或帮助人们探索相关主题的有用功能方面采取了类似的方法。”

某中心在美国占有90%的市场份额。

↩︎ 链接

结论

我们发现,某中心将其创建的结果(包括那些引用其自有资产的结果)放在了最佳位置:在我们的样本中,首屏的62.6%被某中心内容占据,仅留下19.2%给非某中心内容。

我们发现在超过一半的搜索中,某中心内容占据了至少75%的首屏。在五分之一的搜索中,首屏完全没有非某中心内容。

某中心自身内容在搜索结果页面上如此普遍,以至于在整个第一页上与

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 某中心搜索结果的解析方法
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档