首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >开源支撑下的Perplexity不止于OpenAI套壳

开源支撑下的Perplexity不止于OpenAI套壳

作者头像
云云众生s
发布于 2024-03-28 06:36:31
发布于 2024-03-28 06:36:31
9120
举报
文章被收录于专栏:云云众生s云云众生s

Perplexity CEO Aravind Srinivas 是谷歌创始人Larry Page的忠实粉丝。但是他认为自己找到了一种方法,不仅能与谷歌搜索竞争,还能与OpenAI的通用预训练transformer(GPT)竞争。

译自 More than an OpenAI Wrapper: Perplexity Pivots to Open Source,作者 Richard MacManus 是 The New Stack 的高级编辑,他写关于网络和应用程序开发趋势的文章。此前他于 2003 年创立了 ReadWriteWeb,并将其打造成为世界上最具影响力的科技新闻网站之一。从早期......

AI 搜索引擎 Perplexity 最近因其可作为 ChatGPT 的替代选择而获得了很多关注。与 ChatGPT 不同,Perplexity 默认为它提供的信息引用来源。这一单一功能已成为生成式 AI 的关键,鉴于这项技术持续存在的“幻象”问题。相应地,尽管 OpenAI、微软、谷歌和 Meta 主导着这个市场,但 Perplexity 已成为一个出人意料的强劲竞争者。

我与 Perplexity 联合创始人兼 CEO Aravind Srinivas(此前是 OpenAI 和 DeepMind 的研究员)进行了交谈,以进一步了解该产品,包括其最近关注开源语言模型的重点。请注意,本次采访是在该公司本月早些时候宣布 7360 万美元 B 轮融资之前进行的,这在财务上将其推向了大联盟。

Perplexity 对 JavaScript 问题的回答。响应中的每个数字都是所引用信息来源的可点击链接。

不仅仅是套壳

Perplexity 的核心是搜索引擎。Srinivas 告诉我,他是“Larry Page的忠实粉丝”,从一开始,当 Perplexity 在 2022 年 12 月推出时,他就想挑战谷歌的搜索引擎。然而,当时 Perplexity 依赖于 OpenAI 的 GPT 3.5 模型和微软必应。它只是 AI 工程社区中一个流行的(且有些贬义)术语“套壳”的其他公司技术。

但在过去的一年中,Perplexity 进化迅速。它现在拥有自己的搜索索引,并基于开源模型构建了自己的语言模型。他们也开始结合自己的专有技术产品。 11月底,Perplexity 宣布了两个新的“在线语言模型”——与搜索索引相结合的语言模型,名为 pplx-7b-online 和 pplx-70b-online。它们是在开源模型 mistral-7b 和 llama2-70b 的基础上构建的。

“我们在 LLaMA-2 发布的那一天就开始使用开源模型”,Srinivas 说,指的是 Meta 在 2023年7月发布的其第二代 LLaMA 模型(名称是“大型语言模型 Meta AI”的首字母缩写)。 当一家名为 Mistral AI 的法国公司在 9月发布了一个名为 Mistral 7B 的开源语言模型时,他们也注意到了。 在那之后,Perplexity 成为不仅仅是一个套壳的策略开始成形。

“这两者之间存在良性竞争”,Srinivas 谈到 Meta 和 Mistral 时说。“这使我们受益,因为我们就像,'好的,我们是这些模型的用户。' 比如,我们要把你的聊天机器人套壳成一个非常高效、快速的推理,我们自己托管——所以我们不是一个套壳。 然后我们会自定义它,根据我们的模型、我们的产品进行微调——这是搜索用例的摘要——然后我们会将其部署给终端用户。”

使用开源模型对 Perplexity 的增长至关重要。 Srinivas 指出“Mistral 的最新模型与我们在 Perplexity 一年前开始使用的 GPT 3.5 一样强大——如果不是更强大的话。”

除了后端技术,Perplexity 的用户界面也与时俱进。其默认界面仍然是聊天机器人(类似 ChatGPT),但 Perplexity 现在提供了它所说的“Copilot 搜索”——“请求详细信息,考虑您的偏好,深入研究,然后提供精确的结果。”

Perplexity 对比 ChatGPT

为了快速演示 Perplexity 和 ChatGPT 之间的区别,我向两种产品提出了以下问题:“JavaScript 如何在现代 Web 应用程序中使用?”

首先,披露一下: 在访谈前夕,Perplexity 赠予我一年的 Pro 账户,以便更好地测试其产品。我已经是 ChatGPT Plus 用户,我自己支付费用,所以我能够对两家公司的高级产品进行公平比较。两家公司每月收取 20 美元的高级服务费用。Perplexity Pro 使您能够“从 GPT-4、Claude 2.1、Gemini 或 Perplexity 中选择首选的 AI 模型”。

回答我的查询,ChatGPT 4 回复了一个 10 点的功能和好处列表——包括 JavaScript 在用户交互和实时 Web 应用程序中的使用。这是一个不错的概要,虽然比较高层次,我发现有几行我想验证的。

Perplexity 的答案来自默认的 Perplexity 模型,它更像一篇短文。它与 ChatGPT 一样出色,但它还包括了超过 20 个引文。Srinivas 说,其默认模型基于 GPT-3.5 的微调版本,加上一点 LLaMA-2 —— “我们以某种方式将两者结合在一起。”

Perplexity 引文

我用 Perplexity 的“实验”模型尝试了相同的查询,Srinivas 说这是“在内部使用 LLaMA-2 进行微调的”。响应更短,我觉得它不太全面。但这是实验性的,所以您的结果可能会有所不同。事实证明,简洁是其目标之一。

“实验模型并不比 GPT-4 更好”,Srinivas 解释道。“你从中得到什么?它的简洁性[和]事实准确性,没有任何道德化行为。”

Perplexity 的下一步

如上所述,默认的 Perplexity 模型仍然依赖于 GPT 3.5(和一点 LLaMA-2)。但其意图是摆脱长期依赖 OpenAI 的基础模型。

“我们现在在未来一个季度左右的目标是完全转移所有人到我们的 Perplexity 模型”,Srinivas说。“现在有了选择——我们可以使用 LLaMA-2 作为基础模型,也可以使用新的 Mistral 作为基础模型。”

在搜索方面,我问 Perplexity 的搜索索引与谷歌的搜索索引相比,目前的规模如何?

“我们的索引中有10亿个页面,”他回复道。“但,你知道,我想强调的主要观点是[ ]搜索索引的大小也像大型语言模型的大小一样——索引有多大并不重要。更重要的是数据的质量有多高;有多少高质量的网页?”

他指出,其搜索排名机制类似于谷歌,因为它依赖引文,但有语言模型的特点。Perplexity 的产品引用某个网页的次数越多,它就越重要。为了解释,Srinivas 再次提到了他的偶像Larry Page。

“类似于Larry Page的洞察力,他说网络中重要的网页是那些被其他重要网页引用的网页。只不过我们说的是,网络上重要的网页是那些被大型语言模型引用的网页,在会话式答案引擎的上下文中——聊天机器人。如果越来越多的人定期使用它,我们就会知道网络上越来越多重要的网页——[...]它们被引用的频率,它们是否真的使答案变得更好或更糟。”

鉴于谷歌(拥有Bard)和微软(拥有Bing)已经开始在其AI聊天机器人中也使用引文,Perplexity 在未来一年可能面临艰巨的挑战。但对于一个新融资的年轻创业公司来说,其产品已经很吸引人,而转向开源语言模型似乎是应对这些大型科技企业的最佳方式。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2024-01-142,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
妈妈告诉你 : 会做饭就会大数据分析!
大数据分析?一听就高大上。大数据分析对非专业人士来说,常常给人一种遥不可及的感觉。但是大数据分析真的那么难吗?妈妈其实都可以告诉你——会做饭就会大数据分析!做饭和大数据有什么关系呢?请仔细看下面分析: 第一阶段: 菜地里的毛菜(原始系统的数据,有错误,不精准,毛菜有泥巴,有黄叶子),相当于ERP,PDM系统里面的原始数据。 第二阶段: 从菜地里采集到家,分门别类的堆在一起(初步去掉泥巴,黄叶子,分类堆放),相当于从原系统到ODS,ODS的意思是操作数据,即原始系统中的操作数据的一个副本,与原始数据是一模一样
CDA数据分析师
2018/02/11
7400
【饮食推荐】基于大数据分析的应季食材推荐
本文介绍了今日饮食应用的设计初衷与背景,采用的理论依据和分析方法,并展望了产品前景和对健康养生餐饮,消费驱动农产品生产,环境保护方面潜在的积极作用。 一、吃应季 子曰:不时不食。自古以来,吃在当季都是备受推荐的健康饮食方式。简单来说,吃应季食材有如下宜处: 1)味道好,口感佳,营养高; 2)不违天时,顺应四季时令变化和植物生长规律; 3)符合传统中医养生方式; 4)相比反季节种植方式,成本低很多,种植户用各种激素和化学药品的意愿相对要弱; 5)大多露天种植,相比反季节大棚种植方式,农药更容易挥发分解,有害成
小莹莹
2018/04/20
1.6K0
【饮食推荐】基于大数据分析的应季食材推荐
社区团购的品牌商家们
本次直播邀请了《财经天下》旗下新媒体——AI财经社的记者:马微彬马老师连线,作为特约首席提问官进行提问,直播期间同时回复评论区的提问。
庄帅
2020/12/08
1K0
社区团购的品牌商家们
疫情下的我是怎么活到现在的
hello 大家好,🙎🏻‍♀️🙋🏻‍♀️🙆🏻‍♀️ 我是一个热爱知识传递,正在学习写作的作者,ClyingDeng 凳凳! 在上海疫情逐渐得到控制的情况下,我终于看见了曙光! 1 身在上海 从3月16号开始,被通知在家办公,到现在已经快一个半月了我🤕。 我是真的快发霉了/(ㄒoㄒ)/~~ 在3月的最后一天,我和小伙伴去超市,个人囤了200多的吃食。那时候还担心是不是买的太多了。。。 现在想来,怎么不多买点呢😭 4月1号,浦西正式封控!我也算正式开始了我悲惨的隔离生活。隔离期间每天一问:明天吃什么? 前期:
ClyingDeng
2022/11/29
2440
疫情下的我是怎么活到现在的
电商用户行为数据分析系统的设计与实现_基于大数据的用户行为分析
本文针对淘宝app的运营数据,以行业常见指标对用户行为进行分析,包括UV、PV、新增用户分析、漏斗流失分析、留存分析、用户价值分析、复购分析等内容; 本文使用的分析工具以MySQL为主,涉及分组汇总,引用变量,视图,关联查询等内容。
全栈程序员站长
2022/11/10
5.7K1
电商用户行为数据分析系统的设计与实现_基于大数据的用户行为分析
社区团购,醉翁之意在“支付”
2020年12月22日,国家市场监管总局联合商务部召开规范社区团购秩序行政指导会,阿里、腾讯、京东、美团、拼多多、滴滴6家互联网平台企业参加,会议要求互联网平台企业严格遵守“九不得”。
用户8049510
2021/01/27
8890
技术红颜告诉你大数据分析的真谛:别只盯着我的钱!
来源:51CTO.com 导读 大数据时代已经到来,每个企业都开始忙着数据挖掘,忙着数据分析,忙着构建各种算法模型。但为什么你无法引发“技术红颜”式的蝴蝶效应?为什么你眼中对用户的“精准推荐”,成了T
IT阅读排行榜
2018/08/15
4560
技术红颜告诉你大数据分析的真谛:别只盯着我的钱!
互联网思维——如何运用数据分析搞定零售
互联网时代的信息化,我觉得首先要定一个基调,互联网时代的管理系统信息化应该如何利用新的技术手段为用户企业改善经营,开拓市场提供支持。首先来看互联网时代能够给零售行业带来哪些改变。我认为其中一个很重要的
机器学习AI算法工程
2018/03/09
1.1K0
互联网思维——如何运用数据分析搞定零售
小猿看报告丨2015中国餐饮消费需求大数据分析报告
这份《2015中国餐饮消费需求大数据分析报告》从互联网数据洞察消费者需求为出发点,抓取了北京、上海、广州、沈阳、南京、杭州、武汉和成都共8个城市的点评数据做了深入的分析。 报告还对中式正餐、中式快餐、
数据猿
2018/04/19
8480
小猿看报告丨2015中国餐饮消费需求大数据分析报告
八大数据分析模型之——事件模型(二)
诸葛君说:在日常的数据分析中,常用的有8大模型:用户模型(点我回顾)、事件模型、漏斗分析模型、热图分析模型、自定义留存分析模型、粘性分析模型、全行为路径分析模型、用户分群模型,其中,“事件模型”对于很多业务人员来说相对比较陌生,但他却是用户行为数据分析的第一步,也是分析的核心和基础。
双面人
2019/07/15
2K0
八大数据分析模型之——事件模型(二)
总结零售大数据分析应用的四个阶段
要建立数学模型要解决三个问题,首先是数据的量要达到一定的规模和质量;其次是用什么样的算法,如用时间序列还是回归或是人工智能算法;第三是“数据+算法”可以围绕什么业务场景,建立什么样的模型及参数。
挖掘大数据
2018/01/11
2K0
社区团购的团长们
那么,除了商家之外,团长在社区团购里面到底是怎么样的一个情况,今晚的直播有幸邀请的特约首席提问官是李老师,一位来自证券公司的资深分析师。
庄帅
2020/12/24
8560
社区团购的团长们
大数据分析的光荣与陷阱——从谷歌流感趋势谈起
沈艳   北京大学国家发展研究院教授   “谷歌流感趋势”(Google Flu Trends,GFT)未卜先知的故事,常被看做大数据分析优势的明证。2008年11月谷歌公司启动的GFT项目,目标是预测美国疾控中心(CDC)报告的流感发病率。甫一登场,GFT就亮出十分惊艳的成绩单。2009年,GFT团队在《自然》发文报告,只需分析数十亿搜索中45个与流感相关的关键词,GFT就能比CDC提前两周预报2007-2008季流感的发病率。   也就是说,人们不需要等CDC公布根据就诊人数计算出的发病率,就可以提
腾讯研究院
2018/01/31
1.3K0
大数据分析的光荣与陷阱——从谷歌流感趋势谈起
作者:沈艳 介绍:北京大学国家发展研究院教授 来源:北京大学国家发展研究院 本文从谷歌流感趋势2009年前后表现差异谈起,讨论了大数据分析容易面临的大数据自大、算法演化、看不见的动机导致数据生成机制变
大数据文摘
2018/05/22
1K0
大数据分析:寒冬后的黄金招聘月有什么不同
去年此时,“互联网+”概念在政府工作报告中的正式亮相,进一步催化了创投热和传统行业转型潮。2015年上半年狂热的互联网圈犹如大梦一场,下半年的凛冬又见证了一轮新生与死亡。眼下,3月的黄金招聘季如期而至,在社会整体就业压力巨大的背景下,互联网+依然是2016年就业的最大热门。通过大数据分析,希望为各位提供一些参考。 1 动荡时期慎选领域 O2O前途未卜 数据服务底气十足 去年7月到今年2月,四个互联网+用人大户和热门领域的人才期望薪酬水平发生了明显分化。O2O、电商、智能硬件与数据服务领域求职者的期望薪酬在
灯塔大数据
2018/04/10
8270
大数据分析:寒冬后的黄金招聘月有什么不同
大数据分析在职业体育应用
什么是大数据? 举个例子,都说骑士队依赖詹姆斯,当詹姆斯在场上时,骑士队每100回合净胜对手6.9分;詹姆斯不在场,骑士队净负对手2.9分,两者之间差值为9.8分。而勇士队的库里在场上和在场下时,勇士队每100回合净胜分的差值为17分,可以说勇士队对库里的依赖甚至要更强。这样的数据才可以叫大数据,相比而言,像得分、篮板、助攻这样的技术统计简直弱爆了。 大数据在NBA的主要应用层面: 一:主教练的智囊团   在骑士与勇士队总决赛中,勇士队主帅科尔布置队员对詹姆斯的防守显然就受到了大数据的影响。通过大数据可以发现,詹姆斯在篮筐的左侧运球时,多选择投篮,而当他位于篮筐右侧时,进攻方式则主要为突破上篮。这样的数据统计就告诉防守队员,当詹姆斯位于篮筐左侧时,可以选择紧身贴防他,封住他投篮即可,因为他很少从左侧突破;而当詹姆斯来到篮筐右侧时,则不能贴身紧逼,这样容易被他一步过掉甩在身后,这时不妨远离詹姆斯两步,因为他轻易不会选择跳投,无需留有封盖的选择,空出足够的距离,反而能防备他突破。  
全栈程序员站长
2022/08/24
5720
大数据分析在职业体育应用
数据的秘密:如何用大数据分析挖掘商业价值
在这个数据爆炸的时代,我们每天都在产生、存储和处理着海量的数据。然而,仅仅拥有数据并不等于拥有价值。就像拥有一座金矿,不开采和提炼,最终只是一堆毫无用处的石头。如何从数据中挖掘金矿,是现代企业和个人竞争力的重要体现。
Echo_Wish
2025/01/26
1810
数据的秘密:如何用大数据分析挖掘商业价值
基于大数据分析系统Hadoop的13个开源工具
Hadoop是由Apache基金会开发的一个大数据分布式系统基础架构,最早版本是2003年原Yahoo! Doug Cutting根据Google发布的学术论文研究而来。用户可以在不了解分布式底层细节的情况下,轻松地在Hadoop上开发和运行处理海量数据的应用程序。低成本、高可靠、高扩展、高有效、高容错等特性让Hadoop成为最流行的大数据分析系统,然而其赖以生存的HDFS和MapReduce组件却让其一度陷入困境——批处理的工作方式让其只适用于离线数据处理,在要求实时性的场景下毫无用武之地。因此,各
静一
2018/03/15
1.9K0
关于大数据分析系统 Hadoop,这里有13个开源工具送给你
Hadoop是由Apache基金会开发的一个大数据分布式系统基础架构,最早版本是2003年原Yahoo!DougCutting根据Google发布的学术论文研究而来。
IT派
2018/08/10
8400
关于大数据分析系统 Hadoop,这里有13个开源工具送给你
【大数据分析必备】超全国内常用API接口汇总
下面列举了100多个国内常用API接口,并按照 笔记、出行、词典、电商、地图、电影、即时通讯、开发者网站、快递查询、旅游、社交、视频、天气、团队协作、图片与图像处理、外卖、消息推送、音乐、云、语义识别、语音识别、杂志、综合 进行了如下分类。
IT派
2018/07/30
12.4K1
推荐阅读
相关推荐
妈妈告诉你 : 会做饭就会大数据分析!
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档