作为Databricks的CEO,Ali Ghodsi的好日子来了。他刚刚完成一轮4亿美元的融资,让公司的估值达到了62亿美元。这轮融资几乎不费吹灰之力,他说“这是我经历过的最容易的一次融资”。除了拿到融资,Ghodsi还透露了他的下一个终极目标:构建业内第一个企业AI平台。
Databricks CEO Ali Ghodsi
2013年,Databricks成立,有些人认为它跟当时不可一世的其他商业开源平台厂商没有什么两样。毕竟,Databricks的创始人们都曾经是Apache Spark背后的功臣,包括Matei Zaharia(在加州大学伯克利分校AMPLab学习时开发出了Spark),还有其他来自AMPLab或伯克利计算机学院的同僚们,如Ion Stoica、Reynold Xin、Andy Konwinski和Arsalan Tavakoli-Shiraji。
如果说Spark是继Hadoop之后的一个创举——它确实是,并且会持续下去——那么Databricks很可能会找到某种方式来让Spark变现。Databricks之于Spark,就像Cloudera之于Hadoop,或者MongoDB之于NoSQL数据库。但事情不会就这么简单地发展下去,Databricks不会只骑着Spark这只小马走天涯,实际上,它已经另辟蹊径,朝着另一个方向出发了。虽说Spark确实是Databricks公司规划的一部分,但充其量也只是他们多元化SaaS产品的一个组成元素。
在一次采访中,Ghodsi透露了这些产品将如何帮助他们实现公司的终极目标:构建世界上第一个企业AI平台。
“每个人都在想谁会成为第一家推出企业AI平台的上市公司?它又将如何帮助企业将AI集成到他们现有的软件系统和解决方案中?每一个软件系统——我是说所有现有的软件系统——在未来十年都将变得更加智能。他们要么在软件系统中加入AI能力,要么被市场淘汰,或者被其他拥有AI能力的公司打败”。
“我们已经看到了Uber颠覆了出租车行业,Airbnb震动了旅馆行业,亚马逊把零售商店打得落花流水,这些事情都已经发生了。他们都使用了AI技术。那么其他世界5000强公司呢?他们有自己的软件系统,积累了几十年的客户,手里掌握着巨大的数据集。他们可以利用这些数据为自己的软件系统构建AI能力吗?我想,他们当中有一部分会的,如果这样做,他们就可以继续生存下去,还有一部分不这么做的将被具备AI能力的新公司取代。那么,他们会使用怎样的AI平台?在目前看来,这个问题还没有答案……因此,我认为平台公司是时候亮相了,让平台公司为这些软件公司构建AI平台,帮助他们把AI能力集成到他们的解决方案中”。
在企业计算领域,行业可能会选出一两个或者两三个AI平台作为标杆,就像之前将关系型数据库作为第一代企业软件(ERP、CRM、金融软件、HR软件,等等)的支撑一样。但目前还没有出现标杆企业AI平台,尽管有一些玩家(AWS、微软和Salesforce)已经跃跃欲试。在Ghodsi看来,Databricks手里握着几张王牌,即便它不一定会成为标杆。
“基于开源的创新是关键。我们有四个项目,除了大家熟知的Spark,迄今为止我们所做的最大的创新应该是Delta Lake,我们有超过80%的用户在使用它。从价值方面来看,它是Databricks最有价值的项目,尽管它没有Spark那么有名”。
MLFlow是Databricks的另一张王牌。Zaharia率先开发了这款软件,它为数据科学家构建、测试和部署机器学习模型这个复杂的过程提供了标准化。Ghodsi透露,MLFlow的下载量以每月80万的速度增长,而且比Spark有更多的贡献者。
Databricks的第四张王牌是Koalas,它将Pandas社区的数据科学创新带给了Spark用户。Ghodsi说,Koalas可以让数据科学家在笔记本电脑上使用Pandas编程,然后调用几个API就可以将工作负载部署到大型的分布式Spark集群上。
除了软件产品本身,Ghodsi认为Databricks的业务模式具备一个关键的优势。Ghodsi有意识地将Databricks的业务模式与典型的开源商业模式区分开来。在典型的开源商业模式下,软件免费,厂商收取支持和服务费用。Ghodsi把它叫作红帽模式,这种模式在预置(on-prem)软件世界里或许可行,但在新的云计算世界可能找不到自己的位置。
Ghodsi说:“我们的业务模式跟其他的不一样,我们是云端托管的SaaS服务。在云端托管开源项目并把它们租给用户,这是一种更好的业务模式。这种模式的客户流失率更低,客户会更开心,利润增长更快”。
SaaS租赁模式还为Databricks的资产(也就是知识产权)提供了保护。Databricks的核心知识产权并不存在于它所赞助的软件项目中,因为这些软件项目是公开的。事实上,Databricks最有价值的知识产权存在于它用来监控和管理云端软件的工具和技术中,它们不会像经典的开源模式那么容易被泄露。
Ghodsi说:“到了云端,很多东西都会变得不一样。在云端,用户租赁Databricks的服务,我们负责保证安全性、可靠性和可用性。我们负责监控这些东西,确保它们保持运行状态。我们确保在有新版本出现时它们也能保持最新。我们负责所有的一切,而租用我们服务的公司可以高枕无忧”。
Databricks使用开源软件(如Kubernetes)为各种数据工程、数据分析和机器学习负载提供伸缩能力,还开发了专有软件来保证云服务的可用性。
Ghodsi说:“保持服务运行是很困难的一件事情,而大规模运行则更难。我们每天需要在AWS上启动一百万个虚拟机,这件事本身就很难,而确保它们正常运行、监控它们、保证它们的安全性和可靠性,也很难。这也就是为什么用户需要付钱给我们”。
Uber、Airbnb和亚马逊已经投入数亿美元用于构建自己的数据工程和AI系统,这让它们在各自的市场中占有一席之地。现在,Ghodsi想要帮助其他企业构建自己的AI能力,或者至少是尝试一下。
他说:“关键在于我们不希望用户操心太多东西,我们会为他们操办一切,包括安装、管理和升级软件系统。我们希望用户可以把精力放在解决AI问题和业务问题上……我不明白为什么一家想研发慢性肝病药物的公司要去关心Kubernetes以及如何管理和配置Kubernetes集群。这些事情应该在幕后进行,而这些也就是我们要做的”。
从业务模式来看,Databricks有可能会是赢家。
原文链接:
https://www.datanami.com/2019/12/02/will-databricks-build-the-first-enterprise-ai-platform/
领取专属 10元无门槛券
私享最新 技术干货