首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

企业数据科学成熟度模型评估-工具维度

每日一句

我把所有人都喝趴下

就是为了和你说句悄悄话

——江小白

在今天的数据科学成熟度模型(DSMM)维度讨论中,我将重点关注“工具”:

企业内部使用哪些工具进行数据科学?

数据科学家能否结合使用开源工具

高性能和可扩展的生产基础设施质量如何?

支持数据科学的工具非常广泛,从开源到专有,关系数据库到大数据平台,从简单的分析到复杂的机器学习。工具可以支持隔离的活动或高度协作,并通过完整的模型管理实现从小到大不同规模的预测建模。某些工具和算法实现对于小型甚至中等大小的数据表现良好,但在呈现较大数据量时会出现失败或变得不可用。为此需要特殊的并行分布式技术来实现,并利用多节点/处理器和机器集群。

很少有单一工具可以提供所有必需的功能 - 通常采用商业和开源工具的混搭的方式。但是企业需要对所采用的工具提供必要的商业支持。因此非常有必要使用能对开源工具集成并能提供对开源工具进行数据和任务并行执行的支持能力以及易于部署的企业级工具。

和以前一样,我们将讨论“工具”维度的5个成熟度级别中的每一个:

第1级:不可扩展的工具,主要用于桌面计算机上的单一的隔离数据进行分析。

1级数据科学参与者使用传统的桌面工具进行数据分析,严重依赖基于电子表格的工具以及用于分析和可视化的各种开源分析工具。

第2级:企业通过数据库管理系统管理数据,并依赖于广泛的开源库以及专门的商业工具。

2级企业,更加重视数据管理,引入关系数据库管理软件工具。数据科学项目也受益于更广泛的开源软件包生态系统,用于高级数据探索,统计分析,可视化和预测分析/机器学习。但是在第2级,商业工具和开源工具之间几乎没有集成,性能和可扩展性是数据科学项目遇到的一个大问题。

第3级:企业寻求可扩展的工具来支持涉及大量数据的数据科学项目。

3级企业的数据科学项目受到现有软件和环境的性能和可扩展性的阻碍。通过一系列可扩展的机器学习算法和技术,评估和获取商业化的和开源的工具,以补充开源技术并促进生产部署。数据科学公司可能会开始探索大数据平台,以解决大数据量,可扩展性和降低成本的需求。同时也会审核基于云的工具。随着数据科学项目越来越复杂,涉及更大的团队工作,支持协作的工具成为公认的需求。

第4级:企业将满足数据科学项目目标的工具套件标准化。

4级企业了解数据科学参与者和项目的需求,以实现业务目标。提高生产力需要可扩展的工具,以支持协作并处理来自各种来源的数据。自动化和集成在提高生产力方面发挥着重要作用,因此避免范式转换和自动化数据探索,数据准备,机器学习以及图形和空间分析任务的工具特别有价值。已采用的工具可在多个平台上使用或运行,包括内部部署和云端。由于机器学习模型已成为数据科学项目的焦点,所采用的工具必须支持完整的模型管理。

第5级:企业定期评估最先进的算法,方法和工具,以提高解决方案的准确性,见解和性能,以及数据科学家的工作效率。

5级企业优化其数据科学工具环境。了解了4级有效数据科学项目和数据科学播放器生产力所需的内容后,企业与工具提供商合作,进一步增强这些工具以实现业务目标。

在我们明天的文章中,我们将介绍数据科学成熟度模型的“部署”维度,这是本系列的最后一个维度。

分享:

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180714G0PJBP00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券