据 Stastista 统计,2021 年有 74 ZB 的数据可用。随着 5G 网络和 AI 等新技术的发展,预计随着时间的推移,数据产量将越来越多。问题是如何使这些数据更易于访问?
事实上,这些数据量的可访问性已经允许开发专注于数据驱动的业务和技术 [2]。大数据分析可帮助组织获得新见解、做出更快和明智的决策,并降低成本 [2]。当需要分析所有这些数据时,数据科学家就会发挥作用。也就是说,数据科学家将负责帮助组织通过解析和分析数据来创建常规操作,以达到在数据上识别规律和趋势后可视化的目标[3]。
处理大量数据存储和计算需求可能会造成问题!公司和个人可能难以满足存储和计算需求,因为大数据变得越来越复杂!为了解决这个问题,云计算的数据科学变得流行起来,数据即服务(DaaS)领域也应运而生。DaaS 使用云计算为公司或个人提供数据存储、数据处理、数据集成和数据分析。DaaS很棒的地方在于,它允许公司内部的不同公司和部门相互共享数据并轻松获得可操作的见解。
除了分析和处理数据,大多数时候还是有必要运行机器学习模型来从数据中获得重要信息和解析。为此,云原生机器学习 (ML)和人工智能 (AI)开始发挥作用。云原生 ML 允许公司和个人将 AI 和深度学习模型部署到云中的可扩展环境中。通过使用云原生ML,无需编码经验即可更轻松地访问数据和部署程序[4]。此外,用户可以直接从云端调试、评估和复制结果 [4]。最后,云环境是弹性的,这意味着可以自定义数据的数量和存储位置。环境将应需增长或缩小。云原生ML的优势包括:
数据科学家能够使用工具来帮助他们完成工作。尽管有许多工具可以帮助处理和分析大数据,但开源软件已成为最非常理想的选择之一了,开源软件允许不同的利益相关者尝试不同的工具,并以低成本轻松访问最新的解决方案。例如, Apache open source family(如 Spark、Kafka、Hadoop、Tomcat 和 Cassandra)拥有一个完整的生态来帮助处理大数据。
无论是想要为专注于数据科学的开源项目做出贡献的软件开发人员还是用户,他们都有一些很好的项目作为起点。目前最流行的开源数据科学项目都在 GitHub上管理源代码,如果想开始学习它们,这里有一个简短的列表:
关于数据科学的云计算服务,最流行的是Amazon Web Services, Google Cloud Platform, 和Microsoft Azure。
如果想提高您的团队能力并加快部署速度,可以了解一下TARS框架。TARS是一个有助于加快处理大数据的软件的开发和部署的微服务框架。
TLDR-总结:开源使数据科学变得更容易并让其开放供所有人使用。同时,云计算正在帮助数据科学和机器学习以应对数据存储和计算需求的挑战。
参考文献:
[1] https://www.rtinsights.com/how-open-source-is-driving-the-future-of-data-science/
[2] https://www.linkedin.com/pulse/why-open-source-future-big-data-analytics-raghavendra-singh
[3] https://opensource.com/resources/data-science
[4] https://medium.com/@ODSC/the-benefits-of-cloud-native-ml-and-ai-b88f6d71783
TARS基金会是Linux基金会下的非营利性、微服务基金会,致力于建设一个强大而灵活的微服务生态系统。