首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >建议收藏!从零搭建AIIData数据中台15+大模块36+功能

建议收藏!从零搭建AIIData数据中台15+大模块36+功能

原创
作者头像
用户11518204
修改2025-08-25 15:14:32
修改2025-08-25 15:14:32
480
举报

🔥🔥 AllData大数据产品是可定义数据中台,以数据平台为底座,以数据中台为桥梁,以机器学习平台为中层框架,以大模型应用为上游产品,提供全链路数字化解决方案。

✨杭州奥零数据科技官网:http://www.aolingdata.com

✨Github项目:https://github.com/alldatacenter/alldata

✨Gitee项目:https://gitee.com/alldatacenter/alldata

✨AllData官方手册:https://www.yuque.com/aolingdata/product

✨AllData正式环境:http://43.138.156.44:5173/ui_moat

AllData数据中台官方手册为您一个超详细、全流程、结构化的技术实施指南,覆盖AIIData数据中台从开发到运行的全周期操作。

第一层 数据注册与复制

① 数据源平台

数据源平台基于开源项目Chat2DB建设,实现AI驱动数据管理功能,通过智能模型实现自然语言与SQL的双向转换,支持业务人员直接用自然语言生成复杂查询语句,降低数据库交互门槛。

第二层 数据库同步平台

② 数据库同步平台

数据库同步平台基于开源项目DBSwitch建设,DBSwitch是款开源数据库迁移工具,支持多种主流及国产数据库间的全量与增量迁移,涵盖表结构同步与数据同步,采用模块化设计,具备高扩展性与灵活性,可保障数据迁移与访问的高效稳定,降低企业多数据库汇聚入湖仓成本,提升系统兼容性与可扩展性。

第三层 数据中枢平台

③ 数据中枢平台

数据中枢平台基于开源项目DataCap建设,是一款用于数据转换、集成和可视化的集成软件。支持多种数据源、文件类型、大数据相关数据库、关系型数据库、NoSQL 数据库等。通过该软件可以实现对多数据源的管理,以及对数据源下的数据进行各种操作转换。

第四层 数据汇聚平台

④ 数据集成管理

AIIData数据中台数据集成管理功能,支持多种数据源的无缝接入,包括关系型数据库、非关系型数据库、大数据存储以及云服务数据源等。

通过灵活的配置选项和强大的数据转换能力,能够轻松地将数据源集成到统一的数据平台中。数据集成管理功能还提供数据质量检测、清洗和转换工具,确保数据的准确性和一致性。

⑤ 数据集成平台

数据集成平台基于开源项目Tis建设,数据集成平台(Tis)集成了FlinkX-CDC、DataX等大数据组件,提供一站式数据集成服务。支持多种数据源,涵盖MySQL、Oracle、ElasticSearch等,兼容国产数据库,满足多源异构数据集成需求。

⑥ 数据同步平台

数据同步平台基于开源项目SeaTunnel建设 ,数据同步平台(SeaTunnel)基于开源项目构建,是高性能、分布式数据集成框架。支持上百种数据源,兼容离线、实时、全量/增量同步等场景,具备高吞吐、低时延特点,每天可稳定高效同步数百亿数据,还支持可视化与代码开发,方便用户进行复杂数据集成任务。

第五层 数据存储平台

⑦ 数据平台

数据平台基于开源项目DataSophon建设,AllData数据中台集成的DataSophon数据平台是一个开源的大数据管理平台。支持快速部署大数据云原生平台,实现高效管理、实时监控及自动化运维

⑧ 云原生数据平台(K8S数据平台)

K8S数据平台基于开源项目CloudEon建设,K8S数据平台CloudEon是一款基于kubernetes的开源大数据平台,旨在为用户提供一种简单、高效、可扩展的大数据解决方案。

CloudEon将基于Kubernetes 的资源安装部署开源大数据组件,实现开源大数据平台的容器化运行,您可减少对于底层资源的运维关注。

⑨ 对象存储平台(待发布功能)

⑩ GPU集群管控平台 (待发布功能)

⑪ 云原生集群平台 (待发布功能)

第六层 数据分析平台

⑫ 数仓建模平台(待发布功能)

⑬ 数据湖平台

数据湖平台基于开源项目Paimon建设,数据湖平台支持使用Flink和Spark构建实时Lakehouse架构,实现流式和批处理操作。它融合了Lake格式与LSM结构,支持实时数据同步至数据湖,具备批流一体处理能力,降低数据处理复杂性和成本,还注重生态集成,提供统一数据存储和访问接口

⑭ 湖仓一体化平台

湖仓一体化平台基于开源项目Kyuubi建设,湖仓一体化平台可实时捕获并同步多源数据变化,确保数据及时性与准确性。

其融合Flink流处理与Spark批处理能力,实现批流一体处理,降低数据处理复杂性与成本。湖仓一体化平台深度集成Hive等计算引擎,提供统一数据存储与访问接口,提升数据可用性和共享性。

⑮ 湖仓平台中心

湖仓平台中心基于开源项目Amoro建设,湖仓平台中心(Amoro)是一款湖仓一体化的数据管理平台,支持批流数据统一存储与计算,融合数据湖灵活性与数据仓库治理能力。

其核心功能包括元数据统一管理、数据高效入湖、自优化存储、ACID事务支持及多引擎(Flink/Spark)无缝集成,助力企业构建高性价比、易维护的实时数据底座。

第七层 数据开发平台

实时开发平台

实时开发平台基于开源项目StreamPark建设,实时开发平台 StreamPark 提供了一系列快捷 API 和 Connector,开箱即用,作业状态自动追踪,快速完成作业的开发和管理。同时支持 Flink & Spark,无缝支持流式处理和批处理,连接互通,创造无限可能。

⑰ 实时开发IDE

实时开发IDE基于开源项目Dinky建设,实时开发IDE(Dinky)是一款基于Apache Flink构建的一站式实时计算平台。 提供了轻量化部署、智能化开发体验、高效任务管理与运维以及丰富的生态集成与扩展性等功能特点,适用于边缘计算、IoT设备等资源受限场景,以及市场趋势预测、用户行为实时响应、产品性能动态监控等多种实时计算场景。

离线开发平台

离线开发平台基于开源项目DolphinSchduler建设,提供可视化操作界面,用户通过拖拽与配置即可快速创建复杂工作流,无需大量编码,降低使用门槛并提升效率。支持Shell、SQL、Python等多种任务类型,可灵活设置任务依赖关系,确保任务按序执行,满足复杂数据处理需求。

⑲ 离线开发IDE (待发布功能)

第八层 数据治理平台

⑳ 数据权限管理(原:数据安全管理)

AllData数据中台在数据安全管理方面提供了全面而强大的功能。企业可以确保数据的安全性、完整性和可用性,有效防止数据泄露和滥用,不仅提升了企业的数据安全管理水平,还为企业数字化转型和业务发展提供了有力保障。

㉑ 数据质量管理

AIIData数据中台数据质量管理,提供了全面的数据质量管理功能,包括数据质量报告统计、创建和执行质量任务、新增质量规则以及定时执行任务的设置等,旨在确保数据的准确性、完整性、一致性和及时性,为企业的业务决策提供可靠的数据支持。

㉒ 数据比对管理

AIIData数据中台数据比对管理功能,支持对不同数据源或不同时间段的数据进行比对分析,发现数据差异和异常。有助于企业及时发现和处理数据问题,确保数据的准确性和完整性。

㉓ 数据标准管理

AllData数据中台数据标准管理功能,包括定义、实施、监控和维护数据标准,以确保数据在整个组织内部的一致性和准确性。通过集成多个开源项目和先进技术,提供了全面且高效的数据标准管理功能。

㉔ 数据门户管理(原:元数据管理)

AllData数据中台的元数据管理功能,通过集中管理元数据全面采集、整合、存储和分析企业内外的各类元数据,支持数据血缘追踪与上下文理解,确保数据准确性和一致性。

通过数据发现、质量监控及版本控制,元数据管理功能有效提升了数据治理效率与数据资产价值。

㉕ 数据模型管理

AIIData数据中台数据模型管理功能,允许用户根据业务需求自定义数据模型,包括数据表的创建、修改、删除等。有助于企业更好地理解数据结构,提高数据开发效率。

㉖ 数据质量平台

数据质量平台基于开源项目DataVines建设,数据质量平台(DataVines)是一款自动化数据质量检测与治理工具。

支持字段完整性、格式合规性、数值阈值等百余类校验规则,可构建动态监测体系,实时扫描表、字段级数据波动,依托智能阈值算法对延迟、重复、逻辑矛盾等问题毫秒级预警。

㉗ 元数据管理平台

元数据管理平台基于开源项目OpenMetaData建设,AllData数据中台元数据管理平台OpenMetaData通过全面的元数据采集、强大的存储与检索、深度的分析与治理、灵活的应用与共享、高扩展性与定制化以及直观的用户体验,为企业提供了一站式的元数据管理解决方案。

㉘元数据治理平台(待发布功能)

第九层 数据安全平台

㉙ 数据安全平台(待发布功能)

第十层 数据共享平台

㉚ 数据服务平台(原:数据服务管理)

AllData数据中台的数据服务管理功能为用户提供了强大的数据访问和处理能力。通过合理的配置和使用,用户可以快速构建和发布高效、安全的数据服务,满足业务需求。

数据服务管理提供实时监控与告警机制,确保服务稳定运行,并具备详细的日志记录与审计功能,高效管理数据服务,提升数据流通效率与业务响应速度。同时,用户也需要注意数据的安全性和性能优化等方面的问题,确保数据服务的稳定可靠。

㉛ API共享平台

API共享平台基于开源项目 SqlRest 建设,SqlRest是SQL操作转化为Http API的便捷工具,它支持多种数据库,允许用户通过配置 SQL 语句来创建 API,无需编写复杂的后端逻辑,用户只需选择数据源、输入SQL或脚本、简单path配置即可快速生成API接口

第十一层 数据可视化平台

㉜ BI可视化平台

BI可视化平台基于开源项目Datart建设, Datart 是新一代数据可视化开放平台,支持各类企业数据可视化场景需求,如创建和使用报表、仪表板和大屏,进行可视化数据分析,构建可视化数据应用等。

第十二层 指标体系平台

㉝ 指标体系平台

指标体系平台基于开源项目SuperSonic建设,指标体系平台SuperSonic支持灵活定义各类业务指标,统一指标口径,避免数据歧义,实现标准化管理。能高效整合多源数据,快速计算指标结果,为业务决策提供精准依据

第十三层 MLOPS平台

㉞ 机器学习算法平台

机器学习算法平台基于开源项目Cube-Studio建设,机器学习算法平台集成了数据处理、模型训练、自动调参、模型部署等功能。它提供丰富算法库和可视化工具,支持分布式计算,具备拖拉拽任务流编排、超参搜索、模型一键开发推理微调等能力,助力用户高效完成机器学习项目,加速AI应用开发与落地。

第十四层 LLMOPS平台

㉟ 大模型应用开发平台

大模型应用平台基于开源项目BISHENG建设,BISHENG 是一个面向下一代企业 AI 应用的开放式 LLM DevOps 平台。其强大而全面的功能包括:GenAI 工作流、RAG、Agent、统一模型管理、评估、SFT、数据集管理、企业级系统管理、可观察性等。

第十五层 后台管理

㊱ 后台管理

AllData数据中台在系统管理功能支持用户与角色的灵活创建、编辑及权限分配,确保数据访问的安全性与合规性。通过直观的界面,包括性能指标、日志记录及异常告警,实现快速响应与问题排查。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 第一层 数据注册与复制
  • 第二层 数据库同步平台
  • 第三层 数据中枢平台
  • 第四层 数据汇聚平台
  • 第五层 数据存储平台
  • 第六层 数据分析平台
  • 第八层 数据治理平台
  • 第九层 数据安全平台
  • 第十层 数据共享平台
  • 第十一层 数据可视化平台
  • 第十二层 指标体系平台
  • 第十三层 MLOPS平台
  • 第十四层 LLMOPS平台
  • 第十五层 后台管理
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档