WeData 核心功能包括如下:
项目管理
从系统/租户层面实现项目隔离,为管理者提供对使用 WeData 的用户(成员)权限、底层计算引擎配置、执行资源的管理能力。
数据规划
注意:
非常感谢您对我们产品的关注和支持。但目前数据规划功能还未开放。再次感谢您的耐心等待和理解。我们期待不久的将来与您分享我们的最新功能。谢谢!
提供包含数仓分层分类、逻辑模型设计、指标维度定义、数据标准等数据整体规划设计能力,帮助企业统一数仓规范设计和标准定义,实现设计态到开发态的自动流转。
数仓规范:数仓规划基于全局进行业务对象的统一规划和规范定义,对模型进行分层设计管理,按照特定的业务主题进行分类分域管理,形成具有层级结构的业务标签。
模型设计:对逻辑模型进行定义和实体关系设计,包括定义、复制、修改、删除、导入导出、版本管理能力,同时建立与物理模型、指标维度关联映射,实现模型从设计态到开发态的自动同步。
标准管理:包含标准内容管理和对标任务管理,通过对标准规则的设计和任务配置,实现对数据值、库、表结构、表名、指标维度标签等层面的标准化。
业务定义:指标/维度字典,对基础/衍生指标、维度条件(普通维度、业务限定、时间周期、退化维度)进行全生命周期定义管理,并建立和模型关联关系,实现指标生产代码自动生成。
数据集成
操作轻量化、过程可视化、能力开放化数据集成能力,支持复杂网络环境下、丰富的异构数据源之间高速稳定的海量数据同步。
全场景同步:包括实时同步与离线同步。
多类型异构数据源:支持30+数据源提供星型结构支持读写随机搭配。
T转换
数据级:对同步中的数据进行内容转换,如数据过滤、Join 等。
字段级:提供单个字段转换处理,包括自定义数据字段、格式转换、时间格式转换等。
任务及数据监控
读写指标:支持任务读写实时指标统计,包括读写总量、速度、吞吐、以及脏数据等。
监控告警:支持任务及资源监控,覆盖短信、邮件、HTTP 等多渠道告警。
数据开发
通过严谨的 CI/CD 流程规范和自动化的测试发布运维加持能力,缩短从原始数据加工运维到业务应用数据的路径,提升效率的同时保障数据质量。
在线代码开发:支持代码开发,对任务工作流进行易用地拖拽式编排,同时支持大规模任务的可视化编排呈现。
代码开发:支持对 HiveSQL、SparkSQL、JDBCSQL、Spark、Shell、MapReduce、PySpark、Python、TBase、DLC SQL、DLCSpark、TCHouse-P、Impala 等任务进行在线代码开发、调试,以及版本管理。
任务测试:支持任务和工作流测试及版本管理。
开发辅助:提供项目、工作流和任务三种粒度的参数配置,支持时间参数运算以及函数参数。
版本管理:支持事件、函数、任务和参数的版本管理。
代码管理:提供代码统一的管理、导入和导出。
编排调度:对任务进行流程编排及提交调度。
调度方式:支持周期、一次性和事件触发调度,周期调度提供 crontab 方式配置。
依赖策略:支持任务自依赖和工作流自依赖。
跨周期依赖配置:提供跨周期依赖配置及自定义依赖配置,上下游依赖实例范围支持按需自定义选择。
批量编排:提供 Excel 批量创建任务及依赖的能力,加快任务依赖编排效率。
发布运维:对开发完成的任务按需发布到生产环境,并对任务进行统一监控和运维。
任务发布:支持将开发成果发布上线。
监控运维:对任务进行流程编排及提交调度。
分析探索:智能易用的数据开发方式提升任务协同开发效率,帮助用户清晰查看任务处理过程,有效提升数据即席探索效能。
在线编辑:提供可视化的交互式分析 IDE。
运行:提供执行信息可视化。
开发辅助:提供开发辅助效率工具。
数据质量
通过灵活的规则配置、全方位的任务管理、多维度的质量评估,为数据接入、整合、加工到消费的全生命周期各阶段提供全面的数据质量稽核能力。
多源数据监控:支持监控的数据源、引擎类型包括 EMR Hive、Spark、DLC(公有云)、TCHouse-P、TBDS、Gbase(私有云)等,提供多源数据全量校验能力。
丰富规则模版:目前提供6大维度、56种业界通用的表级、字段级内置规则模版,真正实现开箱即用,质控工作流得以大幅提效,帮助用户从各个维度感知数据变动及 ETL 过程中产生的问题数据。
质控灵活配置:支持系统质量规则模版、自定义模版、自定义 SQL 三种规则创建模式,可按业务需求调整参数,配置任务执行策略,轻松实现全链路质控校验。
全局链路保障:支持关联生产调度以及离线周期检测两种执行方式,提供事前、事中和事后的全链路数据保障运维能力,及时进行告警、阻断拦截,防止脏数据向下游蔓延。
治理多维可视:质量概览和质量报告模块为用户提供全局视角,让用户对质量任务运行情况、告警阻塞趋势、各维度质量评分了如指掌,快速发现定位问题,了解质量提升效果。
数据安全
提供集中化的数据安全管控和协作机制,保障数据在安全的条件下进行有效流通。
统一数据安全管控:针对绑定的存算引擎进行安全策略的深度集成,统一数据访问,简化数据使用流程。
权限审批:打通 ranger 权限策略体系,实现责任到人,数据粒度到表的权限管控能力。提供权限申请和审批通道,安全开放数据访问控制能力。
数据运营
基于强大的底层元数据能力,提供数据目录、血缘解析、热度分析、资产评分、业务分类、标签管理等数据资产服务,有效提升用户对企业级海量数据的理解、管控、协作能力。
数据发现:统一的元数据采集和管理。
数据总览:提供数据资产的概览统计,包括项目、表、存储量、数据类型覆盖等基础信息,以及数据全景和热门排行功能。
数据目录:支持全域数据表级、字段级快速检索与定位;表详情提供数据全量技术、业务信息及数据血缘、温度、质量、产出与变更、预览等功能。
库表管理:支持对全域库表进行管理。
业务分类:支持根据业务需求创建、管理主题类目、数仓分层和业务标签,并对数据表进行批量分类分层操作。
数据服务
提供包含 API 生产、API 管理和 API 市场等覆盖 API 全生命周期的能力,帮助企业统一管理对内对外的 API 服务,构建统一的数据服务总线。
快捷 API 生产。
API 管理和运营。
API 安全调用。