数据开发治理平台 WeData 产品功能

本文档介绍腾讯云数据开发治理平台 WeData 产品的核心功能。
项目管理
从系统/租户层面实现项目隔离，为管理者提供对使用 WeData 的用户（成员）权限、底层计算引擎配置、执行资源的管理能力。
数据集成
操作轻量化、过程可视化、能力开放化数据集成能力，支持复杂网络环境下、丰富的异构数据源之间高速稳定的海量数据同步。
全场景同步：包括实时同步与离线同步。
多类型异构数据源：支持30+数据源提供星型结构支持读写随机搭配。
T转换
数据级：对同步中的数据进行内容转换，如数据过滤、Join 等。
字段级：提供单个字段转换处理，包括自定义数据字段、格式转换、时间格式转换等。
任务及数据监控
读写指标：支持任务读写实时指标统计，包括读写总量、速度、吞吐、以及脏数据等。
监控告警：支持任务及资源监控，覆盖短信、邮件、HTTP 等多渠道告警。
数据开发
通过严谨的 CI/CD 流程规范和自动化的测试发布运维加持能力，缩短从原始数据加工运维到业务应用数据的路径，提升效率的同时保障数据质量。
在线代码开发：支持代码开发，对任务工作流进行易用拖拽式编排，同时支持大规模任务的可视化编排呈现。
代码开发：支持对 HiveSQL、SparkSQL、JDBCSQL、Spark、Shell、MapReduce、PySpark、Python、TBase、DLC SQL、DLCSpark、TCHouse-P、Impala 等任务进行在线代码开发、调试，以及版本管理。
任务测试：支持任务和工作流测试及版本管理。
开发辅助：提供项目、工作流和任务三种粒度的参数配置，支持时间参数运算以及函数参数。
版本管理：支持事件、函数、任务和参数的版本管理。
代码管理：提供代码统一的管理、导入和导出。
编排调度：对任务进行流程编排及提交调度。
调度方式：支持周期、一次性和事件触发调度，周期调度提供 crontab 方式配置。
依赖策略：支持任务自依赖和工作流自依赖。
跨周期依赖配置：提供跨周期依赖配置及自定义依赖配置，上下游依赖实例范围支持按需自定义选择。
批量编排：提供 Excel 批量创建任务及依赖的能力，加快任务依赖编排效率。
发布运维：对开发完成的任务按需发布到生产环境，并对任务进行统一监控和运维。
任务发布：支持将开发成果发布上线。
监控运维：对任务进行流程编排及提交调度。
分析探索：智能易用的数据开发方式提升任务协同开发效率，帮助用户清晰查看任务处理过程，有效提升数据即席探索效能。
在线编辑：提供可视化的交互式分析 IDE。
运行：提供执行信息可视化。
开发辅助：提供开发辅助效率工具。
数据治理（with Unity Semantics）
元数据中心
元数据采集：WeData 提供给用户自定义元数据采集任务功能，管理员对数据源进行元数据采集后才能进行可视化管理，采集粒度支持到库，每个数据库仅可创建一个采集任务，采集任务将根据配置周期按计划运行和更新元数据信息，同时支持手动运行、任务编辑等管理操作。
实例运维：管理采集任务执行后的实例，包括查看任务名称、创建人、采集计划、执行状态、开始时间、结束时间、数据时间、执行耗时、变更表，以及查看实例运行日志、停止、重跑的功能。
元数据管理：统一管理采集到的库表元数据，从管理视角维护其业务属性、归属项目、负责人等信息。
数据资产
基于强大的底层元数据能力，提供数据目录、血缘解析、热度分析、资产评分、业务分类、标签管理等数据资产服务，有效提升用户对企业级海量数据的理解、管控、协作能力。
数据门户：作为数据资产的门户页面，提供了检索和数据资产全局视图，包括资产目录，资产总览。同时提供最近浏览，我的收藏，热门排行等快速访问窗口，帮助用户快速定位手边资产。
数据发现：是 WeData 中面向全域数据资产的统一搜索与浏览入口。通过整合多种数据源中的元数据，为用户提供一个能够快速查找、理解数据资产的平台级能力。用户可在数据治理页面点击"数据资产"，然后在左侧导航栏选择"数据发现"进入相应页面。
数据目录：展示在资产盘点中已上架的所有数据库表资产的信息，支持从不同的角度查看数据表详情。本页面包括全局搜索、依数据源类型、数据源、数据库及负责人等划分的数据表列表，以及方便您整理归类数据的资产目录。
Catalog：是 WeData 提供的统一数据治理的解决方案，旨在将结构化与非结构化数据、AI 模型与元数据资产纳入统一的元数据管理、访问控制、血缘追踪、变更记录和访问日志体系（仅开通了 TCLake 才会支持该能力）。
我的数据：支持查看我负责的、我管理的和我收藏的数据。
语义建模
统一指标语义，降低运维成本
实现指标的 “一次定义、多处复用”，当业务规则调整时，只需在语义层修改一次指标定义，就能自动同步到所有引用该指标的报表和数据集，无需逐一修改，大幅缩短变更上线周期。同时，它还能自动生成指标血缘关系，方便工作人员快速分析指标变更的影响范围，让指标治理更高效，减少重复建设造成的资源浪费。
规范指标口径，消除问数歧义
采用 “NL2MQL2SQL” 的确定性查询路径，让 Agent 的 SQL 生成过程有章可循。Agent 先将用户自然语言解析为包含指标、维度、过滤条件的标准化查询语言（MQL），再由语义层依据预定义的表关系、聚合规则和计算逻辑，将 MQL 转化为 100% 准确的 SQL。这种模式替代了 Agent 直接生成 SQL 的 “概率性猜测”，杜绝了因表结构理解偏差、字段映射错误导致的查询结果不一致，确保相同问题在多场景下得出的答案一致。
注意：ER 建模需单独购买，如有需要，可联系销售人员咨询。
数据质量
通过灵活的规则配置、全方位的任务管理、多维度的质量评估，为数据接入、整合、加工到消费的全生命周期各阶段提供全面的数据质量稽核能力。
多源数据监控：支持监控的数据源、引擎类型包括 EMR Hive、Spark、DLC（公有云）、TCHouse-P、TBDS、Gbase（私有云）等，提供多源数据全量校验能力。    
丰富规则模板：目前提供6大维度、56种业界通用的表级、字段级内置规则模板，真正实现开箱即用，质控工作流得以大幅提效，帮助用户从各个维度感知数据变动及 ETL 过程中产生的问题数据。
质控灵活配置：支持系统质量规则模板、自定义模板、自定义 SQL 三种规则创建模式，可按业务需求调整参数，配置任务执行策略，轻松实现全链路质控校验。    
全局链路保障：支持关联生产调度以及离线周期检测两种执行方式，提供事前、事中和事后的全链路数据保障运维能力，及时进行告警、阻断拦截，防止脏数据向下游蔓延。
治理多维可视：质量概览和质量报告模块为用户提供全局视角，让用户对质量任务运行情况、告警阻塞趋势、各维度质量评分了如指掌，快速发现定位问题，了解质量提升效果。
数据安全
提供集中化的数据安全管控和协作机制，保障数据在安全的条件下进行有效流通。
统一数据安全管控：针对绑定的存算引擎进行安全策略的深度集成，统一数据访问，简化数据使用流程。
权限审批：打通 Ranger 权限策略体系，实现责任到人，数据粒度到表的权限管控能力。提供权限申请和审批通道，安全开放数据访问控制能力。
数据服务
提供包含 API 生产、API 管理和 API 市场等覆盖 API 全生命周期的能力，帮助企业统一管理对内对外的 API 服务，构建统一的数据服务总线。
快捷 API 生产。
API 管理和运营。
API 安全调用。
治理中心
治理中心提供三大能力：
看板能力：通过全局视角、项目视角和成员视角等多种角度查看资产大盘、成本大盘、数据质量大盘，以治理报告和排行榜的形式展示治理成果。
扫描能力：可依据预先配置的治理计划，自动扫描平台使用过程中在数据存储、计算成本、数据规范以及数据安全等方面存在的问题，通过项目、成员、表、任务等粒度展示出来，并给出治理建议供您参考。
资产管理能力：提供数据资产盘点和资产目录检索功能，以便于更高效地管理和查找表。为您打造一个可信、可控、可用且易于理解的数据环境，助力企业通过数据驱动决策，进一步提升数据资产的价值。
配置中心
资产目录配置：资产目录基于租户全局进行管理，主要目标是对数据按照业务分类和主题进行分域管理，形成具有层级结构的业务标签。 
数仓分层配置：数据仓库（数仓）分层是指在数据仓库架构中，将数据按照不同的处理阶段和用途进行分层组织和存储的设计方法。这种分层结构有助于提高数据的管理效率、数据质量和数据分析的灵活性。常见的分层包含ODS 层、DWD 层、DWS 层、ADS 层等。
资产标签配置：支持资产/项目管理员定义数据标签，其他用户在使用数据表可根据自己的业务认知选择打标签，通过标签检索定位目标数据。
转交规则配置：能够帮助用户设置在转交时，对于多种情况的不同处理规则。支持任务负责人离职或账号被移除后，为确保任务可正常执行，需自动将任务负责人转交给项目管理员或主账号。
数据标准配置：是确保数据在采集、存储、处理和应用过程中一致性、准确性和可用性而制定的统一规则和规范。它是数据治理的核心组成部分，旨在解决数据混乱、定义模糊、质量参差等问题，从而提升数据价值并支撑业务决策。
数据字典配置：是对数据资产的核心元数据信息进行统一梳理、描述与管理的标准化载体，它是数据标准落地的重要支撑，也是数据治理全流程的基础工具 —— 通过清晰界定数据的 “身份信息” 与 “使用规范”，解决数据定义不一致、理解偏差、查询低效等问题，帮助用户快速认知数据资产、降低数据使用门槛。
应用集成
旨在将语义建模后的资产通过 Restful API、JDBC 和 MCP 的形态提供出去供业务系统调用，确保业务获取的语义口径一致、准确。
产品功能

本页目录：

项目管理

数据集成

数据开发

数据治理（with Unity Semantics）

元数据中心

数据资产

语义建模

统一指标语义，降低运维成本

规范指标口径，消除问数歧义

数据质量

数据安全

数据服务

治理中心

配置中心

应用集成