导读:今天的数字化社会中,数据非常重要。未来6G系统将会产生、收集和交换大量的数据。各种运营管理任务,比如配置、性能监控、故障管理,都需要用到这些数据。这些数据还将作为知识经验与其他系统和业务领域交流,产生更广泛的价值。只有通过这样的交流,移动通信系统才能帮助垂直行业以及其他行业取得更大发展。
作者:童文、朱佩英
来源:大数据DT
数据的使用范围不同,数据治理本身不论是经济内涵还是技术内涵也不同。数据治理是指通过相关流程和技术,对数据进行管理、维护和深度开发,获得可以作为组织关键资产的高质量数据。
每个移动网络运营商(Mobile Network Operator,MNO)将移动通信系统中产生的数据按技术域隔离并单独存储,这些技术域包括无线接入网(Radio Access Network,RAN)、核心网(Core Network,CN)、传输网(Transport Network,TN)以及运行、管理和维护(Operation, Administration, and Maintenance,OA&M)等。不同网元、不同参与者拥有的数据不够公开透明,由此带来的数据孤岛是数据采集和共享中的主要瓶颈。
另一方面,大型OTT(Over-The-Top)业务公司在数据治理和变现策略方面(如数据存储、分析服务、API接口)积累的专业知识远远领先于电信领域公司。
6G系统的数据治理方案将为AI和感知业务提供有力支持,将催生新的业务方式和系统特性。
01 设计要点和原则
数据治理的范围远不止是传统的数据采集与存储。总体上,系统设计需要考虑四个方面,如图1所示。
▲图1 数据治理的设计要点
1. 数据可获得性和质量
数据可获得性和质量是AI能否在各行业中得到应用的最大挑战之一。提高数据的可获得性,意味着数据不能仅仅来自单个系统、单个领域,而需要同时来自多个系统的不同领域。这就提出了一个根本问题:如何打破(多厂商、多运营商、多行业之间的)物理边界,让数据进入异构数据海洋?
一旦收集并利用了原本分散且相互隔离的数据,另一个问题随之而来:如何提高数据的质量?海量数据的获取,并不意味着获取的数据是可用的、高质量的。同时,在考虑降低数据处理计算复杂度和能耗的同时,还需要提高数据处理效率。
2. 数据主权
随着社会的全数字化转型,数据主权、数据安全和隐私的重要性空前突出,很多国家都制定了隐私保护的法律法规。服务提供商也在不断更新它们的隐私保护方案,主要国家政府也正在制定或已发布了数据管理相关的规定。
例如,欧盟2018年颁布的《通用数据保护条例》(General Data Protection Regulation,GDPR)就从欧盟层面上规范了数据的使用。2019年,中国颁布了《数据安全管理办法》,与2016年颁布的《网络安全法》一起构成了中国版的GDPR。美国也正在实施隐私相关的法律,例如加州的《消费者隐私保护法》(Consumer Privacy Act)已于2020年1月正式生效。
如何充分挖掘数据的内在价值,为各种业务提供精确支撑的同时兼顾隐私保护,尊重数据主权,已成为近年来的热门话题。6G系统设计应当考虑到监管的不确定性,尤其是存在于不同地区之间的监管差异带来的不确定性。
3. 知识管理
一般来说,知识可以看作是经过处理后的具有特定用途或价值的数据,可以被不同技术和业务领域的物理实体或虚拟实体直接使用。
知识管理包括知识的生成、更新和开放。就知识的生成和更新来说,我们需要仔细把关数据的来源和质量,采取措施拦截不可靠甚至是恶意的数据源产生的低质量和有害数据。而将知识作为一种能力对外开放,则需要适合的平台和接口设计。
4. 法律问题
各种各样的传感器和其他技术可以实时产生数据,这让数据收集和使用越来越复杂和敏感。数据生成能力的提升不仅提供了新的数据流和内容类型,同时也引发了政策和法律对数据滥用的关注:别有用心的机构或政府可能利用这些能力达到社会控制的目的。
同时,新技术能力也让普通人难以分辨技术内容的真假。比如,普通人就很难区分一段真实视频和一段“深度伪造”(deep fake)的视频。维
护技术的社会利益和防止技术能力被用于实施社会控制、剥夺自由之间存在一种脆弱的平衡,如何保护这一平衡,变得愈发重要。为了识别欺诈行为、防止先进技术被滥用,需要更严格的法律和政策手段。
02 架构特点
独立的数据面是数据治理系统设计中的关键特性(如图2所示),它将为6G系统提供数据相关的通用能力,从而为6G系统内部和外部功能提供透明、高效、内生安全和隐私保护。下文将介绍基本概念和相关网络功能和业务。
▲图2 独立的数据面实现完整的数据治理
1. 独立数据面
独立数据面旨在实现6G系统的数据治理方案,它处理的数据来自不同业务实体。不论数据来自哪里,数据的整个生命周期都在这一平面完成处理,包括数据生成与收集、数据处理与分析、数据业务发放。
因此,独立的数据面可以为外部商业实体(如汽车、制造和医疗等垂直行业)提供数据服务,也可以为6G系统本身(如控制面、用户面和管理面)提供网络自动化和优化服务。网络运行相关的配置、状态、日志,以及用户个人数据、传感器数据、其他各方提供的数据都是收集的对象。
收集到的数据会形成丰富的数据资源,这些数据资源可以以分布式的形式被组织起来。为了防止直接将原始数据用于AI和感知等应用而导致的问题,原始数据在被使用之前通常需要预处理(如匿名化、数据格式再塑、去噪、转换、特征提取等)。
为确保数据完整、过程合规,数据处理过程中所涉及的政策(如地理限制、国家或地区隐私法规等规定),不论是否来自监管层面,都默认需要遵守。将数据传递至数据面时,还需要遵守数据合同中约定的数据使用权利和义务。数据脱敏是保护隐私的关键,数据面需要提供这一服务。
上述由数据面提供的所有服务,都由自包含的OA&M系统来运营管理。
数据面的另一重要功能是基于数据收集、处理和编排生成知识。为了协调来自不同数据源的数据的处理和传输,知识的生产也需要按照合同要求进行。
随着新的数据源、数据模型、数据主题被数据客户关注和使用,数据治理框架可以不断演进、不断充实。因此,数据治理框架的运营管理和框架的实时发展是可以并行的。
由于数据面是一个逻辑概念,所以可以通过集中式分层架构实现,也可以作为一种分布在边缘或深度边缘节点上的逻辑功能实现。接下来我们将探讨数据面的一些关键要素。
2. 数据治理的多方角色
数据治理生态系统包括两个维度的角色:从数据客户到数据提供者、从数据所有者到数据管理者。不同的角色可以由不同的业务实体担任。因此,6G中的数据治理是典型的多方参与场景,使用6G系统提供的数据或知识的数据客户、6G系统的数据提供者都可能参与其中。
6G可以有自己的数据治理框架,也可以在自身领域知识的基础上,与其他行业参与者一起构建数据治理框架。也就是说,数据治理框架可能存在不同的演进或发展路线。因此,不同业务实体之间在运营阶段如何确定数据权利非常重要,可以借助区块链等去中心化技术解决这一问题。
3. 数据资源
数据资源的内容非常丰富,包括结构化数据、非结构化数据、预处理数据、后处理数据、原始数据。从无线环境中高效收集数据(如移动性等用户行为数据和网络状态数据)是数据治理的前提。然后可以使用智能方法分析数据、将数据衍生的知识传输给内外部客户。因而有必要了解数据的来源。
▲图3 主要数据源类别
图3展示了6G系统中一些主要的数据源类别。
4. 数据搜集
6G中,数据治理的一个主要作用就是提供合适的方法构建数据资源,这需要合适的架构和网络功能的支持,构建数据资源的第一步是收集数据,这一步有如下几个关键动作:
5. 数据分析
在管理数据资源的基础上,为不同类型客户提供数据分析服务便成为可能。有如下四种数据分析服务可以提供:
数据面提供的知识来自数据分析服务,提供的知识包括主动知识(如行动建议)和被动知识(如信息共享和客户的行动决定)。
数据分析服务可以基于客户需要,并根据客户需求定制。数据面应按需多维度开放服务和数据,表1列举了可向客户提供的服务类型的示例。可以预见的是,实际的客户类型比表格中所列举的更丰富,客户对数据分析的需求和使用场景也各不相同。
▼表1 数据面提供的多维数据服务示例
6. 数据脱敏
收集和储存敏感数据,就涉及了隐私风险,需要承担隐私保护责任。数据脱敏是回应隐私关切、实现法律遵从的重要动作,对于在6G设计中支持AI和感知业务也尤为重要。
特别是对于AI任务,需要考虑跨领域的设计。近来有大量关于AI领域中差分隐私(differential privacy)的研究,探讨如何将单个设备的训练数据匿名化。
模型训练和AI推理过程中的数据脱敏在6G设计中必不可少。实现差分隐私的方法包括:在不影响数据统计属性的前提下为训练数据加入噪声,训练模型仍然可以捕捉到原始数据集的特征;使用加密技术,使机器学习基于加密的(而非解密的)数据进行。还有一种方法是,让设备发送模型参数,而不是训练数据,比如说联邦学习和拆分学习。
在这一过程中存在一个风险,如果有完全掌握学习方法的内部人员心怀不轨,那么他可以利用模型逐渐收敛的过程构造与训练数据类似的信息。例如在联邦学习中,信息可能因此被泄露给恶意设备。
不论何种学习方法,数据脱敏都是需要考虑的问题。因此,我们需要在这个前提下,思考如何处理不同学习方法之间的差异和学习方法自身的局限性。
关于作者:童文 博士,华为无线CTO,华为5G首席科学家,华为Fellow,IEEE Fellow,加拿大工程院院士,曾获IEEE通信学会杰出行业领袖奖、费森登奖章。
朱佩英 博士,华为无线研究领域高级副总裁,华为Fellow,IEEE Fellow,加拿大工程院院士。
本文摘编自《6G无线通信新征程:跨越人联、物联,迈向万物智联》,经出版方授权发布。(ISBN:9787111688846)