版权所有©德塔精要,转载请注明出处
基于人机交互的智能大数据治理系统的目的是建立人机结合的数据治理流程,同时结合基础知识库可以实现针对不同类型数据的智能处理,包括数据的自动感知、智能推荐转换、数据丰富以及团队协作等功能。
基于人机交互的智能大数据治理系统的逻辑架构设计如下图所示。
图1 系统逻辑架构图
基于人机交互的智能大数据治理系统,利用统一的门户系统进行数据治理项目和数据源的管理,其中数据源包括,结构化数据源和非结构化数据源。同样数据的治理过程也分为结构化数据治理和非结构化数据治理。结构化数据治理主要是基于机器学习算法,智能感知每一列数据的数据类型,并根据数据类型进行智能的数据治理操作推荐。完成对数据规范化和清洗后,基于数据丰富知识库智能的进行语义层面的数据丰富操作。非结构化数据治理主要基于自然语言处理算法,自动的对非结构化数据进行命名实体的提取,以及各实体之间关系的提取,并可根据提取的数据类型,自动完成规范化的数据变换,人工可修正机器提取的实体和关系。同时,对非结构化数据也会基于数据丰富知识库智能的进行语义层面的数据丰富关联。治理后的数据,进过数据发布流程,可对数据融合系统或其他数据分析系统提供,可直接使用的数据。
基于人机交互的智能大数据治理系统的详细设计如下图所示。
图2 系统功能架构图
基于人机交互的智能大数据治理系统,包括统一门户、结构化数据治理、非结构化数据治理、算法库、知识库、数据发布和运维管理七大功能模块。
统一门户是基于人机交互的智能大数据治理系统的人机交互接口,主要实现数据治理项目管理和数据源管理。项目管理实现数据治理任务的拆解、进度跟踪和人员分配,具体包括项目的和任务的增删改查。在创建任务时,可选择参与本次任务的人员进行治理任务的分工与协作。数据源管理实现数据源的导入和存储,可将待整理的原始数据进行备份,具体包括数据源的导入、列表、维护和详情。在数据源导入时,可设定数据源的密级、权限、置信度、标签、来源等属性信息。数据源的标签,可根据机器学习算法自动生成,也支持业务人员手动添加。
结构化数据治理是基于机器学习算法,对结构化类型的数据源进行数据识别、数据重组、数据清洗、数据修复、数据丰富、数据校验等数据治理操作。数据采样是基于数据采样算法,按行对数据进行智能的异常点采样,可得到相互独立、完全穷尽的异常点。数据识别是自动对数据进行类型的识别,不仅可以识别基础类型,如字符串、整数、小数,还可以智能的识别数据的业务类型,如住址、身份证、手机号、银行卡等。基于人机交互的智能大数据治理系统具有自主学习的能力,可以自动的记忆用户业务的专用数据类型,如交易号等。随着人员的使用,系统可自动识别的数据类型会越来越多,识别准确率会越来越高。智能推荐是指对不同的数据对象和数据类型,系统可理解数据的语义推荐最合适的数据转换操作。如针对列数据、行数据和值数据(单元格数据)会提供不同的建议命令,针对每种模式下不同的数据类型,如日期型数据、电话数据,系统同样会推荐最合适的变换操作。命令集是针对某一具体变换要求的数据处理指令,通常需要调用机器学习算法。
非结构化数据治理是基于NLP算法,从非结构化数据源提取实体和关系的数据治理流程。文档解析是将原始文档,解析为可在线标注的模式,该模式下,可人工修正或提取文档中的实体和关系。实体识别是在文档解析后,可根据NLP算法和参数,识别文档中的实体数据,实体识别后,通常需要对其进行规范化处理。关系提取与实体识别的原理类似,主要是调用的算法和参数不同,同时,输出的结果是实体间的关系(事件信息)。人工修正是对系统识别结果的校验与确认。
算法库是系统的算法平台,是系统最为核心的部件。算法让数据治理从富豪层面上升到语义层面,为数据治理过程服务,让数据治理过程更高效、更智能。包括NLP算法、推荐算法和丰富算法等算法模型。
数据丰富知识库是辅助算法对数据进行语义层面的扩展和丰富。包括位置库、标准规范库和各类标注语料库。位置库包括网络空间的所有可与地理位置进行关联的知识库,如IP地址、MAC地址、基站、WIFI、手机等网络实体所对应的物理位置。标准规范是各类数据的清洗与丰富规划,如全球手机地域编码等。标准的语料库,如中、英、维、阿拉伯语等机器翻译所需语料。
数据发布是指对治理后的数据进行输出的过程。包括数据的共享交换与数据下载输出,也包括与数据融合或数据分析系统进行在线数据传输的总线接口。
运维管理是系统的辅助功能模块,实现系统的用户管理、系统监控和日志管理。用户管理包括用户的维护以及用户的认证与授权。系统监控包括业务的状态监控与管理。日志管理包括系统日志和用户操作日志,日志一方面用于安全审计,一方面用于算法分析学习,让系统更智能。
基于人机交互的智能大数据治理系统的部署架构如下图所示。
图3 系统部署架构图
用户通过统一门户访问和使用基于人机交互的智能大数据治理系统,在登录过程中需要从认证授权服务器获得访问令牌和权限,整个访问使用过程中的操作,均被运维管理服务器进行记录。
用户登录后,可选择进行整理的数据源,系统根据数据源的类型自动启动结构化数据治理任务或非结构化数据治理任务。数据治理的过程中,按需调用算法库和数据丰富知识库。治理完成后进行数据的发布操作,为下游系统提供治理后的数据。
《浅谈大数据第一期》
德塔 | 专家团队
干货 | 共41篇
版权所有©️德塔大数据研究院
转载请注明出处
DaaS慧报(有温度的大数据报告)
大数据落地方案
大数据思想
主编:林帅兵|德塔大数据研究院院长
责任编辑:孙一欣
责任美编:彭 琦
德塔大数据研究院专家团队
师文轩|德塔大学名誉校长
感谢德塔精要研发中心全体人员
欢迎在下方留言,“塔塔”会在第一时间回复您!
领取专属 10元无门槛券
私享最新 技术干货