AIOps 是基于大数据和机器学习的运维管理形式,它的实现除了需要一系列复杂的机器学习算法以及大数据技术外,还需要应用于训练算法模型和辅助决策支撑的海量运维数据。
采集哪些运维数据?
如何保障数据采集的便捷、完整和安全?
今天我们不谈理论,不谈算法
只谈谈全球最会“玩儿”数据的公司
——甲骨文是如何实现的
404报错,Out-of-memory、SQL 错误码……
AIOps 所关注的运维数据俗称 IT 机器数据,是 IT 系统运行过程所产生的状态和告警信息。无论是互联网企业,还是传统的汽车制造行业,虽然业务系统千差万别,但支撑业务的 IT 架构基本类似,这些运维数据每天在全球不同的企业重复出现,存在大量共性。通过海量的运维数据不断训练 AIOps 算法模型,使得运维系统越来越智能,辅助决策越来越精准。
运维数据分为当前状态数据和已发生日志数据
当前状态数据是指系统运行的状态信息,如CPU、内存、存储容量、表空间情况、应用访问时间、SQL 执行效率等等,借助 Agent 采集这些信息,可以实现:
实时了解系统运行状况
通过大数据洞察每个状态指标的关联关系及变化规律
借助随机森林和时间序列等算法实现对未来系统状态的预测
已发生的日志数据,由于每家企业的开发成熟度不同和业务支撑的不同需求,IT日志中会存在一些业务交易数据,如:客户银行卡号、身份证、密码等,为确保数据主权,往往很多企业会要求在对运维日志数据采集时进行脱敏操作,甚至于有些政府部门还有专人对数据进行脱敏。
那么,脱敏后的运维数据是否会影响到 AIOps 实现的效果呢?
NO。因为敏感信息是企业独特的个性化信息,为确保数据主权,存在脱敏的必要,而且这些信息并不能对 AIOps 的算法模型训练带来任何帮助。
甲骨文公司会考虑用户实际情况,通过以下两种方式对包含个性化信息的日志实现脱敏和采集:
★利用Oracle管理云 Agent 自带的 Data Masking 功能实现快速数据脱敏和采集
★企业自行脱敏后通过脚本进行采集
瞄准未来,不做井底之蛙,尽享 AIOps 部署经验
领取专属 10元无门槛券
私享最新 技术干货