点击“人工智能园地”关注我们~
人工智能是个超热的话题,AlphaGo战胜李世石,无人驾驶汽车已经展开路测,人工智能辅助医生在几分钟内确诊一例癌症,仿佛人工智能已经无所不能,无处不在,大家都在热衷于谈论几年后机器人会不会占领地球的时候,我们还在为人工智能如何引入电信网络而苦恼。
1
困难
海量数据获取难!
现代人工智能发展经历了三起三落,最近这一次人工智能取得突破性进展得益于三个方面:计算机算力提升、深度学习算法的提出和海量数据。注意是“海量数据”,不是简单几个几百或者是几千个数据就可以叫海量数据,举个例子,谷歌人工智能训练识别图片中的猫或狗,在一百万张图片的训练数据量时,识别的准确率只有60%~70%,在一千万张图片时,模型识别的准确率可以达到85%以上,达到可用级别。一千万张,这就是海量数据。在电信网络领域,针对某一个场景训练能够提供的数据量有多少呢?以故障告警根因分析为例,某省移动公司每天发生的故障告警数量为2800张(经过告警压缩去除掉无效告警之后),累积到一千万张需要10年时间。这已经是数据量大的场景,真实现网中,一个故障一年出现的几率可能只有1~2次。电信网络可是号称5个9的可靠性,如果每天发生几千次真实设备故障,电信公司因为无法提供可靠服务,早就倒闭了。
那么问题来了,电信行业小数据量场景怎么提供AI训练所需要的海量数据?这个问题绝不仅仅是电信领域独有,所有2B的行业可能都面临这个问题。
2
困难
边界不清,模型复制难!
AlphaGo面对的是一张19*19的棋牌,它要计算对手每一步的可能结果和对手下一步棋的可能选项,计算量很大但是边界清楚。但在电信领域,场景要比这复杂的多,而且边界没有这么清楚。如流量、用户数预测,要考虑的不仅仅是历史变化趋势,比如明天在体育馆要开一个演唱会,导致人群聚集;后天台风来了,原来人群聚集规律被打破。更复杂的如5G无线网络规划,现在是大家热衷讨论的人工智能场景,一个大城市的5G网络规划,要考虑的问题不胜枚举。除了用户数、流量预测之外,234G网络干扰、传输分布、地形条件等都要考虑进去(个人认为未来不会出一个5G网络规划的模型,太复杂,只会把5G网络规划分解为一个个小场景,针对这些小场景训练模型)。
场景复杂本来是人工智能发力的一个点,凭借超强的计算能力,在复杂的环境中找到特征规律并作出较为准确的预测。但是在AI引入电信网络初期,这是一个天大的问题。
还是以站点流量预测为例,甲城市A站点的流量预测,包含历史流量数据、天气预报信息、关键事件规划、人口增长趋势预测四个维度的信息,训练出来一个模型。但是换到乙城市B站点,因为乙城市是特大城市,有一个国际会议要开,数据发生了变化;丙城市是旅游城市,要加入游客季节变化趋势。而人工智能特点是每增加一个数据类型,或者关键数据发生了变化,都会导致特征变化,模型都要重新训练。也就是说甲城市的模型无法应用到乙城市,也无法应用到丙城市。从理论上讲,存在一个模型把所有的特征都计算在内,前提是拥有所有特征的数据,这需要长期的积累。而在AI引入电信网络的初期,场景复杂化,导致特征数据不断变化(我们把这个称作边界不清晰)导致模型复用能力差,是我们面临的又一大难题。
3
困难
可继承经验少,基于场景选择合适算法难!
最近看一篇文章介绍AI在2018年的十大关键进展,头一条就是AI在自然语言处理方面取得了突破性的进展。当前在人工智能领域,图像识别、语音识别、自动驾驶是最热的三大领域,大量的人工智能科学家投入其中,算法经过无数次改进,积累了大量经验。当前我们看到的应用大部分是构建在这三大领域之上的,如当前大热的智能音箱,核心是识别语音并搜索数据库,然后把数据库答案用语音读出来。
而AI引入电信网络领域刚刚开始,图像识别、语音识别和自动驾驶方面的模型和经验在电信网络领域应用范围比较窄,大部分场景都需要基于场景去选择合适算法。有个电信领域的研究员把所有的AI算法都研究了一遍,并分门别类写明了每个算法适用的场景。列完之后发现AI算法适配的场景并不是针对电信领域场景的,它针对的是数据自身的特征,如数据量大小、数据特征是否明显等。而电信网络的场景是如故障定位、资源优化、流量预测等,这根本是两个不同的领域。
电信网络领域引入AI可继承的经验很少,需要跨领域的知识融合,这就是难点所在。
4
困难
数据隐私受保护,获取难!
和运营商交流,谈到数据的问题,运营商第一反应就是数据不能出国、数据不能出局。2018年5月,欧洲颁布了GDPR(General Data Protection Regulation),号称史上最严的隐私数据保护条例。
数据不能出局出国,数据难以获取,在大数据时代就面临这个问题。而按照我们第一个问题的分析,运营商网络这个领域数据量本身就不大,还不能集中全球数据进行训练,严重加重了AI训练的难度。
5
困难
数据标准化难!
前一段时间无线领域收集一个城市几万个站点的数据,仅仅是工作电压、工作电流这两项指标,数据就有70多种格式。而从设备中读取数据的接口,每个厂家都不同,每个厂家能够输出的数据类型也不一样。数据格式、数据类型、数据接口这三者不能标准化,意味着数据无法读取,人工智能就只能是单个局点单个场景的小打小闹,无法获得推广。
电信行业引入AI实现工程化任重道远,现在看到的问题还只是九牛一毛。相信随着电信AI投资的大规模涌入,经验的逐步积累,这些问题会逐步被解决。
图文 / 保尔
人工智能园地,力求打造运营商领域第一的人工智能交流平台,促进华为SoftCOM AI理念在业界(尤其通信行业)形成影响力!
领取专属 10元无门槛券
私享最新 技术干货