文丨e-works熊东旭
格力空调工业大数据应用实践——专访格力电器大数据中心主任谭泽汉!
珠海格力电器股份有限公司成立于1991年,是一家集研发、生产、销售、服务于一体的国际化家电企业,拥有格力、TOSOT、晶弘三大品牌,主营家用空调、中央空调、空气能热水器、手机、生活电器、冰箱等产品。2016年格力电器实现营业总收入1101.13亿元,净利润154.21亿元,连续9年上榜美国《财富》杂志“中国上市公司100强”。格力电器旗下的“格力”品牌空调已经成为“世界名牌”产品,业务遍及全球100多个国家和地区。
2017年以来为提升产品品质实现差异化市场竞争,格力电器推出了融入工业大数据分析功能的多联机商用智能空调,受到了行业的广泛关注。为了解更多的相关情况,e-works记者特约采访了格力电器大数据中心主任谭泽汉,请他就多联机智能商用空调的特点及功能进行了解读,重点谈谈格力电器是如何利用工业大数据实现空业务创新。
图 1 格力电器大数据中心主任谭泽汉
01
技术创新是格力电器发展的源动力
随着“互联网+制造业”等政策的出台,将新兴IT技术融入到企业的生产过程以改善企业的生产效率是一个必然的趋势。传统企业的转型离不开产品变革和业务创新。就此谭泽汉谈到,格力作为一家世界知名的制造企业,每天思考的是怎么在保证格力的产品质量坚如磐石的同时满足消费者权益的最大化。
因此,今年以来为推动产品的差异化竞争,提升用户对于格力空调的使用体验,格力电器专门成立了大数据部门,尝试通过将大数据技术融入到格力多联机空调产品实现对所有销售的多联机空调设备的位置、运行状态、安装调试,以及故障数据的采集,以帮助格力对客户购买的产品适用状态和故障信息进行及时的处理与分析。
截至2017年12月,格力已销售的风冷多联机空调系列已全部安装数据采集GPRS模块,销售工程数量超过百万项,分布于全国各个省市地区。多联机空调每天返回数据处理中心的机器运行数据增量超过1.5亿条记录,目前共采集数据超过100T,已建成庞大的数据收集规模。
图 2 格力多联机故障分析诊断系统
通过为多联机空调安装数据采集模块,格力已经实现了在用户还没有发觉问题之前就能迅速的处理隐患。比如在空调安装过程中经常会出现因为人为操作不规范导致后续使用中出现问题,不但增加了公司售后服务成本,也降低了客户的产品使用体验。对格力空调的品牌造成难以挽回的信誉影响。
再比如,在空调运行过程中,如果出现GPRS上报排气低温保护,后台会出现分析机组存在异常,分析结果可能是排查主机防尘膜未取;如果出现GPRS上报压力异常保护,分析结果可能为缺冷媒,需立即排查管路有泄漏。在安装GPRS数据采集模块后,格力能有效的避免空调安装人员在调试过程中的出错几率,在使用过程中能监控产品运行状态,在收到用户故障维修请求后能及时分析故障原因并进行处理。
格力最新的统计显示,通过部署大数据分析平台,格力通过故障数据分析规范工程安装,提高工程安装质量,使欠氟和漏氟故障率下降22.5%。对电子膨胀阀控制逻辑进行优化,大大减小内机电子膨胀阀泄露的故障率,使电子膨胀阀故障率下降21.3%。
截止目前,格力多联机组共开发了自动故障诊断56 个,涵盖系统故障 44个,电控故障22 个。格力的最终目标是通过整合数据,将空调产品从生产、销售、安装、调试、维护、运行等一系列数据同时呈现出来,使产品在每一环节都受控,实现对产品的全方位监控管理。
02
格力工业大数据平台的实施
谭泽汉介绍,格力工业大数据平台主要包含三个部分:数据采集、大数据平台和数据应用。数据采集部分包含大数据管理客户端、服务器、GPRS模块,其中模块会将设备位置、运行、调试、故障数据主动上传,还可以按需获取多联机实时数据,实现数据的采集、存储、分析、利用。
图 3 格力工业大数据平台架构
如图3所示,采集到的数据在被上传到后端的大数据平台后会进行及时的处理与分析,并通过客户端、移动应用端进行展现。格力大数据平台主要包括九个部分:
图 4 格力大数据分析平台
(1) kafka——大数据平台的数据入口,作为采集数据的缓冲。Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据。 这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。对于像Hadoop这样的日志数据和离线分析系统,但又要求实时处理的限制,Kafka是一个可行的解决方案。Kafka的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理,也是为了通过集群机来提供实时的消费。
(2) Hadoop HDFS+MapReduce。Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件上的分布式文件系统,HDFS是一个高度容错性的系统,适合部署在廉价的机器上,提供高吞吐量的数据访问,非常适合大规模数据集上的应用。MapReduce则是面向大数据并行处理的计算模型、框架和平台,它允许用市场上普通的商用服务器构成一个包含数十、数百至数千个节点的分布和并行计算集群,并提供了一个庞大但设计精良的并行计算软件框架,能自动完成计算任务的并行化处理,自动划分计算数据和计算任务,在集群节点上自动分配和执行任务以及收集计算结果,将数据分布存储、数据通信、容错处理等并行计算涉及到的很多系统底层的复杂细节交由系统负责处理,大大减少了软件开发人员的负担。
(3) Spark——内存计算引擎。Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者不同之处在于Spark不需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。
(4) IMPALA——内存数据库实时查询。Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。Impala的最大的优势就是查询速度快。
(5) Flume——数据采集通道。Flume可以将应用产生的数据存储到任何集中存储器中,当收集数据的速度超过将写入数据的时候,也就是当收集信息遇到峰值时,这时候收集的信息非常大,甚至超过了系统的写入数据能力,这时候Flume会在数据生产者和数据收容器间做出调整,保证其能够在两者之间提供平稳的数据。
(6) Hive——数据仓储。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行,也可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。
(7) HBASE——列式存储数据库。Hadoop Database是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase位于结构化存储层,Hadoop HDFS为HBase提供了高可靠性的底层存储支持,Hadoop MapReduce为HBase提供了高性能的计算能力。
(8) YARN ——集群资源分配管理。YARN是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。
(9) Hue——集成化查询工具。Hue是一个开源的Apache Hadoop UI系统,最早是由Cloudera Desktop演化而来,由Cloudera贡献给开源社区,它是基于Python Web框架Django实现的。通过使用Hue我们可以在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据,例如操作HDFS上的数据,运行MapReduce Job等等。
图 5 格力大数据平台架构
图5为大数据平台的分析过程,首先采集的数据源通过Kafka集群汇总导入后,这时候数据流有两个方向。一个方向是通过Flume数据采集通道存储到HDFS分布式文件系统上,进入到列式存储数据库HBASE,由HDFS为HBase提供了高可靠性的底层存储支持。然后通过YARN实现对数据及存储资源的统一调度和分配,以供上层应用调用。另一个方向是直接送到内存,利用内存计算引擎Spark进行数据挖掘与机器学习等应用,同时提供交互式查询和优化迭代工作。通过两个方向的数据处理之后,由Hue通过浏览器端的Web控制台与Hadoop集群进行交互来分析处理数据并实现最终的结果展现。
谭泽汉谈到,格力工业大数据平台的开发是格力将新兴IT技术融入到传统制造产品的一次初步尝试,由于缺乏可借鉴的行业经验,格力大数据平台的开发过程中面临了一系列的技术挑战,但最终都得以克服并在不但摸索中逐渐成熟。从目前平台的运行情况来看,取得了比预期更好的应用效果,未来格力将逐步扩展大数据平台的服务功能,并在全系列产品线得到推广和应用。
03
后记
采访过程中谭泽汉反复强调的一句话,即“数据创造价值”。格力电器在工业大数据领域的应用实践充分证明,未来的制造企业的转型需要重视对生产、销售、安装、调试、维护、运行等一系列数据的积累,只有对生产过程和使用过程的数据采集和分析,才能使产品在每一环节都受控,实现对产品的全方位监控管理。
通过搭建工业大数据平台,格力电器实现了空调安装过程的全程跟踪、使用过程的实施监控和售后服务的精准维护,即大幅度的节省了安装调试成本,也提升了客户对产品的满意度,与此同时,也为格力电器进一步突破产品的同质化竞争找到了新突破口。
领取专属 10元无门槛券
私享最新 技术干货