数据猿导读
东方金信通过应用政府大数据发现,地区GDP的增幅与当地某类粮食价格的变动直接关联;同样,GDP与信访投诉量也高度相关。这些内容的出现,对于政府施政很有帮助。
图 | 北京东方金信科技有限公司CEO 王伟哲
记者 | 春夏
本文长度为1800字,建议阅读4分钟
目前,大数据技术早已应用到各行各业,尤其在互联网行业应用最早最广泛。而东方金信却选择将大数据技术应用在政府相关的领域,通过对数据的研究与分析,找出政府大数据的丰富价值。
东方金信成立于2013年,主要为政府、金融、工业、医疗等行业提供大数据平台和大数据解决方案。CEO王伟哲曾在IBM、TeraData等企业工作,有十多年的大数据工作经验,同时也担任北京大数据中心委员专家、信息化促进委员会专家等职务。
东方金信最开始是为金融行业提供数据服务,包括国有银行、股份制银行和城市商业银行等都是服务客户。到了2015年,随着政府对大数据需求的增加,东方金信将数据业务扩展到政府部门,包括部委级、省级、市级。
从技术方面来看,国内很多大数据企业自称拥有Hadoop技术能力,但却无法直接作为生产系统供企业使用。因此,有很多公司做了商用版平台,然后应用到生产系统中,东方金信就是其中一家。
数据猿记者了解到,作为一家技术驱动型的大数据公司,东方金信在Hadoop开源平台开发了大量的自主知识产权的组件,比开源平台性能提高达10—15倍,最高能提高至1300多倍。2017年2月,国际知名咨询机构Gartner发布Hadoop发行版市场指南《Market Guide for Hadoop Distribution》,东方金信作为大数据领域代表厂商,在此报告中与google、Cloudera、Oracle、AWS等并列提及,正式进入Gartner世界厂商名录。
国内少数掌握核心技术的公司
东方金信的核心产品基于Hadoop分布式数据平台,自主研发的海盒大数据产品套件包括Seabox大数据基础平台、Seabox大数据分析系统、Seabox分布式内存系统、Seabox人工智能平台等,为客户综合提供大数据采集、存储、分析及应用的整套服务。
王伟哲称,有很多公司说自己是大数据公司,却只安装了一个开源平台,如果只是作为测试来用是可以的,但无法作为实际生产系统使用。因为随着企业业务量、数据量、计算量的增大,系统中会出现越来越多Bug,导致运维费用提升,而且还要不断更新系统。
“这就需要修改底层代码,国内没有几家公司能够把底层代码全部研究透彻,真正研究透彻的公司不会超过三家,我们是其中一家。”
为了能够真正让Hadoop底层技术平台应用于生产系统,东方金信开发了商业平台。基于商业平台,自主研发了ETL工具、调度工具、爬虫工具以及行为日志工具等17个产品,结合数据质量管理平台,进行数据挖掘分析。在数据挖掘分析方面,东方金信还与中科院、斯坦福大学联合建立了AI实验室,研发了AI平台、算法超市平台、数据分析平台和展示平台。
“我们与开源平台做过性能对比,一般的性能可以提高10倍左右,而极限点的特殊应用,商业平台可以优化百倍甚至千倍。”
王伟哲介绍,东方金信创始团队由两批人员构成,一部分原来在谷歌做分布式架构,一部分在IBM和TeraData做数据业务,有丰富的技术优化经验。同时,鉴于业务经验,团队会针对性地为客户提供优化升级服务。
“所以我们平台能够在各种业务系统中发挥优势,不只是在技术方面进行优化,也会在业务方面进行升级改造。”
政府大数据应用价值最高
基于自己的数据平台工具,东方金信为政府、金融、工业、医疗等行业客户提供数据收集、存储、分析等一整套数据应用服务。当前,政府和金融行业对大数据应用需求最大,而且数据技术在政府中的应用价值最高。原因有两个:一是政府的数据量足够大,二是政府数据也足够真实。
政府大数据包括人口库、法人库、地理信息库、宏观经济库等。从人口库中,可以查到公民的户籍、学历、工作,包括所获奖项、买的房子、车子等整套信息,可以了解每个人的人生曲线。
从场景应用来划分,东方金信为政府提供的大数据服务,会为社会提供以下三方面价值:
通过项目部署,政府大数据可以得到一些有意思的结论。比如一地GDP的增幅与当地某类粮食价格的变动直接关联;同样,GDP与信访投诉量也高度相关。这些内容的出现,对于政府施政很有帮助。当然,政府大数据建设还有很多惠民的实际应用。以前大家办理“进京证”时,需要开车到指定地点,核对保险、车牌号等信息以后才能办理,流程复杂且缓慢。现在,通过为政府提供数据服务,公民只需登录网站输入身份证号,就可以快速办理“进京证”。
政府数据应用的逻辑在于,以前政府数据是孤岛,现在可以通过大数据技术,将数据打通,从而在网上处理事情。王伟哲称,目前东方金信在某些省市已经打通了四十多个委办的核心数据,今后会借助技术与服务优势,全面扩大大数据的应用。