随着税务信息化建设的推进,苏州地税局在网络建设、基础数据和应用方面有了一定的积累和经验。在新的历史背景下,如何坚持创新驱动发展,运用“互联网+”思维整合税收业务,大力推动税收大数据发展,深化税收大数据应用,成为了重要任务和历史使命。
针对大数据建设过程中存在的涉税数据量激增、数据结构复杂、“信息孤岛”、“数据休眠”、数据资源的安全管理等问题,苏州地税局贯彻落实总局、省局指导意见,以时不我待的精神积极主动作为,充分发挥自身技术,结合涉税数据源的特点,加快推进税收大数据平台的建设。今年,苏州地税局选取了GreenPlum分布式数据库作为结构化数据处理平台的升级方向。Greenplum是一个分布式大规模并行处理数据库(MPP),为大数据存储、计算、挖掘而设计,具有完善的标准支持,良好的扩展能力,极高的查询速度。经过不懈的探索和研究,地税局数据处依靠自有技术力量,成功搭建了一套GreenPlum分布式数据库,完成了对大数据基础计算平台的建设;之后通过自编脚本(同步表结构脚本、进程控制脚本、数据迁移脚本、抽取失败处理脚本)与开源的ETL工具相结合,经过几个月的努力,将历史涉税数据导入Greenplum,共计9个数据库,5000多张表,100多亿条数据,数据量达到5TB。经过测试分析,大数据基础计算平台查询性能比传统的ORACLE数据库提升了30倍以上。
大数据时代下利用“互联网+”技术手段深化改革,破解制约税收工作的难题,对于提高税收征管水平,推进税收治理现代化具有重要意义。在此背景下,苏州地税局牢牢把握时代发展机遇,探索税收大数据的应用方向和重点,深耕大数据平台建设,为“互联网+ 税务”的深化发展奠定基石。下一步,将引入 Hadoop平台来解决非结化数据的处理以及分布式计算问题,为今后的数据分析利用确立基础数据存储计算框架,充分发挥大数据优势,发掘“金山银库”等数据资源的潜在价值,推进税收数据的增值应用,为落实税收政策、推进税制改革提供有力支撑。
领取专属 10元无门槛券
私享最新 技术干货