正如公司的名字一样,庖丁科技也是利用一把锋利的刀——基于自然语言处理与计算机视觉,实现金融文档结构化,从而切入金融市场。
中科院计算所副研究员兼博导、庖丁科技首席科学家罗平对雷锋网AI金融评论表示,作为一种应用科学,计算机在研究和应用阶段的目标和工作方式存在差异。“相较而言,实际应用可能会耗费更多的人力和工程量。若划分个百分比,前期研究是20%,应用产品化是80%。”而他一贯秉持着从实际需求中挖掘研究内容。
一方面是监管机构对金融文档有着真实、准确、完整要求,另一方面则是金融从业者面临着繁杂的文档数据处理、审核等困境。针对于此,庖丁科技专注于核心技术金融文档结构化的研究与工程化。简单而言,金融文档结构化就是提取出金融文档中的核心信息,转化为可供计算机搜索、比对、分析的结构化数据。而关键信息一般藏在两个地方:一是大量的表格,二是自然语言段落。
在去年7月雷锋网承办的第二届CCF-GAIR全球人工智能与机器人峰会上
,罗平曾为观众展示了庖丁科技早期的产品——AutoDoc,主要能够复核金融文档表格及语言中的数字勾稽关系。
如下图所示,根据文档中的表格数据,机器可自动计算出“2016年主营收入较2015年下降的比例”应该为“12.43%”,但文字中的显示为“11.29%”。
当时,罗平还表示,出于教育市场的目的,他们预先发布了一版免费的AutoDoc软件,支持金融文档中数据勾稽关系的复核和笔误修改,复核重点是数字,后续将会增加自动撰写、智能分析,并增添人名、事件表述等复核功能。一年后,庖丁迭代了企业版本,据称目前已在券商内部测试使用。而那些后续功能将只在企业版本中提供。
除了AutoDoc企业版本的进展,他们还推出了一个新产品——PDFlux,将PDF电子文档转换成Excel表格。其中最关键的实现了无边框表格提取。据罗平介绍,企业财报中有一些出于美观考虑的无线框表格的存在,而一般使用pdf转化器后,表格数据会被打乱。通过预测表格的外框和内线,他们最终实现了数据提取。
北京银行年报无边框表格提取,210页大约用时7~8分钟
获得数据后即可直接拷贝到Excel或者word中使用。这项技术和产品的价值在哪儿呢?罗平表示,国内一些金融数据公司实质上就是卖数据的公司,从上深交所发布的报告中扒下数据,通过半自动化加人工的方式,提取报表数据。“可能需要好几百人,而录入一期财务报表至少需要3~5小时,而我们只需要几分钟。”
PDFlux也发布了一个免费版本,当前还未对速度进行优化。经雷锋网AI金融评论尝试,北京银行210页年报大约处理用时7~8分钟,杭州银行15页的2018一季度报只用了3分钟。
当然该产品并不包含图表的识别。罗平解释说,这是因为相较于表格,图表的的应用价值并不高。“在企业发布的业绩报告中,所有的关键信息都在表格中;而图表可能只有5%及以下,且理解难度也很高,从投入产出来看并不值当。”
据称,基于金融文档结构化技术,庖丁能够推出更多丰富的应用,比如合规、风控,甚至自动撰写。“坦率说,我们前期的主要工作都放在突破底层关键技术,建立技术壁垒;有了核心技术,我们会将精力转移到商业化产品端。 “
雷锋网AI金融评论还就公司与行业发展与罗平展开了更深入的对话:
雷锋网AI金融评论:庖丁的自我定位究竟是怎样的?曾有一家媒体将庖丁公司归类到智能投研,而在此之前也看到CEO接受采访时表示,庖丁对标美国大数据公司Palantir,也说“AI公司未来会是新的金融机构,未来庖丁科技要成为新的资产管理机构。”
罗平:我们是一家金融科技公司,智能投研只是该领域的一部分。另外,我们认为通过技术未来可以自然地转型成一个新型金融机构。换个角度,AutoDoc的目标是减少投行重复的投入,可能现在投行100个人,利用我们的工具后只需要10个人,也就是说相当于这个工具占到90%的工作量。那么从技术角度切入,未来延伸至业务层面,顺理成章。当然,还需要考虑到监管因素。
雷锋网AI金融评论:目前庖丁科技发布的产品实际为投研人员提供了便利。国内一些开发投研工具的公司已经不少,有推出企业知识图谱、金融搜索引擎等工具,相较起来庖丁科技的切入点更小更聚焦。
罗平:我明白你的意思,市场存在这样认知的从业者不在少数。但我想说的是,我们所做的金融文档结构化底层技术实际上都可以实现这些功能。这些工具说起来还是解决工程化的问题,并没有什么技术难度。
我们能够看到一些企业知识图谱展示,比如列出一家公司的前十大用户或者供应商名单。而事实上,后台数据库已经存储好了这些信息,相当于只是做了数据库查询,并把查询的内容可视化。
核心的技术门槛应该在如何实时的构建这样的数据库。也就是说,怎么知道这家公司的上下游公司在哪里?这些信息实际上都存在于披露的金融文档中,我们需要实时的抽取出来。这就需要自动化的表格理解和自然语言理解技术。
雷锋网AI金融评论:在没有自动化处理能力或者不成熟之前,同类公司如何为投资者提供足够多的数据?人工?
罗平:这就千差万别了。第一类是半自动化+人工实现的,比如万得。第二类则是通过不正当的手段直接获取结构化数据。
雷锋网AI金融评论:公司的商业化进展如何?在B端部署时数据如何处理?
罗平:除了C端试用产品,主要目标对象是国内券商等金融机构和监管单位。收费模式包括按次收费或者按软件收费。我们会到相关机构部署系统,数据也会存储在他们内部。
雷锋网AI金融评论:AutoDoc企业版本中有自动撰写功能,该工作的难点是什么?在此之前,我们确实有看到一些机器人自动撰写的简短的新闻。
罗平:大家不要对能够帮助投行从业者自动撰写的功能抱有太高的期望。比如一个IPO的招股书,我觉得自动撰写的比例会在50%以下,甚至更低。
我们首先需要明确撰写的内容,目前能够实现的是根据一张财务报表的数字进行自然语言描述,比如今年的指标,同比增长等,或者说可以叫做辅助撰写。
但如果出现一个异常增长率,一般监管都需要其作出解释。那么这个原因,不论是开拓的新业务或者是政策变化,机器是无法自动生成原因的,仍然需要人工撰写。
雷锋网AI金融评论:“庖丁科技未来的应用场景包括监管合规,目前的使用者上传了数万份金融市场信息报表。”怎么理解你们的作用,有什么实际应用吗?
罗平:监管有个最基本的需求就是复核年报或者IPO招股书的数据。另外,他们还希望对金融市场做到风控管理,也需要公司的底层财务和业务数据。金融文档结构化是一切后续应用的基础。实际上,我们已经与某发债监管单位签订了系统合约。
雷锋网AI金融评论:那么行业的竞争壁垒是在哪里?之前看到你接受采访时谈到在于“技术+金融数据理解。”
罗平:我觉得真正壁垒是如何获取金融数据,这是计算机的壁垒,是我们主要做的事情。获取的速度和精度,将体现出迥然不同的应用价值。
有了底层的金融数据,需要将金融以及行业知识融入计算机技术,这才是金融从业者发挥价值的广阔舞台。我们的策略是,先做计算机的事情;做好之后,金融的事情应该是一片蓝海。
雷锋网AI金融评论:近年来我们能看到许多新金融业态监管收严,比如智能投顾、网贷等,但你们所在的细分领域似乎并没有太多的监管压力。
罗平:我们所在的市场比较开放、健康。做监管科技,是为了稳定、管理金融市场。我觉得这块市场类似于传统的安防行业,用AI技术稳定金融市场,或者可以叫“金融安防市场。”
雷锋网AI金融评论:关于行业现状,你有感而发一句“鱼龙混杂”,这主要指什么问题?
罗平:鱼龙混杂主要指的是各公司的技术水平,含金量在于底下的数据来源,有些公司甚至会窃取他人数据。底层数据的来源也决定了是否能够真正构建“知识图谱”,一些所谓的AI公司充其量只是做了数据“展示”而已。
领取专属 10元无门槛券
私享最新 技术干货