做财务的家人们,是不是还在为一堆发票而发愁?想象一下这样的场景:您的桌面上堆放着成千上万张各类发票,有的是图片,有的是PDF文档,文件命名也是毫无规律。传统方式下可能需要多人数小时才能完成录入。

而现在,庆幸我们的工作进入AI时代,通过木头AI浏览器的"发票统计"功能,只需轻点鼠标,系统即可自动完成:识别整理发票保存到Excel文件,且多张发票能够自动循环操作。如下图所求,只要点击木头AI浏览器书签栏的“发票统计”项目运行,浏览器会自动循环打开全部发票。

无论是图片还是PDF格式,无差别进行OCR文字识别,整理识别结果分字段存入Excel表格。

这个项目具体怎么实现的呢?详细给大家唠叨一下具体步骤。
1、首先打开木头AIi浏览器的项目管理窗口,创建一个【定时控制】器步骤,设置间隔5秒就执行一遍后续步骤,意思就是设置每5秒钟打开识别一张发票。

2、接下来添加【自定义变量】步骤,添加一个变量,选择获取文件列表,并指定发票所在文件夹。本步骤执行时读取文件夹下的文件列表,并存入系统变量,供后续步骤使用。

3、创建打开网址步骤,添加本地发票路径做为网址“file:///{3、自定义变量_变量1}”,其中大括号部分是变量名,从上一步的文件列表中按顺序读取一张发票路径,并替换变量名,这样就在浏览器内部打开了发票。

4、创建一个【抓取数据】步骤,抓取PDF文档页面元素“embed”。抓取属性选择“TagImg2Text”,表示获取元素截图,然后识别转换成文字,结果也存在本步骤的变量中。

5、获得发票全部文字后,使浏览器执行js代码,分解得到发票各字段内容。

、 6、通过【变量监控】步骤,判断是否成功获得了发票金额,以此做为是否成功识别发票的标志。

7、如果成功抓取了发票信息,则跳转到Yes节点,在Yes节点之后,创建【保存数据】步骤,选择保存为Excel格式,并设置好文件路径、表格字段名和字段宽度。

至此全部设置完成,从头开始运行项目,就能自动识别整个文件夹内的全部发票。同样的方法,也适合识别其它票据或证件哦。
技术亮点一览:
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。