首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >批量识别发票并生成Excel表格

批量识别发票并生成Excel表格

原创
作者头像
用户6527427
发布2025-12-13 22:47:19
发布2025-12-13 22:47:19
4770
举报

做财务的家人们,是不是还在为一堆发票而发愁?想象一下这样的场景:您的桌面上堆放着成千上万张各类发票,有的是图片,有的是PDF文档,文件命名也是毫无规律。传统方式下可能需要多人数小时才能完成录入。

多种格式的发票文件
多种格式的发票文件

而现在,庆幸我们的工作进入AI时代,通过木头AI浏览器的"发票统计"功能,只需轻点鼠标,系统即可自动完成:识别整理发票保存到Excel文件,且多张发票能够自动循环操作。如下图所求,只要点击木头AI浏览器书签栏的“发票统计”项目运行,浏览器会自动循环打开全部发票。

打开发票文件识别和保存表格
打开发票文件识别和保存表格

无论是图片还是PDF格式,无差别进行OCR文字识别,整理识别结果分字段存入Excel表格。

自动生成的发票表格
自动生成的发票表格

这个项目具体怎么实现的呢?详细给大家唠叨一下具体步骤。

1、首先打开木头AIi浏览器的项目管理窗口,创建一个【定时控制】器步骤,设置间隔5秒就执行一遍后续步骤,意思就是设置每5秒钟打开识别一张发票。

设定打开发票的周期
设定打开发票的周期

2、接下来添加【自定义变量】步骤,添加一个变量,选择获取文件列表,并指定发票所在文件夹。本步骤执行时读取文件夹下的文件列表,并存入系统变量,供后续步骤使用。

指定发票文件夹
指定发票文件夹

3、创建打开网址步骤,添加本地发票路径做为网址“file:///{3、自定义变量_变量1}”,其中大括号部分是变量名,从上一步的文件列表中按顺序读取一张发票路径,并替换变量名,这样就在浏览器内部打开了发票。

在浏览器打开发票
在浏览器打开发票

4、创建一个【抓取数据】步骤,抓取PDF文档页面元素“embed”。抓取属性选择“TagImg2Text”,表示获取元素截图,然后识别转换成文字,结果也存在本步骤的变量中。

识别发票内容
识别发票内容

5、获得发票全部文字后,使浏览器执行js代码,分解得到发票各字段内容。

用js识别发票各个字段
用js识别发票各个字段

、 6、通过【变量监控】步骤,判断是否成功获得了发票金额,以此做为是否成功识别发票的标志。

保存发票识别结果
保存发票识别结果

7、如果成功抓取了发票信息,则跳转到Yes节点,在Yes节点之后,创建【保存数据】步骤,选择保存为Excel格式,并设置好文件路径、表格字段名和字段宽度。

保存发票识别结果
保存发票识别结果

至此全部设置完成,从头开始运行项目,就能自动识别整个文件夹内的全部发票。同样的方法,也适合识别其它票据或证件哦。

技术亮点一览:

  • 批量处理能力:支持一次性处理上百张发票
  • 智能识别技术:运用先进OCR技术精准提取发票信息
  • 自动化流程:实现"一键操作,全程自动化"
  • Excel无缝对接:直接生成结构化的电子表格
  • 错误率大幅降低:相比人工录入,准确率提升95%以上

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档