我已经提取了一些发票相关信息从电子邮件正文到Python字符串,我的下一个任务是从字符串中提取发票号码。电子邮件的格式可能会有所不同,因此很难从文本中找到发票号。我还尝试了SpaCy中的“命名实体识别”,但是在大多数情况下,发票号将出现在标题‘发票’或‘发票#’的下一行,因此NER不理解关系,并返回不正确的详细信息。
以下是从邮件正文中提取的两个文本示例:
例- 1。
Dear Customer:
The past due invoices listed below are still pending. This includes the
following:
Invoice Date
我正在使用access 2013,并尝试识别向供应商支付的重复付款。我使用下面的SQL查询来识别不同类型的重复,但它没有给出预期的结果,因为有时两个条件是不同的,如发票编号和发票日期。
SELECT
Base.ID AS SerialNumber,
Base.CoCd AS CoCode,
Base.DocumentNo AS DocID,
Base.ClrngdocNo AS ClearingDoc,
Base.DocumentType AS DocType,
Base.Account AS VendorName,
Base.Reference AS InvoiceNumber
我正在尝试使用Python3.7通过提取带有正则表达式的元素来识别pdf文档中的模式。当我提取数据时,我有两个判断:
第一,我得到的结果如下:
R.U.T .: 99.999.999-9
COMPANY
ELECTRONIC TICKET
Committed to you
N
54280631
COMPANY S.A. SALE
RUT: 99.999.999-9 Directory 111, City
第二种情况是:
R.U.T .: 99.999.999-9
COMPANY
ELECTRONIC TICKET
Committed to you
N 54280631
COMPANY S.A.