我有一个使用正则表达式从文本(format =mm)中提取日期的代码。
备注:文本是在票据图像上使用OCR获取的。因此,预期的日期格式是,但是它可以是任何随机文本,因为它是使用OCR获得的。
import re
date_reg_exp = re.compile('\d{2}[-/.]\d{2}[-/.]\d{4}') #works for mm-dd-yyyy
matches_list=date_reg_exp.findall(test_str)
for match in matches_list2:
print match
如果我有一个字符串'This is a
我使用此代码检测所有文本并绘制所有采购框:
from paddleocr import PaddleOCR,draw_ocr
ocr = PaddleOCR(lang='en') # need to run only once to download and load model into memory
img_path = 'PaddleOCR/doc/imgs_en/img_12.jpg'
result = ocr.ocr(img_path, cls=False)
for line in result:
print(line)
# draw res
我需要计算OCR字符的准确性。
样地值:
Non sinking ship is friendship
示例ocr值输入
non singing ship is finedship
令人关切的领域是:
遗漏字符
额外字符
错位字符
字符准确性是由实际字符的数量定义的,其位置除以实际字符的总数。
我需要一个python脚本来找到这种准确性。我的初步实施如下:
ground_value = "Non sinking ship is friendship"
ocr_value = "non singing ship is finedship"
gr