我有一个100+手写页面的pdf格式,我需要转换为机器可读的文本。到目前为止,我已经尝试了tesseract和一个免费的在线工具,但没有成功。结果似乎是胡言乱语。
tesseract myscan.png out -l eng
我已经附上了一个示例页面。它包含文本、数学符号(例如,整数符号)和偶尔的图片。
也许我用错了tesseract?有没有人能试着从这上面得到一个好的输出呢?
我正在尝试做一个程序,将抓取的文本从截图中使用tesseract和python,我没有问题得到它的一部分,但一些文本是较浅的颜色,不是由tesseract拾取。下面是我正在使用的图片的示例:
我要得到图片顶部的文本,但不是下面的3个选项。
下面是我用来抓取文本的代码
result = pytesseract.image_to_string(
screen, config="load_system_dawg=0 load_freq_dawg=0")
print("below is the total value scra
我不知道这个案子的术语。我把它叫做multidimensional文本替换。所以#cmiiw。
案卷
我有一个像这样的text
var text = 'Budy: [expression 3 4 5]\nJohn: [expression 2 5 6]';
但我想要的输出是:
Buddy: 3 times smile, 4 times laugh, 5 times mad
John: 2 times smile, 5 times laugh, 6 times mad
我已经尝试了regex查询。但我不知道该怎么替换这个号码。
这就是我所尝试的:
var text = '