腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
3
回答
日本最精确的开源
OCR
?
、
、
根据您的经验,什么是最准确的开放源码光学字符识别(
OCR
)库/软件来读取
日文
文本?日本旧手机(特别是夏普手机)在10年前就有了很好的日本
OCR
,所以我想它在开源中也是可行的。
浏览 0
提问于2015-02-03
得票数 6
1
回答
我能在文本中检测到非
日文
汉字吗?
、
、
我有一些日语文本,但有些非
日文
汉字被混淆了。我注意到这是因为我使用的
日文
字体不支持它们,浏览器使用不同的字体呈现它们。据我所见,这些字符没有在日语中使用,所以它们错误地到达了那里(文本来自
OCR
)。有没有任何可靠的方法来检测那些非
日文
字符,比如检查unicode的某些部分? 我能想到的唯一解决方案是列出一个完整的汉字列表(或者更像是找到一个),并检查每个字符是否在列表上,但我怀疑这可能有点慢。
浏览 10
提问于2014-07-27
得票数 0
回答已采纳
1
回答
带有图像的PDF文件的
OCR
、
、
我让Tika在PDF文件上使用Tesseract,但是如果我给它一个同时具有可搜索文本和图像的PDF文件,文本是OCRed两次。有什么办法可以避免这种情况吗?即使它要经过两次,一次是笔直的文本,另一次是图像。
浏览 4
提问于2020-12-31
得票数 1
回答已采纳
2
回答
以编程方式从图像中
提取
文本
、
、
我需要先下载图像,然后从其中
提取
文本。有没有什么程序化的方法可以做到这一点?
浏览 1
提问于2011-03-21
得票数 1
回答已采纳
1
回答
我们可以使用Selenium从图像中获取文本吗?
、
、
、
这是图像的路径,为了安全起见,我必须将显示在图像上的文本输入到文本中, private WebElement textShown;@FindBy(id = "metric_iframe")我试图使用textShow
浏览 0
提问于2023-03-05
得票数 -1
回答已采纳
1
回答
在openimaj中是否有OCRProcessor的具体实现?
、
我试图使用openimaj进行文本
提取
,并使用LiuSamarabanduTextExtractorBasic文本
提取
器子类。但是这个类需要一个OCRProcessor实现来完成实际的
OCR
。下面是javadoc对于
提取
以与文本区域的文本表示相关联的文本区域,必须使用
OCR
处理器。使用此函数可选择用于
提取
读取文本区域的
OCR
处理器。 我没有在
浏览 4
提问于2015-04-26
得票数 1
回答已采纳
1
回答
使信的边缘变薄,使之只保留
OCR
的信的中心
、
、
、
我正在努力提高复杂字母的识别率,例如
日文
/中文字母。 应该做什么样的图像处理才能使字母在左手边使字母在右边?这样的想法是保持字母的中心位置(我不知道如何称呼它),使字母变得更脆,因此
OCR
(如Tesseract)的识别率将得到提高。
浏览 4
提问于2016-11-29
得票数 1
回答已采纳
1
回答
OCR
表格识别是否支持Excel表格合并?
浏览 247
提问于2022-06-15
1
回答
从pdf图像文件中
提取
文本
、
、
、
我有一个图像文件,我想从给定的图像中
提取
文本,我尝试了各种
OCR
引擎,但我无法找到左侧实体和右侧实体之间的关系,因为
OCR
引擎只是
提取
没有实体之间关系的文本。例如事务(公司借款),account#1: Cash account#2: Loan payable 我尝试过使用各种
OCR
引擎和PyPDF2和pdftotext进行文本
提取
。
浏览 1
提问于2019-08-27
得票数 2
1
回答
执行
OCR
时出错- Microsoft Azure Computer Vision API
、
我正在使用Microsoft Azure Computer Vision进行
OCR
PDF
提取
。当我尝试执行
OCR
时,它给出的错误为 Read PDF With
OCR
: Error performing
OCR
: MicrosoftAzureComputerVisionErrorRunEngine
浏览 31
提问于2020-07-01
得票数 0
1
回答
使用python从PDF中
提取
扫描页面
、
我想要执行
OCR
并从这些文件中
提取
文本。我尝试过pytesseract,但它不直接对pdf文件执行
OCR
,因此,作为一项工作,我希望从PDF文件中
提取
images,将它们保存在目录中,然后直接在这些图像上使用pytesseract执行
OCR
。在python中有没有从pdf文件中
提取
扫描图像的方法?或者有任何方法可以直接对pdf文件执行
OCR
?
浏览 1
提问于2018-05-26
得票数 0
回答已采纳
3
回答
如何在日语窗口操作系统中编码日语文本?
、
、
、
我用Tesseract来读
日文
。我正在从
OCR
获得下面的文本。tesseract::TessBaseAPI *api = new tesseract::TessBaseAPI(); // Initialize tesseract-
ocr
浏览 0
提问于2018-07-24
得票数 0
回答已采纳
1
回答
PDFBox:区分透明文本和非透明文本
、
、
、
我有一个任务,在那里,我必须
提取
文本,是背后的图像,并已从图像本身
OCR
编辑。这一案文是透明的。问题是,有一个图像,它的背后有文字,不是
OCR
编辑的,它只是正常的文本,它是不透明的。这是一个具有代表性的pdf文件:图像
OCR
文本应该在第2页、第3页、第12页上
提取
,而文本也在第4页上
提取
。在第4页,图像后面没有
OCR
文本,但是图像下面有规则文本。我需要过滤掉它,因为我只需要
OCR
文本。
浏览 6
提问于2021-07-13
得票数 0
回答已采纳
1
回答
AWS对响应的文本块数量的限制?
、
、
尝试使用AWS执行DetectText,基本上是为
OCR
尝试,我只看到响应中包含了大约30%的文本,其余的文本被忽略了。有人知道在响应中返回的文本块总数有限制吗?有办法绕开吗?
浏览 2
提问于2018-06-12
得票数 1
回答已采纳
1
回答
HowTo从PDF中
提取
嵌入的光学字符识别数据?
、
、
、
我有嵌入
OCR
数据的PDF文件。(所以我已经对它们进行了orcd ),所以它们是可搜索的。现在我想
提取
这个
OCR
数据,因为我想放入我的tomcat6搜索服务器。为此,我需要普通的
OCR
数据。所以我的问题是,有没有可能从pdf文件中
提取
嵌入的
OCR
数据?如果能得到带有坐标的文件就好了。但它也足以获得纯文本文件。
浏览 2
提问于2011-03-02
得票数 2
2
回答
从PDF中
提取
文本,并将
提取
的文本保存在Excel或其他地方
、
我想要一个简单的方法,从pdf中
提取
文本,并将文本保存到Excel中。 谢谢!
浏览 16
提问于2020-07-13
得票数 0
1
回答
如何使用
OCR
从jpg文件中
提取
数值
、
、
、
我创建了以下代码并执行:
Ocr
ocr
= new
Ocr
();String s =
ocr
.recognize(theImage,
Ocr
.RECOGNIZE_TYPE_ALL,
Ocr
.OUTPUT_FORMAT_PLAINTEXT); Out
浏览 2
提问于2015-11-25
得票数 0
回答已采纳
1
回答
在AWS中存储和执行大文本搜索
、
、
、
我需要从S3中的PDF和图像文件中获取
OCR
(光学字符识别)数据,以便用户可以对这些
OCR
数据执行搜索。我正在使用AWS
提取
的文本
提取
来获取
OCR
数据。我计划将
OCR
数据存储在Dynamo中,并在其中执行搜索查询。请提前帮忙谢谢!
浏览 1
提问于2020-04-06
得票数 1
回答已采纳
1
回答
如何对中较大句子的一部分块进行分组?
、
我正在使用Google Cloud Vision API on Python来检测囤积板中通常在商店/商店上面发现的文本值。到目前为止,我已经能够检测到单个单词及其包围多边形的坐标。是否有方法根据检测到的单词的相对位置和大小对其进行分组?如果API没有提供这样的函数,那么对它们进行分组的好方法是什么?以下是我迄今为止所做的一幅图片的例子:description: "SHOP"
浏览 1
提问于2018-09-18
得票数 0
回答已采纳
1
回答
pdf的x,y窗口内的
OCR
、
我需要找到一个开放源码或基于linux的实用程序,它允许我在设置文件中设置x,y坐标。然后我想按顺序打开pdf,在文件中查找名字、姓氏和账号,并用由姓氏和文件号组成的文件名保存文件。
浏览 0
提问于2011-01-08
得票数 3
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
对象存储
云点播
实时音视频
活动推荐
运营活动
广告
关闭
领券