腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(6952)
视频
沙龙
1
回答
使用Python PyPDF2从扫描的
pdf
(图像)中提取文本
、
、
、
我一直在尝试从扫描的
PDF
中提取文本(具有不可选文本的图像)。我想要的信息,包含日期,发票编号从
pdf
链接()。from PIL import Imagepage =
pdf
_reader.getPage
浏览 2
提问于2020-05-27
得票数 1
回答已采纳
1
回答
如何在Laravel中统计波斯语
pdf
?
、
、
、
、
客户上传他的源文件为
pdf
,在后端,字数的
pdf
应该由一个
OCR
来确定最终的价格,所以单词的计数是非常重要的。主要的问题是
OCR
的波斯
文字
有问题。你怎么能帮我解决这个问题?
浏览 0
提问于2019-12-03
得票数 0
回答已采纳
2
回答
为什么我用魔杖从
pdf
中提取图像jpg,它会在文本上变成黑色背景?
、
、
、
、
我对一些
pdf
文件有问题。我需要将它们转换为jpg图像,使它们可用于
OCR
,但当我转换其中的一些,魔杖
转
我的jpg在那里有一个黑色的背景文本。我看到这是一个关于空间颜色的常见问题。这似乎发生在word转换为
pdf
文件的文件中,其中空间颜色变成了CMYK。Tesseract
OCR
仅接受空间颜色RGB。我已经写了一个可以转换的python脚本,但我想解决这个问题。你能帮我一下吗?原页
pdf
? 已将
pdf
转换为jpg
浏览 51
提问于2019-04-22
得票数 1
回答已采纳
1
回答
在
PDF
中用python执行
OCR
有可能吗?
、
、
、
在
PDF
中用python执行
OCR
有可能吗?我正在尝试构建一个程序,从每一个
PDF
表格中提取一些信息,比如Autodesk BIM360所做的事情。
浏览 6
提问于2022-05-26
得票数 -2
2
回答
可将
OCR
文本插入回源
PDF
的
OCR
库
、
是否有库(或可执行文件)可以
OCR
PDF
(通常是通过扫描纸张创建的
PDF
),并将识别出的文本重新注入到
PDF
中?很可能是扫描图像背后的隐形
文字
。 最好是开源的。(目标:我有一个巨大的由Lucene索引的
PDF
文件库。如果
PDF
包含文本,Lucene将更容易找到哪些
PDF
是相关的。)
浏览 3
提问于2011-02-28
得票数 2
2
回答
LibreOffice中的光学字符识别
现在,我需要一个
OCR
将每个jpeg转换成文本,以便将这个表插入到excel文档中。 我使用LibreOffice和Ubuntu12.04。
浏览 0
提问于2013-07-03
得票数 3
2
回答
如何修复在Apache Tika for Python中解析的中文
PDF
以正确读取字符?
、
、
、
我有一个下载的
PDF
在中国,我想提取文本从使用提卡+ Python (原始链接到完整的
PDF
可以找到,或提取的样本页面可以找到)。当我运行以下代码时file_data = parser.from_fileÆ Éª £¬ £Ì £® £È £® 我创建
浏览 1
提问于2020-09-07
得票数 0
1
回答
使用xsane作为没有扫描器的
OCR
、
但是我想用它作为
OCR
工具。 如何抑制设备搜索?
浏览 0
提问于2015-07-03
得票数 1
1
回答
关于拆分
PDF
和
OCR
识别
、
、
、
我有很多
pdf
文档,它们都是扫描过的
文字
版本。我需要在
pdf
中拆分一个页面。 例如,如果有1个页面。我需要将一页分成页眉部分,页脚部分,主体部分和侧面部分。我知道Python的
PDF
和
OCR
库,但我找不到任何关于拆分单个页面的内容。 然后,最后希望将
pdf
页面的拆分部分传递给
OCR
,以识别字符并将输出转换为csv或文本文件。 提前感谢您……
浏览 18
提问于2021-04-20
得票数 0
回答已采纳
1
回答
如何判断
pdf
文件中隐藏的文本层是否来自
OCR
?
我见过一些
pdf
文件后,
OCR
有非常准确的文本(无论是在识别率,在文本对齐图像)。 如果
pdf
文件中隐藏的文本层是否来自
OCR
,那么Unix/Linux工具会帮助我知道什么呢?
浏览 0
提问于2014-12-07
得票数 2
1
回答
我如何从谷歌图书的全景式图书中获得所有纯文本?
、
还有一个选项可以看到一定数量的纯文本:当你看到一本旧书的页面图像时,如果你点击右上角的齿轮图标,然后点击下拉菜单中的“纯文本”,你就可以看到几页的
OCR
纯文本。但我想得到所有页面的纯文本。不幸的是,无法通过下载
PDF
并使用Select和Copy访问这些斜体。因此,我认为能够从谷歌图书中获得“纯文本”是很重要的。
浏览 0
提问于2017-11-06
得票数 4
1
回答
Applescript或Automator:运行Acrobat对
OCR
多个
PDF
文件进行批处理,更多
、
、
、
、
我使用ScanSnap S1500M将所有纸质文档扫描到/
PDF
-S1500M/-我想使用对文本进行
OCR
。我想(每天)自动化这个过程: 我应该用自动售货
浏览 5
提问于2011-08-18
得票数 1
回答已采纳
1
回答
帮助Canon CanoScan LiDE扫描
PDF
文档
、
、
、
当我使用Windows 7中的扫描仪,并将扫描过的书籍页保存为
PDF
格式时,我可以打开
PDF
扫描页面并直接从其中复制文本以粘贴到Google或任何LibreOffice文档。我通过简单的扫描将页面扫描为文本,并将其保存为
PDF
格式。但是在Ubuntu中,当我打开扫描的
PDF
页面时,它会打开OK,但是我不能复制文本。
浏览 0
提问于2014-03-16
得票数 2
回答已采纳
1
回答
PDFBox:区分透明文本和非透明文本
、
、
、
我有一个任务,在那里,我必须提取文本,是背后的图像,并已从图像本身
OCR
编辑。这一案文是透明的。问题是,有一个图像,它的背后有
文字
,不是
OCR
编辑的,它只是正常的文本,它是不透明的。这是一个具有代表性的
pdf
文件:图像
OCR
文本应该在第2页、第3页、第12页上提取,而文本也在第4页上提取。在第4页,图像后面没有
OCR
文本,但是图像下面有规则文本。我需要过滤掉它,因为我只需要
OCR
文本。
浏览 6
提问于2021-07-13
得票数 0
回答已采纳
2
回答
将图像转换为可搜索的
pdf
、
、
、
嗨,我正在寻找一个开源的java API,可以将tiff图像转换为可搜索的
pdf
(
OCR
)。我周围有研究,但到目前为止什么也没有发现。注意:,我看过这篇文章,但是这个API并没有将图像转换成
pdf
。然而,我仍然在玩一些代码。
浏览 6
提问于2012-02-01
得票数 5
4
回答
运行反引号/exec()时的PHP路径问题
、
、
即$f = `java -jar /
OCR
/
ocr
.jar /Folder/$path /
ocr
/output.txt`;java -jar /
OCR
/
ocr
.jar /Folder/Sub\ Folder/filetoocr.
pdf
/
浏览 1
提问于2010-04-15
得票数 0
1
回答
Kindle图书中静态大小的页面
、
我正在写一本有很多图表和很少
文字
的书。 我试过上传一个
PDF
,但看来Kindle试图
OCR
我的
PDF
,然后自动调整它的大小到设备上。
浏览 0
提问于2014-07-24
得票数 3
回答已采纳
2
回答
如何将
pdf
扫描图像转换为最适合
ocr
的高分辨率tiff?
、
、
我转换
pdf
到tiff图像与图像魔术,从500 to到4.6mb的文件大小。convert \pph-psd.tiffTiff图像: 为什么会发生这种情况,以及如何将
pdf
扫描图像转换为最适合
ocr
浏览 1
提问于2018-05-16
得票数 0
回答已采纳
1
回答
如何在PDFTextExtractor上使用iTextSharp
我想用iTextSharp从
pdf
文件中检索文本。但是,我无法像在itextsharp(itext)的JAVA中那样使用PDFTextExtractor。私有字符串readPDFOffline(string fileUri);检索此
Pdf
的文本内容;*返回contentOfflineFile
浏览 3
提问于2010-12-10
得票数 3
回答已采纳
1
回答
在修改和部署更新之后,查询非常缓慢。
查询 SELECT dv.id,dv.client_id,b.name block_name,dv.is_
ocr
_pending,dv.time,dv.label,dv.is_
pdf
_broken,dv.is_
pdf
_scan,dv.
ocr
_recall_id,dv.
ocr
_vatno,cv.name
ocr
_vatno_name,dv.
ocr
_vatno_country,dv.
ocr
_is_vatno_verified,dv.
ocr
浏览 0
提问于2019-01-06
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
PDF怎么用OCR来识别文字,这个人工智能OCR工具绝了
对PDF进行ocr文字识别怎么操作?扫描识别软件推荐
[windows] Umi-OCR 免费 · 离线 · 文字识别软件 支持PDF识别 开源
OCR-文字识别
OCR文字识别工具
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券