腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
在
PDF
中用python执行
OCR
有可能吗?
、
、
、
在
PDF
中用python执行
OCR
有可能吗?我正在尝试构建一个程序,从每一个
PDF
表格中提取一些信息,比如Autodesk BIM360所做的事情。
浏览 6
提问于2022-05-26
得票数 -2
1
回答
Applescript或Automator:运行Acrobat对
OCR
多个
PDF
文件进行批处理,更多
、
、
、
、
我使用ScanSnap S1500M将所有纸质
文档
扫描到/
PDF
-S1500M/-我想使用对文本进行
OCR
。我想(每天)自动化这个过程:
浏览 5
提问于2011-08-18
得票数 1
回答已采纳
1
回答
更新多个列,使其与另一列相等
、
我需要更新我的表,以使组Id等于原始
文档
。因此,如果所有
文档
属于同一组,则它们必须具有相同的统一标题。例如,
OCR
0000000006和
OCR
0000000008都有统一的标题06000146.
pdf
。94 06000847.
pdf
OCR
0000000004
OCR
0000000006 No 95 06000117.
pdf
OCR
000
浏览 0
提问于2014-03-22
得票数 0
2
回答
如何向只包含图像的
PDF
中添加文本?
、
我使用像富士通iX500 ScanSnap扫描仪这样的硬件解决方案进行实时扫描,同时使用Foxit PhantomPDF向
PDF
中的图像添加文本。这两种解决方案都带来了不错的
OCR
,但是也有一些缺陷,比如在非文本上出现错误,或者99%的文本在页面上被漏掉,因为页面的角落中有3-4个单词与页面上的所有其他文本一样,它们都是90度旋转的。最先进的
OCR
解决方案是将图像转换为可搜索的
PDF
,还是将(隐藏的)文本添加到仅包含图像的现有
PDF
中(添加搜索功能)?
浏览 0
提问于2018-05-25
得票数 0
1
回答
从
PDF
中获取树的文件(最好使用Python)
、
、
、
、
我想制作一系列文件,其中包含了这个
PDF
()中的树。文件的名称将是左边对应的树号(t0、t1等)。 我试图使用python提取相关信息和树,但我遇到了麻烦。我怎样才能从这个
PDF
中获取我想要的文件呢?能用Python完成吗?还有更简单的方法吗?或者,我获得
PDF
的网站()有另一种形式的树(例如: t27 S##1#l# NP#0#2#l#s NP#0#2#r#s VP##3#l# V##4#l#h V##4#r#h NP#1#5#l#s NP
浏览 0
提问于2018-09-20
得票数 0
回答已采纳
1
回答
如何使用Apache Tika Server从
PDF
中提取内联图像并将其保存为文件?
、
我在对http://localhost:9998/tika的PUT请求中使用了以下标头"X-Tika-OCRLanguage", "eng""X-Tika-PDFOcrStrategy", "no_
ocr
" 响应
浏览 48
提问于2021-06-02
得票数 0
2
回答
在WinForm中寻找
OCR
库
、
、
是否有任何免费/付费的
OCR
库能够捕获
PDF
格式的发票数据?需要有一个低的错误率。我们需要对这些数据进行进一步的处理。
浏览 0
提问于2019-06-10
得票数 1
1
回答
将xml
ocr
/文本信息从一个
pdf
导入/嵌入到另一个
pdf
、
我正在尝试优化图像扫描
pdf
的质量/文件大小,同时保持
ocr
质量。我可以尝试在高质量
pdf
文档
的
ocr
之后进行下采样,但与使用photoshop和导出较低dpi/优化的页面并使用这些页面创建
pdf
相比,我使用的工具(主要是acrobat)不会创建较小的文件大小。如果可能的话,一个更好的解决方案是获取一个已经
ocr
的image-
pdf
文档
(对于当前情况是800m),并将
ocr
层应用于较低rez下采样
浏览 3
提问于2012-07-16
得票数 1
2
回答
OCR
将覆盖HTML传输到图像?
、
我要找一个
OCR
软件,渲染覆盖HTML到一个图像。我目前正在使用一些未命名的产品。它有一个
OCR
功能,可以对带有图像的
PDF
文档
进行内联
OCR
。内联
OCR
非常方便,它允许搜索带有图像的
PDF
文档
中的文本。也可以直接在
文档
中突出显示文本,
OCR
文本与底层图像对齐。不幸的是,我无法从未命名的产品中导出或存储内联
OCR
。有没有其他软件可以执行和导出在线
OCR
?我特别感兴趣的是导出到HTM
浏览 3
提问于2013-05-13
得票数 5
3
回答
将
pdf
的内容读取为字符串
、
、
如何将
PDF
的内容以字符串的形式快速读取。我想稍后过滤这个字符串并从中获取特定的文本元素。
PDF
来自一个url,我将它加载到一个web视图中并使用NSURL扩展来缓存它。var urlAsString = String(contentsOfURL: NSURL(string: "http://web.shschools.org/shpid/pdfs/WXS5N48Z.
pdf
, encoding: NSUTF8StringEncoding, error: nil) 但是,我认为这是无
浏览 14
提问于2015-08-02
得票数 0
回答已采纳
1
回答
带有图像的
PDF
文件的
OCR
、
、
我让Tika在
PDF
文件上使用Tesseract,但是如果我给它一个同时具有可搜索文本和图像的
PDF
文件,文本是OCRed两次。有什么办法可以避免这种情况吗?
浏览 4
提问于2020-12-31
得票数 1
回答已采纳
1
回答
将扫描的
pdf
转换为R中可搜索的
pdf
、
我有一个
pdf
,大约50页扫描表。我需要最终把它刮到R中,这样我就可以清理数据并将其导出为.csv。环顾在线,我所能得到的最远就是将扫描的
pdf
作为一个字符对象读取到R中,但这会使格式发生很大的变化,因此表中的列都错对齐了,并出现了无序。有没有一种方法可以将扫描的
pdf
转换成可读的
pdf
,这样我就可以在tabulizer中抓取它了?还是另一种将扫描的pdfs抓取到表中的方法?
浏览 5
提问于2022-11-16
得票数 0
2
回答
为什么我用魔杖从
pdf
中提取图像jpg,它会在文本上变成黑色背景?
、
、
、
、
我对一些
pdf
文件有问题。我需要将它们转换为jpg图像,使它们可用于
OCR
,但当我转换其中的一些,魔杖
转
我的jpg在那里有一个黑色的背景文本。我看到这是一个关于空间颜色的常见问题。这似乎发生在word转换为
pdf
文件的文件中,其中空间颜色变成了CMYK。Tesseract
OCR
仅接受空间颜色RGB。我已经写了一个可以转换的python脚本,但我想解决这个问题。你能帮我一下吗?原页
pdf
? 已将
pdf
转换为jpg
浏览 51
提问于2019-04-22
得票数 1
回答已采纳
2
回答
是否有将我的图像/
文档
标准化为
PDF
的.NET库?
、
、
我需要能够导入和处理各种不同的图像和
文档
。我需要一个工具或库,将摄取该文件和执行
OCR
,如果必要,但保存作为一个标准化的
PDF
文件存档的目的(
PDF
/A)。是否有一个工具或.NET库可以实现这一点?如果
文档
已经可搜索,则不应再次使用
OCR
。
浏览 0
提问于2021-02-22
得票数 2
1
回答
使用python从
PDF
中提取扫描页面
、
我有很多
PDF
文件,基本上是扫描
文档
,所以每一页都是一个扫描图像。我想要执行
OCR
并从这些文件中提取文本。我尝试过pytesseract,但它不直接对
pdf
文件执行
OCR
,因此,作为一项工作,我希望从
PDF
文件中提取images,将它们保存在目录中,然后直接在这些图像上使用pytesseract执行
OCR
。在python中有没有从
pdf
文件中提取扫描图像的方法?或者有任何方法可以直接对
pdf
文件执行
OCR
?
浏览 1
提问于2018-05-26
得票数 0
回答已采纳
1
回答
如何将jpg文件目录转换为以文件名为书签的
pdf
?
、
、
如何将它们转换为一个将文件名作为书签的
pdf
文件? (我最终也想加入
ocr
。如前所述,我们可以使用.jpg将.
pdf
文件转换为img2
pdf
.jp --output combined.
pdf
,然后可以使用ocrmypdf combined.
pdf
combined_
ocr
.
pdf
添加
ocr
。我的问题主要是如何确保
pdf
文件有书签(由文件名创建),以便
文档
易于浏览。
浏览 0
提问于2021-09-23
得票数 0
1
回答
关于一个好的自由软件/网站将
pdf
转换为EPUB的建议
、
我发现,当我将一个包含大量文本的
pdf
文件转换成EPUB格式(例如书籍)时,它们会在同一句话之间被分割成段落,我使用过-量程,Toepub.com和许多在大坏网站上可以找到的网站;-)。
浏览 0
提问于2019-11-14
得票数 0
1
回答
识别
pdf
类型
、
Apache Tika中有没有检查
pdf
类型的选项:原生
pdf
(纯)或扫描
pdf
? 如果没有,也许我可以在Tika使用的tesseract中检查它。
浏览 28
提问于2020-09-23
得票数 0
1
回答
如何下载谷歌扫描的.
pdf
OCRed?
、
我有一个电子邮件与扫描的.
pdf
附加在我的Gmail帐户。当我点击“查看”,我看到谷歌有OCRed它。当我单击“下载”时,
PDF
是原始的,即不包含OCRed。如何通过谷歌下载内容为.
pdf
的OCRed文件?
浏览 0
提问于2012-11-26
得票数 2
2
回答
LibreOffice中的光学字符识别
现在,我需要一个
OCR
将每个jpeg转换成文本,以便将这个表插入到excel
文档
中。 我使用LibreOffice和Ubuntu12.04。
浏览 0
提问于2013-07-03
得票数 3
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
PDF转Word文档怎么转?
pdf转图片怎么转?文档格式编辑!
pdf转word文档,这些pdf转word方法超好用
怎么把pdf改成word文档?pdf转word文档方法分享
PDF文档可以转Excel吗?
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券