腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
Acrobat XI Pro喜欢
pdf
阅读器
、
、
我如何安装一个
PDF
阅读器,像“杂技XI专业”,让我突出文本,有
文字
识别
,让我组合和转换
PDF
格式和其他格式?
浏览 0
提问于2015-02-02
得票数 0
1
回答
查找没有文本的
PDF
、
、
我有很多文件夹与很多
PDF
,我想要光学字符
识别
那些没有
文字
层。所以首先,我想找到他们。我以为也许用pdfgrep的烟斗就能做好这份工作,但我迷路了。 如何找到没有文本的
PDF
?
浏览 0
提问于2021-01-15
得票数 5
回答已采纳
1
回答
如何使用Firebase ML工具包
识别
PDF
文件中的文本?
、
、
我正在开发一个Android应用程序来检测
PDF
文件中的文本。 所有都是一样的,
浏览 1
提问于2019-03-07
得票数 0
2
回答
可将OCR文本插入回源
PDF
的OCR库
、
是否有库(或可执行文件)可以OCR
PDF
(通常是通过扫描纸张创建的
PDF
),并将
识别
出的文本重新注入到
PDF
中?很可能是扫描图像背后的隐形
文字
。 最好是开源的。(目标:我有一个巨大的由Lucene索引的
PDF
文件库。如果
PDF
包含文本,Lucene将更容易找到哪些
PDF
是相关的。)
浏览 3
提问于2011-02-28
得票数 2
1
回答
PDF
生成器标识
、
、
识别
自动生成的
PDF
的生成器/检测模式的最佳方法是什么?我一直在使用Tabula和文本
分析
来提取文件
识别
后的数据,但我很难将文件分派到正确的解析器。显然,
PDF
没有关于作者的元数据,并且文件名可以更改,因此不是一个准确的身份
识别
来源。 谢谢,亚瑟
浏览 12
提问于2020-10-01
得票数 0
2
回答
如何一次运行支持多种语言的tesseract?
、
、
我必须
分析
一个包含英语和日语文本的图像。当我默认运行tesseract (-l eng)时,一些日语字符丢失。否则,如果我用日语(-l jpn)运行tesseract,一些英
文字
符会丢失(例如,电子邮件)。 如何运行既能
识别
英语字符又能
识别
日语字符的进程?
浏览 0
提问于2014-06-24
得票数 24
回答已采纳
1
回答
开发一款听觉训练软件,用什么工具好?
有一关关的题目,
文字
加上声音,让受试者回答问题。答对给奖励积分,可累积。有些问题需要语音回答,需要
识别
语音来判断正误。
浏览 304
提问于2018-09-10
1
回答
Azure数据工厂中FormRecognizer输出的转换
、
、
、
我希望提取
PDF
文件中的表,并将该数据插入输出接收器( CSV \ Azure SQL等)使用表单
识别
器通用文档
分析
自定义
pdf
文档,因为我只想刮表注意:我已经查过这篇文章了,
浏览 9
提问于2022-03-11
得票数 0
2
回答
除
PDF
以外的所有文件链接的JS RegEx
、
我正在尝试匹配HTML文档中包含特定文件夹链接的所有href属性,而不是
PDF
。我很难让它匹配,我有一个可以得到所有
PDF
的:但我排除
PDF
的尝试并没有让我走得太远。有没有办法做我想要的,或者我只是匹配所有的文件而不是使用条件语句来检查它是否是
PDF
?谢谢! 达伦
浏览 1
提问于2013-06-04
得票数 0
1
回答
antlr 2规则歧义
; 当词法
分析
器遇到浮点数时,c语言中的DECIMAL_LITERAL匹配整型
文字
,FLOATING_POINT_LITERAL匹配c language.But中的浮点型
文字
,例如3.44,3将匹配规则我该怎么做才能让它
识别
浮点型
文字
?
浏览 8
提问于2012-06-13
得票数 0
3
回答
在此基础上对图像进行
分析
和变换,以获得更好的OCR结果
、
我有一个OCR项目,但它只适用于图像,其中的
文字
是相当直,而不是倒置。(不是旋转文本),所以我想让OCR能够
识别
任何类型的图像,即使是颠倒的。但我不知道解决这个问题的方法是什么。我需要一些东西,比如
分析
字母行,但即使这样,我也不能
识别
行是否颠倒。
浏览 6
提问于2010-02-19
得票数 2
回答已采纳
1
回答
是否有任何不基于OCR的通用布局
分析
库或工具?
、
我正在寻找布局
分析
库或工具(最好是开源的),可以应用于文本
PDF
,以
识别
主要文本内容与侧栏,章节标题,章节标题(甚至可能是具有装饰/阴影和下划线的花哨的标题)等。我遇到了像OCRopus这样的工具,它们使用光学字符
识别
和图像
识别
来
识别
布局。有没有库可以在没有OCR的情况下做同样的事情?可以从文本
PDF
中提取文本和图像,并将包含文本和图像位置的输入提供给该工具;对于此类文件使用OCR将是相当繁琐的。
浏览 2
提问于2013-05-08
得票数 2
回答已采纳
1
回答
如何从带有pdfimages的简历中仅提取身份证照片
、
、
、
、
您好,我尝试使用pdfimages从我的
pdf
简历文件中提取ID图像。但是,对于某些文件,它们还会返回完全不相关的图标、表格线和边框图像。有没有什么办法我可以限制它只提取个人照片?
浏览 4
提问于2018-09-11
得票数 0
2
回答
柬埔寨字母表上的交货单
、
、
我得到了一个问题与Prestashop 1.7.4.2交货单,它不能
识别
高棉
文字
母。有谁可以帮助我用哪种字体来显示这些字母? 我已经在\override\classes\
pdf
\PDFGenerator.php中添加了支持的字体,但它不起作用。
浏览 1
提问于2020-06-10
得票数 2
1
回答
如何使用Java从
PDF
中的特定矩形区域提取数据?
、
我试图从
PDF
中给定的两个坐标指定的特定矩形区域中提取数据。是否可以在
PDF
中执行此操作,或者我是否必须将其转换为图像并使用OCR?如果有,PDFBox或iText是否包含通过光学字符
识别
来
分析
图像的方法?谢谢!
浏览 26
提问于2017-12-26
得票数 3
回答已采纳
1
回答
在做图像处理时,如何提高
识别
算法的设计与效果的精度?
浏览 203
提问于2022-08-30
回答已采纳
1
回答
我们应该使用什么python库来从
PDF
中提取包含复杂标题的表?
、
、
、
、
我尝试使用很多库来从
PDF
中提取表格,比如: camelot,tabula,PDFPlumber,PDFTabExtract…但是他们不会给出一个好的结果。使用camelot,我不能有一个适用于我
PDF
中所有页面的脚本。使用Tabula时,当表格有一个旋转的文本标题时,我得到了一个令人困惑的数据帧。有没有什么办法可以让我在
pdf
中转换任何不同格式的表格?我知道我找不到一个通用的解决方案,但至少能给出一个好的结果。 我应该使用OCR吗?你有什么推荐的? 我真的很感谢任何结果。提前谢谢你。 ?
浏览 13
提问于2019-06-10
得票数 0
1
回答
检测StegoPDF中隐藏消息的存在
、
、
我已经在
PDF
文档中应用了一种特殊的隐写方法。我试图找到这样一个免费的隐写
分析
工具,可以
识别
我的stegoPDF。换句话说,如果我的stegoPDF包含隐藏消息,有人能帮我找到一些免费的隐写
分析
软件吗? 我需要你的帮助和意见。
浏览 2
提问于2013-11-10
得票数 1
回答已采纳
4
回答
字符
识别
(OCR算法)
这一步骤是为了改进页面布局
分析
,提高下划线文本的
识别
质量,检测表格等(最终决定完成该部分)。
浏览 5
提问于2013-03-03
得票数 37
1
回答
net:我需要解析
pdf
文件才能得到每篇文章的标题?
、
、
、
、
我想
分析
pdf
文件,以便我可以
识别
每一篇文章的标题和它的description.so,我可以存储标题文本和描述文本在缓存中搜索purpose.is有没有库或工具为此?
浏览 3
提问于2009-06-29
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
怎么识别pdf中的文字?这有pdf的文字识别方法
pdf文字识别,教你一个提取pdf文字的方法
PDF文字识别软件哪个好?试试这些PDF识别软件吧
如何识别pdf中的文字,几步教你轻松识别
PDF文字识别怎么做?教你几分钟快速识别PDF文档
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
实时音视频
活动推荐
运营活动
广告
关闭
领券