腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
我必须将
PDF
文件存储在Azure Blob存储到OCR并对其进行
索引
吗?
、
、
我正在测试Azure搜索,以
索引
我的网站进行搜索。在与
索引
PDF
文件相关的教程
中<
浏览 1
提问于2019-09-23
得票数 0
回答已采纳
1
回答
如何
利用Blob存储按需运行Azure搜索
、
、
我正在
使用
Azure搜索自动
索引
word文档,这些文档被上传到Blob存储。我
使用
搜索的唯一原因是
从
单词或
PDF
文档()中
提取
文本
--从那时起,我
从
索引
中
读取并删除它。问题是,搜索
索引
只能每5分钟运行一次--我需要它在blob上传后尽快运行。因此,我要么需要按需运行(每次添加新blob时触发),要么想出
如何
将Word/
PDF
文档插入
索引
浏览 1
提问于2018-07-16
得票数 0
回答已采纳
3
回答
C# PDFSharp:
如何
从
PDF
中
剥离
文本
的示例?
、
、
我有一个相当简单的任务:我需要读取一个
PDF
文件并写出它的图像内容,而忽略它的
文本
内容。所以基本上我需要做“另存为
文本
”的补充。下面是
如何
做到这一点的例子? 谢谢!
浏览 0
提问于2012-03-07
得票数 6
回答已采纳
1
回答
Elasticsearch
索引
像
pdf
文件这样的非结构化数据背后的原理是什么?
、
我读过elasticsearch 的全文搜索,但不能理解它用来
索引
pdf
文件的算法。
浏览 21
提问于2017-02-09
得票数 0
2
回答
Apache Tika诉Apache Lucene
、
使用
Apache,可以获得不同类型的不同文件的内容和元数据。 是否也可以用Tika获得文件关键字(即词干),或者我还需要Lucene吗?
浏览 5
提问于2017-10-10
得票数 3
回答已采纳
3
回答
asp.net c#
中
的
PDF
内容搜索
、
实际上,我的要求是
使用
pdf
内容搜索
pdf
文件。
如何
执行此任务?
浏览 1
提问于2013-11-07
得票数 1
2
回答
如何
使用
索引
从
PDF
中
提取
所有
文本
、
、
我正在尝试创建一个程序,它将OCR一个目录的
PDF
,然后
提取
文本
,以便我以后可以挑选出具体的东西。但是,我在让pdfPlumber
从
所有
页面中
提取
所有
文本
时遇到了问题。你可以
从
开始到结束建立
索引
,但是如果结束是未知的,它就会中断,因为
索引
超出了范围。'): pag
浏览 35
提问于2020-07-09
得票数 2
回答已采纳
1
回答
Nutch2.x:将信息从一个WebPage传递到另一个,以便用elasticsearch
索引
、
我正在
使用
Nutch2.x爬行一个域,其中每个html页面都有一个指向
pdf
文档的链接。 我想要做的是加入
从
html页面
提取
的数据和相应
pdf
文档的
文本
,并用elasticsearch对
所有
这些数据进行
索引
。当我通过访问相
浏览 0
提问于2018-06-06
得票数 0
回答已采纳
3
回答
摘录
PDF
格式的
文本
(字体大小、类型等)
、
、
、
是否可以
从
PDF
文件中
提取
有关特定字体/字体大小/字体颜色等的
文本
?我更喜欢Perl、python或*nix命令行实用程序。我的目标是
从
PDF
文件中
提取
所有
标题,这样我就有了一个包含在一个
PDF
文件
中
的文章
索引
。
浏览 8
提问于2013-10-15
得票数 4
回答已采纳
1
回答
如何
在MediaWiki网站上添加包含全文的
PDF
文件的引用
、
我有一个MediaWiki网站,有大约1000个额外的文件,是在网页目录是自动
索引
。我希望这些页面出现在MediaWiki
索引
中
。编写一个python程序,它
使用
mediaWiki API为每个项目创建一个mediawiki页面,并包含完整的元数据。然后,我可以
提取
文本
并将
提取
的
文本
放在页面上,以及MediaWiki预先格式化的
文本
。 然而,其中一些文档相当长,因此我认为另一种方法是
从
PDF
浏览 2
提问于2019-10-14
得票数 0
1
回答
用solr 6.4.1配置Tesseract
、
、
、
如何
使用
solr 6.4.1配置Tika OCR。我
索引
的文档包括
PDF
,图像和MS办公文档,但问题是,Tika没有
从
图像中
提取
文本
,也没有
从
PDF
和MS办公文档中
提取
文本
。为此,我研究了
使用
Tika OCR。为此,我正在安装tika-app-1.7.jar和Tesseract,但是我不知道
如何
用我的solr核心来配置它们。
浏览 4
提问于2017-03-25
得票数 2
回答已采纳
2
回答
如何
在
pdf
文件
中
搜索特定
文本
?
、
什么样的工具可以用来搜索
PDF
文件。(例如代数) 我们需要在Windows平台上搜索文件。
浏览 2
提问于2011-02-16
得票数 1
回答已采纳
3
回答
在Azure Blob存储中
使用
Azure搜索
PDF
、
应用程序将
PDF
文件存储在Azure Blob存储
中
,这是Azure搜索的数据源。其中大部分都很好,但是Indexer无法
从
几个
PDF
中
提取
文本
。有没有Azure搜索
索引
可以
提取
的特定类型的
PDF
?
浏览 1
提问于2018-01-27
得票数 1
回答已采纳
4
回答
PDF
-将单个单词拆分为单独的行- Python 3
、
、
、
我正在尝试将
PDF
中
的单词
提取
到单独的行
中
,但只能对
文本
文件执行此操作,如下所示。 此外,规则是我不能将
PDF
文件转换为TXT,然后执行此操作。必须对
PDF
文件执行此操作。我也需要对可搜索的
PDF
文件做同样的事情。任何帮助都将不胜感激。
浏览 66
提问于2019-12-06
得票数 0
回答已采纳
4
回答
如何
在lucene
中
索引
pdf
,ppt,xl文件(基于java或者python或者php都可以)?
、
、
我还想知道
如何
在
索引
时添加元数据,以便提高一些参数
浏览 1
提问于2010-04-06
得票数 4
回答已采纳
1
回答
试图了解当GlyphMapping表为Type0 MSGothic
Pdf
字体为空时
如何
正确地呈现文档
、
、
我正在处理一个
pdf
文档,该文档
中
似乎没有任何信息,但是Adobe应用程序正确地呈现了文档。我
使用
Pdf
调试器查看文档属性。希望有人能帮助我理解应用程序是
如何
呈现文档的。我的理解是,对于Type 0字体,映射数据必须存在于
pdf
中
,并且要显示的字符串被解释为代表CID的字节对。 (\201@\201\203\222\312\2
浏览 3
提问于2022-07-29
得票数 0
1
回答
使用
ElasticSearch / Symfony
从
pdf
文件
中
获取数据
、
、
、
、
实际上我正在
使用
Symfony并且我已经集成了ElasticSearch,我想从
Pdf
文件(姓名,年龄,地址)/或
文本
文件中
提取
数据,以便获得一个充满数据的表单,该怎么办?Ps:我已经配置了elastic.yml,我已经添加了
所有
的
索引
,当我访问了127.0.0.1:9200时,我成功地获得了我的对象(json格式),我想要的就是
如何
从
pdf
文件
中
读取并检索
所有
数据
浏览 1
提问于2019-02-07
得票数 0
2
回答
索引
安全
pdf
没有选择副本
、
、
、
、
我需要能够
索引
和搜索“安全的”
PDF
。这些
PDF
有"No Copy“属性被选中并被锁定。这意味着没有用户名和密码就无法复制
PDF
的内容。IFilter尊重这些设置,不允许对
PDF
进行
索引
。我正在寻找一种
使用
aspx.net在我的服务器上
索引
和搜索这些
PDF
的方法。似乎我被以下一项困住了: 我应该拥有打开这些
PDF
以获得对内容的“复制”访问所需的凭据。当为我的工具提交
PDF
时,需要提交两
浏览 5
提问于2012-10-02
得票数 1
回答已采纳
1
回答
如何
在弹性搜索
中
索引
文档?
、
我有几百万(
pdf
,docx,doc)文件,每个文件可能包含大约2-4页的
文本
。我可以
使用
elastic-search吗?它是可扩展的吗?在这种情况下,我应该
如何
索引
文档?我是否只是
从
pdf
文档中
提取
文本
并将其存储在json对象<e
浏览 11
提问于2021-06-05
得票数 1
1
回答
使用
WGET
从
索引
中
提取
所有
文件名
我在一所大学工作,我想
提取
我们
所有
PDF
目录的
所有
文件名,并制作一个
文本
文件。这些
PDF
都位于Intranet
索引
中
。WGET可以很好地处理内部网,我知道
如何
使用
它从这个
索引
下载一堆文件。但是,我正在对我们的目录进行审核,我需要每个目录的文件名--而不是实际的
PDF
文件,只有"UniOfState0708.
pdf
“。
所有
的
PDF
浏览 0
提问于2016-06-02
得票数 2
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
云直播
腾讯会议
实时音视频
活动推荐
运营活动
广告
关闭
领券