腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如何
从
Tika
中
删除
NLP
?
有没有办法轻松地把它拿出来,让我的
Tika
变得更轻?
浏览 22
提问于2018-03-02
得票数 0
2
回答
OpenNLP SentenceDetector无法识别整个句子
、
、
、
我正在做一个研究项目,我需要一个
NLP
程序来检测许多不同情况下的句子。有人建议我使用OpenNLP,在阅读了它的维基页面后,我被说服使用它。我想检测每个文件
中
的句子,如果它们包含任何文本。因此,我开始将每个可能包含文本的文件转换为.txt文件。转换过程并不完美。
浏览 0
提问于2014-05-29
得票数 1
1
回答
以多种常见文档格式提供纯文本访问/迭代的库?
、
、
、
、
我有兴趣找到一个用于
NLP
/文本处理的库,它提供了一个用于以最常见的文本格式访问文本的通用接口: 注意到歧义,如行尾连字符,句号可以是首字母
浏览 2
提问于2012-12-02
得票数 0
回答已采纳
1
回答
Apache
Tika
无法解析HDFS文件
、
、
、
我正在使用
Tika
库来解析存储在Hadoop集群
中
的文档。我使用的代码如下:import urllib3在linux上,如果我给出一个本地路径,
tika
可以解析,但是对于hdfs路径,我得到一个 Spark I/O error:
浏览 0
提问于2018-03-13
得票数 1
1
回答
如何
在k8s集群
中
配置
tika
服务
、
我们使用
tika
从
许多文档中提取文本,为此我们需要提供
tika
服务自定义配置文件(xml)。而在码头,你可以这样做,就像它出现在我不知道
如何
在k8s部署
中
实现相同
浏览 14
提问于2022-06-23
得票数 0
1
回答
在Java
中
获取正确的MIME文件类型
、
但是,在我的示例
中
,如果
删除
文件类型,则函数将返回文件类型"null“。如果我附加了正确的扩展名,那么我得到的类型是"image/jpeg“。在这种情况下,我故意
从
文件“Nature.jpg”
中
删除
扩展名:使用org.apache.
tika
更新 (v2.4)String myType=
tika
.detect(filePath
浏览 8
提问于2022-06-22
得票数 1
2
回答
Apache
Tika
诉Apache Lucene
、
是否也可以用
Tika
获得文件关键字(即词干),或者我还需要Lucene吗?
浏览 5
提问于2017-10-10
得票数 3
回答已采纳
1
回答
Apache
Tika
服务器:
从
office文档
中
获取宏?
、
我使用Apache
Tika
作为服务来分析Python
中
的Office文档,如下所示: url = 'http://{0}:{1}/rmeta/xml'res = requests.put(url, data=dat).json() 如果文档包含宏,我想从文档中提取宏的内容,但不知道
如何
做到这一点。Apache
Tika
文档并没有那么好。有没有我需要用来让
Tika
服务器返回宏内容以及文档
浏览 38
提问于2020-04-13
得票数 0
回答已采纳
2
回答
不从远程索引或提取文档(.pdf .doc)
、
、
PRO_ID = 256 // commit to the index但是,我面临着使用相同代码
从
远程提取或索引文档的问题:57) at org.apache.
tika
.parser.CompositeParser.parse(CompositeParser.jav
浏览 6
提问于2011-05-05
得票数 2
回答已采纳
1
回答
Tika
服务器-没有书签和图像标签的分析
、
我正在用
tika
server v1.20提取文本。天才大脑
如何
学习大卫A.苏萨形象:天才大脑
如何
学习欢迎来到我们第三次家庭之门研究。复制:java -jar
tika
-server-1.20.jar -p 5000将文件附加为二进制文件和content-type\]
删除</e
浏览 3
提问于2019-10-03
得票数 1
回答已采纳
2
回答
在同一个项目中使用
TIKA
和POI而不涉及版本问题?
、
、
、
、
我有一个要求生成报告作为xls,但我已经在我的项目中的
TIKA
。现在
TIKA
确实包含了POI,这里让我担心的是
TIKA
1.2 (我目前正在使用)包含了POI 3.8的beta版本。我预见有一天,我必须更新POI或
TIKA
,因为一个错误修复,而另一个保持原样。有人对这种情况有经验吗?这是现实
中
的一个问题,还是我应该只使用
TIKA
附带的POI版本呢?
浏览 6
提问于2012-08-24
得票数 0
回答已采纳
1
回答
Apache
Tika
服务器-请求标头参数?
、
Apache
Tika
Server提供了一个Rest API来
从
文档中提取文本。还可以设置特定的请求头参数,如X-
Tika
-PDFOcrStrategy。例如:
从
大量关于
tika
的不同文档
中
,
浏览 35
提问于2020-05-26
得票数 2
回答已采纳
1
回答
TikaApp JAR类
我正在使用Apache
Tika
1.4
从
我的文档中提取内容。但它也附带了org.bouncyCast.*类,我使用的是另一个版本的bouncycastle,它与
Tika
包冲突。如果
Tika
使用的是bouncycastle (bcprov) jar,我可以
从
Maven.Using exclusion标签中排除它,但是TikaApp已经将org.bouncycastle类复制到其中有没有一些方法可以在不重新编译或分支Apache
Tika
的情况下
删除
这个包,并设置为使用另
浏览 1
提问于2014-01-30
得票数 0
1
回答
Java RTF可以导入、编辑和导出吗?
、
、
、
、
我使用Apache
Tika
解析RTF文件,以获得字符串形式的明文。现在我想从这个字符串
中
删除
一些字符,->,ok。现在,我想再次将结果保存为RTF。(您可以将此过程视为通过
删除
段落来修改RTF文件。)这怎麽可能?
如何
使用
Tika
将此字符串导出为RTF?
浏览 1
提问于2012-04-25
得票数 4
1
回答
tika
默认检测器对于不同应用程序
中
的相同代码是不同的
、
我正在进行的项目有一个使用
Tika
的WebUI (WAR)和另一个也使用
Tika
的应用程序(JAR)。我使用了上的
Tika
故障排除提示
Tika
version: Apache
Tika
1.22
Tika
detector type org.apache.
tika
.detect.OverrideDetector
Tika
detector type org.apache.
tika
.parser.
浏览 1
提问于2019-11-15
得票数 1
1
回答
使用
Tika
从
.tex文件中提取文本
、
、
如何
使用Apache
Tika
从
.tex文件中提取文本?上有一个示例文件java -jar
tika
-app-0.9.jar -t EulerGibbsDuhem.texFile file = new File(fileName);
Tika
tika
= new
Tika
(); String mimeType
浏览 2
提问于2011-03-15
得票数 1
回答已采纳
1
回答
从
阿帕奇·蒂卡开始吗?
、
、
、
我想编写一个使用Apache
Tika
下载网页文本内容的Java web爬虫,但我是使用Apache项目的新手,而且我还没有找到明确的源代码来明确
如何
将
Tika
集成到程序
中
。根据我
从
互联网上收集到的信息,我已经在命令行中使用Maven构建了
Tika
,但是我不知道
从
哪里开始使用
Tika
类(?)比如我的Java程序
中
的Parser等等。我使用的是Eclipse,如果这有区别的话--我还为Eclipse安装了Maven插件,但我不太清楚<e
浏览 3
提问于2013-07-23
得票数 1
回答已采纳
1
回答
阿拉伯PDF的Solr
、
、
、
、
我试图在Apache
中
搜索阿拉伯PDF。问题似乎是
Tika
用相反的顺序索引PDF (从左到右),而不是(从右到左)。我在这里找到了有关这个问题的参考资料: 请解释,因为我以前没有使用Java的经验。谢谢!
浏览 5
提问于2012-11-27
得票数 6
1
回答
用solr 6.4.1配置Tesseract
、
、
、
如何
使用solr 6.4.1配置
Tika
OCR。我索引的文档包括PDF,图像和MS办公文档,但问题是,
Tika
没有
从
图像中提取文本,也没有
从
PDF和MS办公文档中提取文本。为此,我研究了使用
Tika
OCR。为此,我正在安装
tika
-app-1.7.jar和Tesseract,但是我不知道
如何
用我的solr核心来配置它们。
浏览 4
提问于2017-03-25
得票数 2
回答已采纳
2
回答
如何
将环境变量设置为本地主机?
、
、
、
、
我试图使用的提到了以下内容:
TIKA
_SERVER_ENDPOINT=http://localhost:9998 但这只是导致了一个404,与Network Error (dns_unresolved_hostnamecannot
浏览 4
提问于2017-06-22
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
如何使用 Python从Redis 中删除 4000万 KEY
如何使用Python从列表中删除指定的元素
如何有效地从AI训练模型中删除记录?
NLP提升篇之从海量文本中抽取主题
Instagram 从主流中删除购物标签
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券