腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
tika
:
禁止
查看
zip
文件
内部
java
、
apache-tika
目前,
tika
正在处理
zip
文件
,
查看
其中的内容。 MediaType mediaType = detector.detect(TikaInputStream.get(is), metadata);此代码返回压缩的mime类型
文件
浏览 13
提问于2018-08-23
得票数 0
1
回答
如何从
zip
归档中的内容中检测
文件
类型?
java
、
gzip
、
apache-tika
、
ziparchive
、
zipinputstream
我有一个包含几个gzip
文件
的
zip
归档
文件
。但是gzip
文件
的扩展名也是.
zip
。我使用ZipInputStream遍历
zip
存档。如何通过读取
内部
文件
的内容而不是扩展名来检测
内部
文件
的类型。所以我需要; 使用inputStream (在我的例子中是ZipInputStream)读取压缩
文件
,因为在
zip
中进行压缩是可能的。从其内容中查找
文件
类型。在从其内容中查
浏览 4
提问于2021-02-19
得票数 0
1
回答
使用
Tika
jars的Mimetype检查
java
、
apache-poi
、
apache-tika
我正在尝试使用
Tika
Jars确定
文件
附件mimetype。我正在使用
Tika
1.4 Jar
文件
。我构建了jar
文件
并从命令中运行,给出了错误的mimetype.------------File Attachment: Testpdf.d
浏览 10
提问于2014-03-06
得票数 5
回答已采纳
2
回答
Java -区分
ZIP
文件
和CSV
文件
java
我使用的是一个text服务,它总是向我发送一个纯文本
文件
。但是,该
文件
既可以是
zip
,也可以是csv,但事先没有通知我它的类型。 当然,是否有一种方法可以以编程的方式
查看
文件
类型。我已经想过要在
文件
内容中查找很多逗号,但这似乎不准确。
浏览 4
提问于2016-12-01
得票数 1
回答已采纳
1
回答
如何在NodeJs中将
文件
放入
Tika
-server
node.js
、
pdf
、
curl
、
axios
、
tika-server
场景 我正在运行VueJs客户端、NodeJs Restify API和之外的
Tika
服务器。用户使用包含要解析的PDF
文件
的formData进行formData调用。API服务器应该将
文件
放到
Tika
服务器上的unpack/all端点,并接收包含文本
文件
、元数据
文件
和PDF中的图像集的
zip
。然后,我将处理
zip
并将一些数据传回客户端。当我从
Tika
服务器获得响应时,
Tika
服务器似乎将请求视为空;在<e
浏览 5
提问于2021-06-04
得票数 0
2
回答
当两个服务器都安装在一个服务器上时,如何通过PHP使用
Tika
?
php
、
apache-tika
我需要一个
内部
网站,允许用户上传.doc,.pdf,.xls
文件
,并
查看
文本框中的文本。 我在PHP中创建了这个站点,用户可以上传这些
文件
。我已经在我的服务器上安装了
Tika
,在命令行可以输入java -jar
tika
-app-1.10-SNAPSHOT.jar -m manu.pdf > output.txt,它成功地在输出
文件
中创建了我需要的文本从PHP中调用
Tika
的最佳方法是将上传的
文件
的纯文本输入PHP?四处搜寻
浏览 0
提问于2015-06-04
得票数 5
回答已采纳
1
回答
tika
PackageParser不适用于目录。
apache-tika
我正在编写一个类来递归地从
zip
文件
中提取
文件
,并将它们生成到Kafka队列中以供进一步处理。我的意图是能够从多个级别的
zip
中提取
文件
。;import org.apache.
tika
.io.TikaInputStream; import org.apache.
tika
.metadata.Metadata上工作,只要
zip
中的
文件</
浏览 1
提问于2015-02-02
得票数 0
回答已采纳
4
回答
使用Apache获取MimeType子类型
java
、
mime-types
、
detection
、
apache-tika
对于odt、ppt、pptx、xlsx等文档,我需要获取应用程序MediaType,而不是应用程序/
zip
或应用程序/x-
tika
-msoffice。如果您
查看
mimetypes.xml,就会发现mimeType元素由iana.org mime类型和"sub-class- of“组成 <mime-type type="application/mswordjava.lang.AssertionError: expected:<vnd.openxmlformats-office
浏览 0
提问于2011-08-21
得票数 14
回答已采纳
1
回答
将
zip
文件
处理为Solr
solr
、
apache-tika
我必须处理
zip
文件
,其中包含多个
zip
文件
,这些
zip
文件
有xml和图像
文件
。我必须将数据索引到solr中,它应该将结果作为XML数据的内容。我尝试了默认的solr-
Tika
示例,当我查询它时,它只返回
zip
文件
名。我将如何实现这一点?
Tika
是满足我需求的唯一方式吗? 提前谢谢。
浏览 0
提问于2014-01-12
得票数 0
2
回答
在JAVA中上载APK
文件
的内容类型检查
java
、
spring
、
spring-mvc
如何检查用户是否真的在java中上传APK
文件
。if(apkFile.getContentType().equals("application/vnd.android.package-archive
浏览 2
提问于2017-12-05
得票数 0
回答已采纳
3
回答
如何检查
文件
是否在R中压缩
r
在R中,确定
文件
是否压缩的最佳方法是什么?有没有什么特殊的函数来检查它?我问的是一些不同于
查看
文件
扩展名的事情。.*(.gz|.bz2|.tar|.
zip
|.tgz|.gzip|.7z)[[:space:]]*$", filename)
浏览 1
提问于2015-04-07
得票数 6
3
回答
如何从
文件
中准确地确定mime数据?
java
、
mime-types
、
file-type
我正在给程序添加一些功能,这样我就可以通过读取MIME数据来准确地确定
文件
类型。中
文件
类型的数量有限。我看了看,有些人说这是因为在
文件
中检测偏移量的方式,所以内容类型被错误地提取,就像在PHP中检测
文件
类型的中指出的那样。不幸的是,wiki继续使用扩展名来确定
文件
类型,这不是我想要做的,因为它不可靠。干杯阿列克谢·布鲁。我认为我最好的办法是尝试将
文件
传递给excel
文件
阅读器,并捕
浏览 1
提问于2011-12-13
得票数 14
回答已采纳
1
回答
为什么Apache将jar
文件
的mimetype检测为application/
zip
而不是application/java存档?
java
、
jar
、
mime-types
、
apache-tika
我正在尝试检测jar
文件
代码的mime类型,但是问题是Apache
Tika
返回application/
zip
而不是java Jar
文件
的application/java-archive。我从html上传了Jar
文件
{ try{ mimeType =
tika
.dete
浏览 2
提问于2020-06-01
得票数 0
回答已采纳
1
回答
Apache
Tika
1.7:解析
zip
归档中的
文件
java
、
scala
、
apache-tika
使用Apache
Tika
1.7,我如何递归解析
zip
存档中的
文件
,直到达到某些递归限制? 递归部分很重要,因为一个
zip
归档可能包含另一个
zip
归档。我假设可以使用新的RecursiveParserWrapper完成这项工作,但我在网上找不到任何示例-Jukka的示例使用与
Tika
1.7提供的接口不同的接口
浏览 24
提问于2015-01-23
得票数 1
1
回答
无法使用Apache读取zipfile
java
、
zip
、
apache-tika
我使用Apache 1.5解析
zip
文件
中的内容, Parser parser = new AutoDetectParser(); ParseContext context
浏览 2
提问于2014-06-30
得票数 1
回答已采纳
1
回答
如何使用Solr配置在
Tika
中禁用(或增加限制)
Zip
炸弹检测?
solr
、
apache-tika
我听到一些“检测到
Zip
炸弹!”我们的一些大的HTML
文件
(之前从PDF转换而来)的例外,这些
文件
是合法的
文件
,同时试图用Solr对它们进行索引。Solr文档指出可以为它提供一个
Tika
配置
文件
,但是我在
Tika
文档中找不到如何设置SecureContentHandler的输出阈值,或者用另一个不能防止
zip
炸弹的处理程序替换这个处理程序…… 如何在
Tika
配置
文件
中指定这样的更改?
浏览 6
提问于2016-09-22
得票数 0
1
回答
使用
Tika
提取包组件
文件
的元数据
metadata
、
apache-tika
、
text-extraction
我试图在命令行使用
Tika
提取包组件
文件
的元数据,但我似乎只能让它输出包含包
文件
的元数据。示例: test_file.
zip
包含两个
文件
: test1.doc和test2.doc。我试着运行这个:但这只输出了test_files.
zip
的Content-Length、Content-Type我还尝试运行以下代码: java -jar
tika
-
浏览 2
提问于2014-05-20
得票数 0
1
回答
关于从上传的文档中提取文本的建议
sql
、
apache-poi
、
text-extraction
目前,我每天都有一些文档上传到我的网站上(.doc,.docx,.odt,pdf),这些文档存储在sql数据库(mediumblob)中。我正在寻找自动化这个“剪切和粘贴”的过程-格式化并不是一个真正的问题,只要我可以提取文本-并希望一些人可能能够建议一个好的路线下?我一直在研究Apache POI,以期在上传时提取文本,但我不禁认为,考虑到我相对简单的需求,这可能有点过头了。 考虑到我遇到的各种文档格式和当前在blob字段中
浏览 0
提问于2012-04-20
得票数 0
回答已采纳
1
回答
是否有一种方法可以关闭在
tika
-服务器中的嵌入式文档的解析?
apache-tika
、
tika-server
我运行一个未经修改的Apache服务器1.22的JAX-RS实例,并将它用作HTTP端点服务,我将
文件
(主要是Office、PDF和RTF)发送给它,并从我们的应用程序(使用Accept="text/plain从
Tika
1.15开始,默认的行为现在是“提取所有嵌入的文档”。 我希望能够在我们的
tika
服务器上关闭这种行为,这样嵌入的文档就不会被提取,我只能得到主要文档内容的文本呈现。是否可以通过
tika
-config.xml
文件
执行此操作,或者是否需要执行自定义构建和子类Embedd
浏览 0
提问于2019-10-10
得票数 3
回答已采纳
点击加载更多
相关
资讯
如何禁止其他用户查看自己的用户文件夹
Apache Tika关键漏洞影响比预想更严重且涉及组件更广
你必须要学会的 10 个 PPT 技巧!(Mac版)中
十款超好用的文件加密软件分享!企业办公文件防泄密的最佳选择!
DCommander for Mac(双窗格文件资源管理器)v3.9.0免激活版
热门
标签
更多标签
云服务器
对象存储
ICP备案
云点播
语音识别
活动推荐
运营活动
广告
关闭
领券