我在hadoop的hdfs中存储了数百万张图像。我想为这些图像建立一个索引。如何获取这些图像的像素RGB值?我是hadoop的新手,hadoop中的图像格式与原始图像的二进制格式不同。另一个问题是,为了提高效率,我是否应该使用hadoop中的序列文件将巨大的图像打包到一个大文件中?非常感谢。
发布于 2012-07-06 17:04:08
我可以部分回答这个问题。
的另一个问题是,为了提高效率,我应该使用hadoop中的序列文件将巨大的图像打包成一个大文件吗?
取决于单个文件的大小。如果单个文件真的很大,那么合并它们可能没有真正的帮助,反之亦然。
有关更多详细信息,请查看此query。
发布于 2012-07-07 00:51:07
如果你有额外的存储空间,而且效率对你来说很重要,我肯定会选择SequenceFile。Hadoop将为您处理文件拆分。我们遇到了一个案例,我们正在从图像文件中提取数据,类似于您正在做的事情。在我们的例子中,我们在发现系统中提取要摄取的元数据,以便可以在集群外部搜索我们的图像文件。在这种情况下,因为效率对我们来说不是什么大问题,所以我们只需要单独处理文件,确保它们不可拆分。这样,另一个系统就可以通过http返回以获取源文件。
https://stackoverflow.com/questions/11355610
复制相似问题