我有一个大约13 of大小的大文本文件。我想使用Hadoop处理文件。我知道hadoop使用FileInputFormat来创建分配给映射任务的InputSplits。我的意思是,它是按顺序读取单个主机上的大型文本文件,然后创建拆分的文件,然后分发给datanodes,还是并行读取块(例如50 in )?hadoop是否在多个主机上复制大文件,然后再将其拆分?对于映射器任务的适当拆分大小存在许多问题,但并不是精确的拆分过程本身。
谢谢
我一直试图加载数据文件(csv)到matlab 64位运行在win7(64位),但得到内存相关的错误。文件大小约为3 GB,第一列包含日期( dd/mm/yyyy hh:mm:ss),另外两列包含出价和要价。memory命令返回以下内容: Memory available for all arrays: 19629 MB (2.058e+010 bytes) *
Memory used by MATLAB: 5