我正在尝试使用python的MapReduce包编写一个MRJob作业。该作业处理存储在S3中的36,000个文件。每个文件为~2MB。当我在本地运行作业(将S3桶下载到我的计算机)时,运行大约需要1小时。然而,当我尝试在EMR上运行它时,它需要更长的时间(我在8小时内停止了它,在映射器中它已经完成了10% )。下面我已经为我的mapper_init和映射程序附加了代码。有人知道什么会导致这样的问题吗?有人知道怎么修吗?我还应该注意,当我将输入限制在100个文件的样本上时,它可以正常工作。 """
Set c