我有很多运行网络测试的文本报告和日志文件。我想将这些报告和日志存储在一个数据存储中,在那里我可以解析它们并根据解析的数据运行报告。我还希望这个系统是可扩展的,无论是它接受的报告和日志的类型,还是它可以用于的数据和查询/报告的数量。
一位同事建议Hadoop可以满足这一需求,我所在组织的另一个团队表示,他们将Cassandra用于类似的项目(但有更多的数据,其中大部分是机器生成的)。我一直在阅读关于Hadoop and Cassandra的文章,我真的不确定使用这样的东西是不是有点过分,也不确定为每种日志/报告类型使用自定义解析器的关系数据库是否更合理。
根据我对Hadoop的理解,无论如何我都
我有一个mapreduce应用程序,它接受一个HBase源数据,并将其映射为另一个HBase表,所有这些都是用Java.When编写的,我使用
hadoop jar myhbase.jar
它以NullpointerException结尾,如下所示:
14/01/31 11:07:02 INFO zookeeper.ClientCnxn: Socket connection established to 127.0.0.1/127.0.0.1:2181, initiating session
14/01/31 11:07:02 INFO zookeeper.ClientCnxn: Sessi