我需要导入维基百科转储(mysql表,解压的文件需要大约50 to )到Hadoop(hbase)。现在,我首先将dump加载到mysql中,然后将数据从mysql传输到hadoop。但是将数据加载到mysql需要大量的时间--大约4-7天。是否可以将mysql转储直接加载到hadoop中(通过转储文件解析器或其他类似工具)?
我是HBase的新手。我知道HBase并不等同于关系数据库管理系统。但是,我喜欢在HBase中运行简单的查询,这在关系数据库管理系统中非常简单。我尝试使用扫描和过滤器,但我不知道如何通过使用值得到列。
考虑一下这个简单的MySQL查询:"SELECT username FROM members WHERE email = myname@domain.com“
在HBase中,我有一个表名: members。我有两个专栏:用户名和电子邮件。
现在,我想提取用户名,其中电子邮件等于myname@domain.com。
在指定列族和限定符时,我发现了许多可以提取值的示例。但我的情况不