我的公司属于物联网行业。我负责的结构(数据流)是EMQTT=> kafka=> hbase=> phoenix=> spring cloud rest=> HTML view。现在的问题是其他非行键字段查询HBase的速度非常慢,所以我想实现HBase +弹性搜索来实现多条件的快速查询,但最大的障碍是HBase中的数据和弹性搜索中的数据如何一致。一步?(事务?)它需要是实时的。
如果我正确理解Hadoop生态系统,我可以从HDFS或HBase运行我的HBase作业源数据。假设前面的假设是正确的,我为什么要选择一个而另一个呢?使用HBase作为MR源是否有性能、可靠性、成本或易用性的好处?
我能找到的最好的一句话是:"HBase是在需要实时读写随机访问非常大的数据集时使用的Hadoop应用程序。“- this (2009) Hadoop:权威指南,第1版。
我有一些域数据,例如,页面等,在hbase表中。我必须实时显示其统计数据,例如,每周的文档数量、无效/有效文档等。为此,我正在考虑为这些统计数据创建另一个Hbase表。MR作业将在处理原始表之后为新的周统计信息更新此新表。现在,我的新表的模式应该是什么。这是正确的方法吗?我必须实时可视化前100个域(需要一些排序)。 Data format like
domain, week1-docs, week2-docs,week3-docs ... 此外,还预计数据将随着时间的推移而增长。
我是hbase的新手。在hbase中创建了30个表。我想查看这些表结构。
我使用下面的命令查看这些表,但只有一个表。希望我需要连接到hbase中的正确数据库来列出表格。
hbase(main):017:0> list
TABLE
test
1 row(s) in 0.0140 seconds
现在,我想让命令知道hbase中存在(已经创建)的数据库是什么