我是Spark和GraphX的新手。到目前为止,我一直在使用Titan DB (HBase存储)和Giraph进行处理。我需要一个有大约30亿个顶点和大约50亿条边的图。存储图形的最好方法是什么(通过添加顶点和边来从头开始创建图形,同时我也想放弃用于图形创建的titan API )。我找不到任何关于这方面的直接文档。您能建议我使用GraphX和商用硬件创建/存储图形和流程的最佳方式是什么吗?
谢谢。
/ get connected components其中,GraphUtil具有辅助函数来返回顶点和边在这一点上,我的图有大约100万个节点和大约200万条边(顺便说一句,这预计将增长到大约1亿个节点)。我的图是稀疏连接的--所以我希望有很多小图。:173)
at org.apache.spark.scheduler.SparkListenerBus$class.onPostEven