从卡内基梅隆大学的GraphLab项目分派出一个发展很快的分支:GraphChi。...当计算机主存无法容纳全部图数据进行内存计算的时候,GraphChi这种图数据的磁盘存储设计使得图计算能具有I/O高效的性质。...与此同时,基于磁盘的单机图计算系统(如GraphChi、X-Stream[11])提供廉价且有竞争力的处理能力。...比GraphChi和Xstream的写入磁盘数据总量分别小40和50倍。...采用现有的图计算系统实现这个处理时,GraphLab和GraphChi都能直接实现从一个给定的起始节点出发的一次随机游走。
Angel,MXNet,TensorFlow,Caffe, Xgboost,VW,libxxx 文本处理:Word2vec,Fasttext,Gensim,NLTK 矩阵分解:Spark ALS,GraphCHI...,implicit,qmf,libfm 相似计算:kgraph, annoy,nmslib, GraphCHI, columnSimilarities(spark.RowMatrix) 实时计算:Spark...GraphLab/GraphCHI:GraphCHI是开源的单机版,GraphLab是分布式的,但并不开源。...所以建议推荐系统工程师重点学习一下GraphCHI,它有Java和C++两个版本,实现了常见的推荐算法,并在单机上能跑出很高的结果。...有一个不得不承认的事实是:GraphCHI和GraphLab在业界应用得并不广泛。
因此,我们检测到两种形式的异常行为: 不符合现有聚类的概要 聚类之间的无效转换 Ⅴ.实现 本文实现使用图形处理框架GraphChi,在C++中实现了UNICORN的图形处理算法,在Python中实现了数据解析和建模组件...GraphChi是一个基于磁盘的系统,它可以在一台计算机上高效地计算具有数十亿条边的大型图。使用GraphChi,UNICORN可以在不需要将整个溯源图存储在内存中的情况下获得高效的分析性能。...UNICORN依赖于GraphChi的两个重要特性: GraphChi使用一个并行滑动窗口(PSW)算法将形分割成碎片,每个碎片中的边数大致相同;它并行计算每个碎片。...UNICORN利用GraphChi对流图的高效计算。 Ⅵ.实验评估 我们分析了大约1.5TB的系统监控数据,其中包含来自各种跟踪系统的操作系统级溯源记录,证明了我们的方法的适用性。
为了解决这些挑战,提出了各种基于通用硬件平台(CPU & GPU)的框架,如GraphChi [55]和CuSha [54]。...例如,GraphChi [55]、Graphicionado [42]、GraphDynS [109]、FPGP [24]和HyGCN [108]利用重组技术将图数据预分割为多个分片,以实现连续的内存访问并提高性能
这里面举了几个例子,分析,现在大数据的问题中有很大一部分是图问题,或者是复杂网络问题,这里面选了两个:GraphLab,一个是GraphChi,GraphChi把数据的结构进行了改变,使它能够流处理,最后在一台机器上能够达到十台...这个过程中涉及到核心模型数据结构的可改变性,GraphChi就能够支持图结构的修改。
其他系统,比如GraphChi或PowerGraph Create,都是在GraphLab于2009年发布之后推出的。这个系统最初是卡内基梅隆大学的一个开源项目,现在被称为Turi。
这种计算对象两两之间的相似度的任务,如果数据量不大,一般来说不超过百万个,然后矩阵又是稀疏的,那么有很多单机版本的工具其实更快,比如 KGraph、 GraphCHI 等。
即使图结构比单机存大一些,但可以放到单机硬盘上,相较分布式系统,像 GraphChi 这样的单机处理引擎也往往是更好的选择。
large-scale graph processing》 介绍:Google的大规模图计算系统,相当长一段时间是Google PageRank的主要计算系统,对开源的影响也很大(包括GraphLab和GraphChi...Framework for Parallel Machine Learning》 介绍:CMU基于图计算的分布式机器学习框架,目前已经成立了专门的商业公司,在分布式机器学习上很有两把刷子,其单机版的GraphChi
在数据可扩展性方法,常见的解决思路是将数据分成若干片段,然后在片段上进行模型学习,比如GraphChi [46]。...GraphChi: large-scale graph computation on just a PC.
numpy,pandas,scikit,scrapy,twitter )更多请见 http://blog.csdn.net/hmy1106/article/details/45166261 图分析分析工具 Graphchi
用于快速可伸缩梯度提升的Xgboost LightGBM 用于快速记忆效率线性模型的Vowpal Wabbit 神经网络 encog H2O在R为许多型号 LibFm LibFFM 使用Java的Weka 用于因式分解的Graphchi
笔者曾在腾讯CSIG开发过基于GraphCHI存储的分布式核外(即磁盘为主)异构图的图计算系统,但由于磁盘I/O效率过低,而业务中对内存的成本并无严苛的要求,该图计算系统实际应用性不足。
除了使用向外扩展的分布式图计算系统来处理规模超出单机内存的图数据,也有一些解决方案通过在单台机器上高效地使用外存来完成大规模图计算任务,其中的代表有GraphChi、X-Stream、FlashGraph
领取专属 10元无门槛券
手把手带您无忧上云