使用Spark构建索引非常简单,因为spark提供了更高级的抽象rdd分布式弹性数据集,相比以前的使用Hadoop的MapReduce来构建大规模索引,Spark具有更灵活的api操作,性能更高,语法更简洁等一系列优点...}
/***
* 迭代分区数据(一个迭代器集合),然后进行处理
* @param lines 处理每个分区的数据
*/
def indexPartition...datas.clear();//清空集合,便于重用
}
}
/***
* 得到分区的数据具体每一行,并映射
* 到Model,进行后续索引处理...s3, s4, s5, s6, s7, s8) => (s1, s2, s3, s4, s5, s6, s7,s8)
}
}
/***
* 对field进行加工处理...的值,而由提交任务时,通过--master来指定运行模式,另外,依赖的相关jar包,也需要通过--jars参数来提交到集群里面,否则的话,运行时会报异常,最后看下本例子里面的solr是单机模式的,所以使用