主要整理了一下,pig里面的一些关键词的含义和用法,pig虽然是一种以数据流处理为核心的框架,但数据库的大部分关键词和操作,在pig里面基本上都能找到对应的函数,非常灵活与简洁,春节前的最后一篇文章了,...,map(#)
(6) 关系运算符cogroup,group,join
(7) 函数count_star,sum,min,max,count,avg,concat,size
8, 多数据源join...14,foreach,迭代,抽取一列,或几列的数据,
15,group,分组,类似数据库的group
16,partition by,同等hadoop中Partition组件
17,join,...,pig特有关键词,负责从一个指定的路径加载数据源,路径可以使用通配符与hadoop的路径通配符保持一致
20,mapreduce,在pig中,以MR的方式执行一个jar包
21,order by...,生成几个不同的小数据集
25,store,pig里面的存储结果的函数,可以将一个集合以指定的存储方式,存储到指定的地方
26,stream,提供了以流的方式可以在pig脚本中,与其他的编程语言交互