相关检验
是联合事件(Ai,Bj)观测频度(即实际计数),而
是(Ai,Bj)的期望频度,可以用下式计算:
是AB叉积和(即对于每个元组,A的值乘以该元组B的值)。注意
,。如果
大于0,则A和B是正相关,这意味着A值随B值得增加而增加。该值越大,相关性越强。因此,一个较高值表明A(或B)可以作为冗余而被删除。
:其中,和分别A和B标准差。还可以证明:
。因此,协方差
。然而,其逆不成立。某些随机变量(属性)对可能具有协方差0,但是不是独立。仅在某种附加的假设下(如数据遵守多元正态分布),协方差0蕴含独立性。