02
转换器
在PySpark中,我们通常通过将一个新列附加到DataFrame来转换数据。
Binarizer()
用处:根据指定的阈值将连续变量转换为对应的二进制值。...---+--------------+
|[2.0,1.0,3.0]|[4.0,3.0,15.0]|
+-------------+--------------+
MaxAbsScaler()
用处:将数据调整到...[-1,1]范围内(不会移动数据的中心)
使用方法示例:
from pyspark.ml.feature import MaxAbsScaler
from pyspark.ml.linalg import...-----+
| a|scaled|
+-----+------+
|[1.0]| [0.5]|
|[2.0]| [1.0]|
+-----+------+
MinMaxScaler()
用处:将数据缩放到...|[a, b, c, d, e]|[a b, b c, c d, d e]|
+---------------+--------------------+
Normalizer()
用处:使用p范数将数据缩放为单位范数