一、前述
根据前文中架构,本文我们讨论线下部分构建训练集部分。因为我们离线部分模型的选择是逻辑回归,所以我们数据必须有x和y.
二、具体流程
1.从数据库中分离出我们需要的数据。
...2.构建训练集中的关联特征
?
流程:
?
2.构建训练集中的基本特征
?
总结:注意特征名离散化因为如果特征不离散化会造成数据之间有关系。...local inpath '/opt/sxt/recommender/script/sample.txt' into table dw_rcm_hitop_sample2learn_dm;
3、构建训练数据...IF (file_size <= 8*1024*1024,8,
IF (file_size <= 10*1024*1024,10,
IF (file_size 12...*1024*1024,12,
IF (file_size <= 14*1024*1024,14,
IF (file_size <= 16*1024*1024,16,