来源:某医药品牌 DMP 分析报告
作者:DMP开发研究组
本文经授权后发布,转载请联系原作者授权
一、 模型简述
“某医药品牌点击人群预测模型”旨在通过机器学习的方式,寻找出历史人群点击行为与该品牌人群点击行为之间的关联,并通过模型预测及优化点击人群,最终提升CTR 效果。
模型搭建步骤:
二、 数据分析
目前我们从2000 万具有历史点击行为的人群中,抽取出100 万人建立预测数据库,并用此预测数据库与该医药品牌的新一波Campaign 进行碰撞,得到24.55 万出现在预测数据库的人群。
这24.55 万人在这波Campgian 中,总共被曝光82 万次,点击14 万次,CTR 为17%。(Imp=82 万,Clk=14 万,CTR=17%)。
而从该品牌的历史平均CTR 4% 左右中,可以得出历史点击行为的人群也有很大可能在其新一波Campaign 中进行点击行为。
对这24.55 万人的预测结果与真实结果进行比对,得到结果如下图,0 代表未点击,1 代表点击,true label 代表真实结果,predicted label 代表预测结果。
从该图,可以看出:
预测为点击的190292 人中有67978 人在该品牌新Campaign 中最终也真实点击,但有122314 人被预测错误。
对于预测点击人群,模型只有35.7%的概率预测正确。预测未点击的55190 人中有46425 人被预测正确,仅有8765 人被预测错误。
对于预测非点击人群,模型有84.11%的概率预测正确。
因此在新的一波Campaign 中,利用预测数据库,首先排除预测为0 的人群。这一部分人群占总人群的22.48%,但有84.11%的概率这批人确实不会点击。
对于预测点击人群,正确的概率在35.7%。造成原因:通过评估标准ROC_AUC 的比对,模型的AUC 在测试集上的表现是0.62,而在真实数据上的表现是0.58(如下图),相差并不大。
三、 总结与改善
结论:
1:收集具有历史点击行为的人群作为第一步筛选条件。具有历史点击行为的人群也有很大可能在该品牌新一波Campaign中进行点击行为。点击人群具有一定的点击偏好。
2:排除预测为非点击的人群作为第二步筛选条件。在新的一波Campaign 中,利用预测数据库,首先排除预测为0 的人群,这一批人群有84.11%的概率确实不会点击。
3:模型对点击人群的预测并不十分准确,原因在于各类模型都无法从现有的数据集中找到更好的点击的规律。数据本身没有特别显著的点击人群的点击行为规律,不过该品牌非点击人群的历史点击行为具有一定规律。
改善:
通过第一步和第二步筛选,把新数据融入旧数据后,再重新训练模型,提升模型准确度。
增加更多特征维度,增加除点击行为以外的特征维度。通过不同的、差异较大的不同特征来提高区分点击与非点击人群的准确率。
领取专属 10元无门槛券
私享最新 技术干货