问题的提出
通过广告,可以有效地对产品进行推广。在进行广告的投放的时候,咨询公司会建议我们和媒体维持良好的合作关系,避免连续 3 个月不投放广告的情况。因此,我们一般不会只对一个媒体投放广告,而是同时对多个媒体投放广告。
因为是同时对多个媒体投放广告,我们无法确定哪些新用户是由哪个媒体的广告带来的。这就给对每个媒体的广告效果评估,带来了难度。
一般我们使用CPI(Cost Per Install,获得一个新用户所需的成本)这个指标,来评估广告投放的效果。如上图所示,我们只知道在 month 月份,给电视投放 tvcm 元的广告和给杂志投放 magazine 元的广告,可以带来了 install 的安装量。但是单独投放电视广告或者杂志广告能带来多少 install呢?这个无法直接通过数据确定和评估。
这时候,我们就可以使用多元线性回归的方式,来评估每个渠道投放广告的效果。
多元线性回归
模型假设
假设模型的方程为:
install =a* tvcm +b* magazine +c
其中 a 就是投入一元的 tvcm 电视广告,能够带来多少个 install,b 就是投入一元的 magazine ,能够带来多少个 install,c 则是就算没有对 tvcm 和 magazine 做任何的投入所能够带来的 install。
强相关性判断
要使用这个函数来描述这个业务,必须保证 tvcm 和 install、magazine 和 install 之间,是一种强的线性相关的关系。要验证 tvcm 和 install、magazine 和 install 之间是否具有强的线性关系,可以通过散点图来进行描述。
执行代码,可以看到, tvcm 和 install、magazine 和 install 之间,可以用一条直线来近似模拟。因此,我们可以判定 tvcm 和 install、magazine 和 install 之间符合强的线性相关。
tvcm 与 install 之间符合强线性相关
magazine 与 install 之间符合强线性相关
模型求解
在R语言中,使用 lm 方法,即可求解出模型 tvcm、magazine 的参数与常数项,如下所示。
其中,tvcm 前面的参数为1.36,也就是投入一元的电视广告,可以增加 1.36个安装用户;magazine 前面的参数为 7.24,也就是投入一元的杂志广告,可以增加 7.25 个安装用户;如果我们即使对电视广告和杂志广告的投入为0,那么也可以增加 188.17 个安装用户。
模型评估
求解完模型之后,还需要对模型进行评估,使用 summary 方法,对 lm 方法返回的结果进行解释,即可得到模型的评估解读,如下所示:
第一项是残差,也就是模型拟合出来的值和真实值之间的差值,如下所示:
可以看到,残差均匀分布在 0 值的左右,并且它们之间的和接近于 0,因此我们可以说,模型的残差符合随机误差(残差不符合随机误差的模型不能使用)。
第二项是参数的显著性,也就是参数是否存在统计学上的统计意义,如下所示。
我们可以通过每个参数后面的*的个数,来解释每个参数是否具有统计学上的统计意义。可以看到,tvcm 与 magazine 的参数,有一个以上的*,具有统计学上的统计意义,而常数项后面没有*,所以没有统计学上的统计意义。
第三项是模型的拟合程度,也就是用于预测的准确性,如下所示。
我们主要使用 Adjusted R-Squared 来判断模型的拟合程度,这里可以看到调整判定系数为 0.9202,也就是 92.02% 的预测准确性。
模型使用
到这里,我们就可以得到以下模型:
新用户数 = 1.361× 电视广告费 + 7.250× 杂志广告费 + 188.174
当我们投入的电视广告费用为 4200 元 杂志广告为 7500 元的时候,可以收获 60279 个安装用户。
领取专属 10元无门槛券
私享最新 技术干货