首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

求职攻略:数据科学项目的雇主最看重什么?

全文共2023字,预计学习时长4分钟

获得一份工作并不容易,你需要让自己与众不同。

创建数据科学项目是为了什么?从雇主的角度来看,当然是为了能够让这些项目来产生商业影响。那么如何构建显示商业影响力的投资组合项目呢?如果你刚刚起步,那么预测花型数据就是个不错的选择,但是在现实生活中,你可能会直接或间接地从事一些与商业相关的工作。

本文以R客户流失预测为例,重点研究了R客户流失的预测过程。文章将逐步介绍如何在R中构建客户流失预测模型,该模型显示了对业务的重大影响。

项目范围界定

任何真实数据科学项目在开始时,都需要提出一系列问题。

以下就是一些这样的好问题::

1. 想解决什么问题?·

2. 可能的解决方案是什么?·

3. 如何评价你的模型?

假设你在电信行业工作,并且能够访问客户数据。老板找到你,问到:“我们如何利用现有的数据改善业务?”这个问题相当含糊,所以我们可以就“如何回答上面的问题”来制定一个策略,用来回答老板的问题:

你想解决什么问题?

在查看了数据之后,你会发现获取新客户的成本是保留现有客户成本的5倍。现在更重要的问题变成,“如何提高客户保留率来降低成本?”

你可能的解决方案是什么?

为了增加客户保留率,我们需要识别潜在的不满意客户。如果能够在客户生命周期的早期进行干预,就可以提供折扣或其他服务,试图防止不满意的客户流失。既然可以访问客户数据,我们就可以构建一个机器学习模型,尝试着预测可能流失的不满意客户。为了简单起见,我们来看看使用逻辑回归模型的情况。

你将如何评价模型?

我们将使用一系列机器学习评估指标(ROC、AUC、敏感性、特异性)以及面向业务的指标(节省成本)。

准备数据

这个工作流因项目而异,但是在这个例子中,我们将使用以下工作流:

1. 导入数据

2. 快速查看

3. 清理数据

4. 分离数据

下面是R中的前两个步骤的快照:

虽然没有显示,但是在清理步骤中,我们使用中值来估算缺失的值。这是一个简单的方法,但是一定要查找更严格的统计方法。

在最后一步中,将数据分为训练集和测试集,分别使用75%和25%的数据。这种方法通常能够防止过度拟合。

拟合模型

为了实现逻辑回归模型,将使用广义线性模型(GLM)函数。

GLMs有不同的类型,其中包括逻辑回归。为了指定想要执行的二元逻辑回归,我们将使用参数“family=binomial”。

做出预测

现在我们已经拟合了模型,是时候看看它如何执行了。

为此,我们将使用“测试”数据集进行预测。我们将传入上一节中的“fit”模型。为了预测概率,我们将指定“type=response”。

将响应阈值设置为0.5,因此,如果预测的概率大于0.5,我们将把这个响应转换为“Yes”。

下一步是将字符响应转换为因子类型。因此,编码对于逻辑回归模型是正确的。

稍后将更仔细地查看阈值,所以不必担心为什么将它设置为0.5。

最后一步是评估模型。

混淆矩阵是一个有用的工具,能向我们展示了每个类有多少正确和错误的预测。

敏感性(真阳性率)和特异性(真阴性率)也是“混淆矩阵”函数报告的有用指标。

另一个有用的指标是接收机工作特性(ROC)曲线下的域,也称为AUC。

ROC是一个很好的工具,因为它可以在阈值变化时绘制真阳性率(TPR)与假阳性率(FPR)的关系图。下面是如何使用“ROCR”库绘制它:

使用这个图的一个有用的方法是求曲线下的面积,也称为AUC。AUC可以取0到1之间的任何值,其中1是最好的选择。下面是计算AUC的R代码:

模型AUC是0.85,这是非常好的结果。如果只是随机猜测,ROC是45度斜线。这相当于AUC是0.5。至少,比随机猜测做得更好,所以我们知道模型至少是存在一些价值的!

展示商业影响

最后一步是将我们目前所做的一切转化为商业影响。

先做一些关于成本的假设。假设在电信行业获得一个新客户需要花费300美元。之前说过,数据显示,获得新客户的成本是保留现有客户的5倍,所以保留成本是60美元。

以下是关于这些成本如何与四种类型的预测相关联的简要结论:

1. 假阴性(预测客户不会流失,但他们实际上流失了):300美元

2. 真阳性(预测客户会流失,他们实际上也流失了):60美元

3. 假阳性(预测客户会流失,但他们实际上没有流失):60美元

4. 真阴性(预测,客户不会流失,他们实际上也没有流失):0美元

如果将每种预测类型的数量乘以相关的成本,并将它们相加,就会得到如下的成本方程:成本= FN(300美元)+ TP(60美元)+ FP(60美元)+ TN(0美元)

使用不同的阈值(0.1、0.2、0.3、……、0.9、1.0)计算每个客户的成本。在初始化阈值向量“thresh”之后,可以循环遍历每个值并进行预测。由于我是根据每个客户计算成本,所以要除以测试集中数据点的总数。

最后,把结果放在数据帧中,以及我称之为“简单”的模型中。这是之前的逻辑回归模型,默认值是0.5。

图中显示,在0.2的阈值下,每个客户的最低成本约为40美元。

假设公司目前使用的是“简单”模型,阈值为0.5时,每个客户的成本约为48美元。

如果有大约50万的客户群,那么从简单的模式转换到优化的模式每年可以节省400万美元的成本!这种成本节约正是雇主们希望看到的重大商业影响。

结论

在求职过程中,让自己脱颖而出的最佳方法之一是构建展示真实商业影响的投资组合项目。

如果你能提出一些明智的商业问题,并像现实世界中的数据科学家一样完成一个项目,对雇主而言,你将立马变得更有价值。

留言 点赞 发个朋友圈

我们一起分享AI学习与发展的干货

编译组:林珍花、赵璇

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190103B0KB6900?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券