首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >机器学习课程_机器学习课程:5家公司分享了他们的错误

机器学习课程_机器学习课程:5家公司分享了他们的错误

作者头像
用户7886150
修改2020-12-30 15:48:00
修改2020-12-30 15:48:00
3670
举报
文章被收录于专栏:bit哲学院bit哲学院

参考链接: Python 克里斯蒂安Cristian算法

机器学习课程

  机器学习是最热门的技术类别之一,许多业务和技术主管正在争先恐后地了解他们的组织如何采取行动。 正确地讲,机器学习可以帮助您创建更有效的销售和营销活动,改善财务模型,更容易发现欺诈并增强设备的预测性维护(仅举几例)。  

  但是,机器学习也可能会出错,这使您感到后悔被狂热地采用。 根据采用它的真实公司的实际经验,机器学习可能会出错的五种方法。 他们分享了他们的课程,因此您可以避免同样的失败。  

  [在InfoWorld上深入学习机器学习: 使机器学习失败的6种方法 。 • 11种必备的机器学习工具 。 • 掌握机器学习的13个框架 • 揭秘了机器学习的管道 •回顾: 6个机器学习云 • 您应使用哪个Spark机器学习API? ]  

  第1课:错误的假设使机器学习偏离轨道  

  投影仪PSA是一家美国公司,设计并构建了专业的服务自动化软件,该软件可以帮助咨询公司运营其业务,当它尝试使用机器学习来预测人员编制计划的差异时,就很难学到这一课。  

  因为咨询公司都是关于专业且训练有素的顾问,并且有效地利用了他们的才能,所以公司经常雇用项目经理来评估和预测项目人员的需求。  

  然后,他们跟踪顾问在每个项目上花费的时间,以该时间为客户计费。 如果组织在一个系统中(例如专业服务自动化工具)管理这两项活动,则将具有一些明显的优势,例如能够将预测时间与实际工时进行比较,以了解不同项目经理在计划准确性方面的表现如何。  

  首席运营官Steve Chong回忆说,投影机PSA已与其一名雇用了数百名项目经理的客户展开了一项研究。 它建立了模型,用于比较在不断增加的计划范围(差异)下平均实际工作时间与预测工作时间之间的差异。 它还在许多月的过程中研究了项目经理的预测的一致性(可变性)。  

  也就是说,如果一周之内的预测值太高而第二周的预测值太低(高可变性),则Projector PSA希望知道它们是否相互抵消,以至于平均而言差异很小或很低方差。  

  Chong说:“最初的前提是低方差和低变异性好,高方差和高变异性差。” 在此前提下,Projector PSA教授了一种机器学习算法,该算法使用公司项目经理的样本作为训练集,根据这些数据将项目经理分为不同的组,例如“保管员”和“乐观主义者”。  

  然后,公司让机器学习算法根据所学知识对其余项目经理进行分类。 事实证明,由于他们具有较高的变异性和较高的可变性,因此将公司一些经验最丰富,训练有素的项目经理归类为最严重的违规者。  

  Chong说:“实际上,这些项目经理是公司指出已经陷入困境的项目的经理,他们希望他们能够控制这些项目。”  

  同样,最初的机器学习算法对一位项目经理也给予了很高的评价,因为她几乎具有零差异和零差异。 但是事实证明,她正在将预测的工作时间发送给团队,但隐含地希望他们将这些工作时间报告为实际工作时间。 崇说,这导致她从来没有超过预算或预算不足的情况,但是这样做有效地鼓励了她的团队以不利于大局的方式采取行动。  

  Chong说:“这些错误不是机器学习算法本身引起的,而是我们在最初训练它们时所基于的假设。” “他们还源于最初仅依赖数据而没有充分理解数据所代表的现实。”  

  一旦公司训练了机器学习算法来识别这些新配置文件,它就会感觉到对现实的更好反映。  

  第2课:无监督机器学习可能会产生意想不到的偏差  

  尽管机器学习可以执行许多任务,但是在项目开始时并没有考虑到某些情况,这些情况会使机器学习结果崩溃。 巴西的金融服务公司Mejor Trato就是这种情况,该公司将机器学习作为其人力资源部门数字化转型的一部分。  

  该项目涉及让潜在的新员工使用公司内部开发的机器学习聊天机器人,通过实时聊天和电话回答一系列问题。  

  最初使用聊天机器人时,有两个关键问题出了问题。 一是求职者被要求填写其个人简介/职业的错误表格。 另一点是,与人力资源人员会议重叠的访谈花了几天和时间,这意味着人力资源人员将无法根据需要监视聊天机器人。  

  CTO克里斯蒂安·雷内拉(Cristian Rennella)说,在最初的几周内,至关重要的是,人力资源团队中的某些人必须监视每次对话,以在必要时纠正机器人。 她说:“我们误以为一切都解决了,在没有监督的情况下离开了聊天机器人。” 该课程是“不要忘记监视聊天机器人的全职最低时间为几个月。”  

  由于未对聊天机器人进行微调,该公司确定收集到的数据中约有10%是不正确的。  

  “机器学习一开始可能对90%的答案很有用,但剩下的10%应该在人工监督下才能纠正该算法,” Rennella说。 她说,随着时间的流逝,这90%的比例会增加到多达99%,“但是我们不能停止关注可能出现的偏差甚至是新情况,而这在我们开始该项目时是意料之外的。”  

  第3课:不良的数据标签会损害机器学习结果  

  俄罗斯的两家关联公司Ashmanov Neural Networks和SOVA(智能开放虚拟助手)为他们的商业客户开发基于机器学习的产品。 这些包括视频分析,自然语言处理,信号处理和神经网络。  

  两家公司首席执行官斯坦尼斯拉夫·阿什曼诺夫(Stanislav Ashmanov)表示,两家公司与机器学习相关的最大问题之一是基于标签难度的不良数据。 “提供高质量的数据标签实际上是不可能的,” Ashmanov说。 “通常,从事数据标签工作的人草率,​​因为他们经常匆忙工作。 而且,以每个人都以相同的方式理解任务来传递任务非常困难。”  

  结果,数据包含多个标记的样本,例如图片中错误地识别出的轮廓,从而严重影响了训练后的神经网络的性能。  

  在短时间内收集所需的大量数据也具有挑战性。 Ashmanov说,数据收集可能需要几个月的时间。 从公共资源(例如在互联网上找到的数据)收集的数据并不总是准确地代表现实。 例如,在工作室或实验室拍摄的图像可能与真实的街景视图或工厂生产单位快照截然不同。 结果,神经网络的性能将很低。  

  两家公司正在培训一个神经网络,以识别在线发布的自拍照中的眼镜,这是一个客户项目的一部分,这可能会出错。 他们收集了来自社交媒体的精选照片并贴上了标签。 阿什曼诺夫说,神经网络的质量很差,因为它使戴眼镜的黑眼圈人士误以为戴着眼镜。  

  另一个客户提交了两个城市的卫星图像。 任务是在图像中标记汽车,并教会神经网络识别它们并计算其近似数量。 在这种情况下,问题在于神经网络将建筑物屋顶上的壁架识别为汽车,因为它们的外观相似-小,矩形且颜色大多为深色。  

  “所有这些都取决于对保证金案例进行认真的工作,创建启发式方法以及改进初步数据处理和后处理证明检查,” Ashmanov说。  

  第4课:细微的分类问题可能会混淆机器学习  

  Casepoint是美国为法律部门和其他市场提供电子发现技术的提供商,已经经历了机器学习的缺陷。 该公司将机器学习用于文档分类和预测分析。 通过使用该技术,法律团队可以大大减少花在审阅和分类文档上的时间。  

  首席战略官戴维·卡恩斯(David Carns)说,使用机器学习对文档进行分类是有效的,但并非完美无缺。 该公司看到的一个弱点是过度依赖机器学习来解决细微,更细微的分类问题。  

  例如,在法律领域,机器学习文档分类器经常用于识别响应“文档生成请求”的文档。 甲方要求与特定主题或内容相关的文档,乙方可以使用机器学习文档分类器来帮助筛选响应性文档的文档存储库。  

  Carns说,它的效果如此之好,以至于律师开始常规使用这种技术辅助的文档审查(TAR)。 他说:“这样的成功导致人们渴望盲目地将机器学习文档分类器用于更细微和细微的分类,例如识别受律师-客户特权保护的文档。”  

  尽管使用机器学习在特权文档的内容上训练文档分类器很容易,但是使文档具有法律特权的原因在很大程度上取决于文档的听众,机密性,接收时间以及与法律建议或诉讼的关系。 Carns说,大多数机器学习文档分类器无法对这些其他上下文线索进行充分分类。  

  “这并不意味着机器学习文档分类器无法帮助对可能具有特权的文档进行下选和分类,” Carns说。 “但是法律专业人士不应该仅仅依靠机器学习来确定特权。” 他说,今天,人类律师需要手动审查可能具有特权的文档,以便最终决定是否适用法律特权。  

  第5课:测试/火车污染可能是魔幻的机器学习  

  美国自动化公司Indico多年来一直为客户提供企业人工智能和深度学习服务,而它继续遇到的最大问题之一就是污染了机器学习的测试和培训数据。  

  CTO Slater Victoroff说,一个客户正在创建一个模型,以确定一条新闻是否会影响其股价。 很难确定确切的影响时间,因此该公司创建了该模型以始终预测第二天的影响。  

  Victoroff说:“他们没有意识到,他们已经忽略了确保干净的测试/火车拆分的数据科学基础知识。” “因此,他们在预测次日影响的任务中提出了近100%的准确性,而实际上,该模型并不比随机机会好。”  

  另一个经验涉及客户查看其内部自然语言处理(NLP)系统。 客户拥有一个团队,多年来一直在创建和更新机器学习模型的功能,并根据相同的搜索集对其进行持续测试。 该团队还经历了测试/火车污染的影响。 Victoroff说:“每次查看测试错误并更改算法以改善测试错误时,您的数字就不再准确了。”  

  在这种特殊情况下,对该问题的理解很差。 在内部,该模型针对特定任务实现了接近100%的精度。 Victoroff说:“但是在生产中,该系统几乎无法正常工作,因为他们无意中污染了他们的结果。” “任何组织在机器学习中都会犯的最关键的错误是测试/火车污染这一问题。”  

  翻译自: https://www.infoworld.com/article/3319665/machine-learning-lessons-5-companies-share-their-mistakes.html

 机器学习课程

本文系转载,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文系转载前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档