Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >详解机器学习的八种方法,专业挖掘大数据

详解机器学习的八种方法,专业挖掘大数据

原创
作者头像
挖掘大数据
发布于 2018-01-09 12:13:54
发布于 2018-01-09 12:13:54
9040
举报
文章被收录于专栏:挖掘大数据挖掘大数据

导读:机器学习可以帮助企业做出更好的抉择,但小狗周期往往短暂。本文分析了使用机器学习的八种方法,有助于企业最大限度地提高成功几率。

髋关节置换手术需要多长时间?

这对医院来说并不是学术问题。2015年,医院约有360亿美元的无偿保健费用,其中大部分来自患者未付的账单。

这个问题的一个解决方案是限制与手术相关的成本,但是如何才能达成呢?答案是机器学习。医院如今利用预测分析学来预测手术的平均时间和潜在问题,如髋关节手术。

例如,医疗保健购买者的数据显示患者年龄、核心医疗保健提供者和二次诊断。使用机器学习和预测分析,数据可以估计未来的成本,帮助确定可能在恢复中出现问题的患者。此举可使医院做出更好的临床决定,降低二次入院率,缩短患者的住院时间,并提供更好的护理。

各地企业在使用机器学习分析数据的过程中,发现了类似的现实效果。但问题是效果周期往往短暂。

弗雷斯特研究公司(Forrester Research)的分析师Mike Gaultieri指出,机器学习并不像传统的商业情报工作那样,其结果是确定的。他说:“如果你在寻找一种机器学习模式,可以说‘我会尝试’,但你可能无法成功实现。企业应该明白仅仅因为希望拥有预测股市的模型,并不意味着就会实现愿望。”

DXC技术分析数据实验室是数据科学家的全球研究中心,他们专注于咨询和寻找实施分析的方法。实验室负责人Rags Raghavendra表示企业的表现令人沮丧,因为它们往往承受太多负担。他说:“客户在尝试挖掘其有权访问的各类数据的意义时往往好高骛远。我们建议着眼于自己可以访问的数据,然后再着手下一步的行动。”

如果企业尝试但未能从数据中挖掘到有用讯息,首先应该接受失败和重复是这一过程的一部分。但是,通过更巧妙地使用机器学习,他们可以最大限度地提高成功几率。以下是使用机器学习的八种方法:

从想要解决的问题开始。直接研究数据,期待立即发现有用讯息是错误的方法。正确的数据研究方法始于确定正确的性能衡量标准,这种标准将业务成果和与数据相关的问题联系起来。但是,所选标准应该适当。例如,当DXC最近与媒体公司合作,解释订户离开的原因时,最直观的标准是“订阅者基数”。事实证明,相关标准是每个用户的平均收入(ARPU),这与公司为增加收入而制定的较大业务目标直接相关。

使机器学习过程产业化。Raghavendra表示:“大数据分析的整个过程尚未实现工业化,”其实验室支持包括制造业、电信、汽车、航空、能源、金融服务和医疗保健在内的各种行业。“很多时候,你一再重复分析或无法扩展分析。”DXC是工业化机器学习的坚定支持者,这种学习模式简单高效,认为分析中的所有阶段,即从抽取和清洗数据,构建算法,到将其投入生产并获取有用讯息,应在企业技术上可重复使用和部署。

无需担忧筒仓。筒仓是许多企业进行数据挖掘项目的灾难,因为它们阻止访问统一的数据池。但是,筒仓并不像有些人认为的那样是巨大的障碍。Raghavendra说:“如果你有智能数据和平台战略,就无需那么担忧筒仓。”简言之,只要不是你选择的所要解决的问题,就不必对此担心。然而,你应该通过整合不同的数据源来准备解决以后出现的问题。“灵活和模块化的平台允许你在需要时整合数据,”Raghavendra补充说道。

思考外部程序。你并非总是拥有所有的信息、人才、分析和智慧。这是一个关乎生态系统的问题,那些挖掘他们周围事物的能力的人将会获胜。众包数据科学家、机器学习和外部数据集都具有强大的潜力。

使用数据湖数据湖就是存储库,不管格式如何,你都可以按原样存储所有现存的数据。Raghavendra表示,公司应该把所有数据放在数据湖中,即使起初不知道如何使用它。但不要一开始就考虑构建数据湖。

带着目标实施探索性数据分析(EDA)。数据挖掘的第一个阶段是EDA,旨在总结可视化和非可视化数据。DXC高级数据科学家Bharathan Shamasundar说:“我发现探索性数据分析总是被置于筒仓内。“EDA的目的是提供有关数据模式的见解,并告知人们下一步应做的事情。但通常情况下,公司只是敷衍了事。”DXC与能源公司的经验强调了智能EDA的重要性。该公用事业公司正致力于准确预测风力发电机所产能源的数量。由于该公司将EDA应用于算法,DXC团队抨击了现有标准,该标准认为涡轮机95%的时间都在发挥性能,尽管使用较少的变量进行计算。这种经验表明有意义的EDA(提前完成),将会更经常得出适合现有数据的算法。

使用智能抽样。公司无法从大数据中获取有用讯息的一个原因是,他们使用的太多。Shamasundar说:“抽样这个词语变得不堪入耳。数据抽样对于处理数据来说十分明智。”通常,“大数据”看起来充满了冗余信息。对于商品贸易公司,DXC确定存储中的大部分数据都是多余的,因为其94%的贸易交易是基于较小的数据子集。这表明评估质量和相关性是数据战略的重要组成部分。

为数据科学计划制定灵活的操作模式。Raghavendra建议:不要因为不能雇用数据科学家而推出数据分析程序。数据科学家的需求量目前比现有数量高出60%,并且尚未有迹象表明这种差距正在缩小。Raghavendra表示,如果企业无法配备足够的数据科学家,他们应该考虑使用提供专家分析支持和“公民数据科学家”的合作组织。公民数据科学家了解雇主企业的所在领域和业务经营。他们可以使用现成的分析平台来进行合理的分析,这些平台简化了数据挖掘的某些任务。随着企业利用分析解决问题,合作伙伴可以帮助扩展程序,并在多个领域建立更深层次的功能。

尽管遵循这些准则能提高成功几率,但企业需要记住失败也是真实存在的。基于证明或反驳假说,数据科学利用科学方法研究数据。利用数据应被视为一种研发活动。研究数据查询的Gualtieri表示:“最好有六个或十几个想法,并同时实施这些想法,因为并不是所有的主意都能产生效果。”

随着数据量不断增加,挑战将变得越来越困难。从另一方面来说,拥有的数据越多,潜在的奖励就越大。

根据DXC思想领导部门前沿论坛研究主管Dave Aron的说法,许多公司仍把自己最重要的资产视为物质和金融。

Aron表示:“未来十年,企业将会把信息视为资产,建立并不断改进他们的分析和学习平台。物联网和日益增多的数据保护立法使这个问题变得愈发重要。”

从数据中获益,无论是医院、公用事业单位,还是其他任何业务,都将采取审慎的策略,下定决心使用并尊重科学方法。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
数据整合和机器学习深入客户见解
本文精选与新的DZone人工智能指南中。免费获取更有深度的文章,行业统计,以及更多!
Lethe丶L
2018/02/01
9930
数据整合和机器学习深入客户见解
美国通过机器学习加速基因组医学并改善患者结果
医疗保健和生命科学组织挖掘非结构化数据以获取洞察力,以推动精准医学的进步并加强患者护理 加利福尼亚州帕洛阿尔托,2018年7月2日 - Cloudera,Inc。一个针对云优化的机器学习和分析的现代平台,以及医疗保健分析提供商MetiStream,共同宣布产品以改善患者的治疗效果。 MetiStream宣布推出基于Cloudera机器学习平台的医疗保健和生命科学行业端到端交互式分析平台。 通过结合Cloudera Enterprise和Cloudera Data Science Workbench的机器学习和分析,MetiStream声称其Ember产品可以提供大量手写临床笔记以及基因组数据的见解,为医疗保健组织提供经济有效地改进基因组研究的途径。 加快患者洞察力的时间。
用户1410343
2018/07/26
5190
Python机器学习:适合新手的8个项目
教科书和课程会让你误以为精通,因为材料就在你面前。但当你尝试去应用它时,可能会发现它比看起来更难。而「项目」可帮助你快速提高应用的 ML 技能,同时让你有机会探索有趣的主题。
猴子数据分析
2022/07/13
9930
Python机器学习:适合新手的8个项目
数据挖掘与机器学习释义
人工智能是目前炙手可热的领域,所有的互联网公司以及各路大迦们纷纷表态人工智能将是下一个时代的革命性技术。数据挖掘(Data Mining)和机器学习(Machine Learning)作为人工智能研究与应用的分支领域,也越来越多的被提到。 在大多数非计算机专业人士以及部分计算机专业背景人士眼中,机器学习以及数据挖掘是两个高深的领域。本文翻译自外网文章,将从基本概念出发浅析他们的关系和异同,希望对大家能有所帮助。
探码科技
2019/08/22
6660
data42:诺华在数据和数字化方面的期待
虽然人工智能已经存在了几十年,但最近深度学习领域的发展使数据科学家能够实现令人惊讶的飞跃。与传统的机器学习算法不同的是,深度学习将算法分层应用,创建一个"人工神经网络",可以自行学习并做出智能决策。
智药邦
2022/04/13
2560
data42:诺华在数据和数字化方面的期待
2017 数据科学届的六大预测!
如今数据给业务增长和利润创造了前所未有的机会。近十年来,随着先进的数据技术和出众的分析工具的出现,使得企业经营者可以从他们的数据资产获得众多利润,但他们中大部分才刚刚涉及到数据潜力的皮毛。数据科学正使得企业能够前所未有的利用其潜力。 McKinsey report 在2013年发布的一份报告中预测,全球商界会在未来十年中面临数据科学专业人员的 严重短缺,尤其是擅长从大量的静态和动态的(实时)数据中获取竞争情报的 “150万名分析师”。 随着这个的预测的成真,企业对数据管理的日益重视以及高等教育机构是使整个
CDA数据分析师
2018/02/26
7020
麻省理工机器学习峰会:人工智能重塑世界
据麻省理工学院网站报道,在麻省理工学院和风险投资公司Pillar联合举办的机器学习峰会上,行业领导者、计算机科学家以及风险投资家汇聚一堂,讨论智能计算机如何重塑我们的世界。 战胜乳腺癌的经历改变了麻省理工学院教授瑞加娜·巴尔齐莱(Regina Barzilay)的研究方向。这段经历清楚明白地告诉她,肿瘤医生及其患者极度缺乏以数据为驱动的决策工具。这不仅包括推荐哪些治疗方法,还包括患者的样品是否真的能确诊癌症,她在峰会上表示:“我们更多地将机器学习用于确定会在亚马逊网站(Amazon)上购买哪支口红,而不是确
人工智能快报
2018/03/07
6260
为什么90%的机器学习模型从未应用于生产?
时代变幻莫测,仅仅增加客户体验流畅度和沉浸感并不能减轻企业的压力。在这种情况下,投入数十亿美元开发可以改进产品的机器学习模型就可以理解了。但有一个问题。公司不能只是把钱砸在数据科学家和机器学习工程师身上,就希望可以有奇迹发生。据 VentureBeat 报道,大约 90% 的机器学习模型从未投入生产。换句话说,数据科学家的工作只有十分之一能够真正产出对公司有用的东西。
深度学习与Python
2020/12/07
5720
如何区分理解数据科学家与机器学习工程师
数据科学家Vs机器学习工程师 原文: What are machine learning engineers来源: https://tech.co/12-ways-advantage-big-data-2017-05 品觉导读: 真正让“数据科学”发挥出了强大威力的,是在人们意识到,数据不仅止于精算统计、商业智能和数据仓库的时候。将数据人和其他部门(软件开发、营销、管理、人力资源)隔离开来的筒仓被打破后,数据科学才真正彰显出了自己的独特之处。这门学科的中心思想,便是数据适用于万事万物。 在任何应用中
小莹莹
2018/04/24
5880
如何区分理解数据科学家与机器学习工程师
适合入门的8个趣味机器学习项目
谈到机器学习,相信很多除学者都是通过斯坦福大学吴恩达老师的公开课《Machine Learning》开始具体的接触机器学习这个领域,但是学完之后又不知道自己的掌握情况,缺少一些实际的项目操作。对于机器学习的相关竞赛挑战,有些项目的门槛有些高,参加后难以具体的实现,因此造成自己对机器学习的热情逐渐衰减。大部分都经历过这个过程,一直想找一些练手的项目,最典型的练手项目比如手写体识别等,但这类的项目成熟得不能再成熟了,参考别人的网络模型跑一下实验,结果的准确率都快达到100%,学习调参的机会比较少,因此都想找一些
小莹莹
2018/04/18
1.3K0
适合入门的8个趣味机器学习项目
三个无人讨论的大数据的发展趋势
您在一年前讨论大数据将与今天的对话截然不同。 我们最近看到数据科学从外围功能显着转变为核心功能,更大的团队解决日益复杂的分析问题。我们已经看到数据科学平台的快速发展和对数据和分析团队的巨大影响。但是,在数据,分析和机器学习方面,存在哪些惊喜呢? 数据科学将在一年内谈论什么新的发展?以下是我们的三个预测: 大数据的收益递减:数据的大小不再是重点。 我们越来越多地看到更大的数据通常不会更好。公司意识到,提取更多数据可能无法帮助他们更有效地解决某些问题。 尽管如果干净的数据更多的数据可能是有用的,绝大多数的业务用
架构师研究会
2018/04/09
4770
省钱提效做管理,医疗保健初创公司保持AI优势的四个方法
人工智能技术是当今医疗问题的一项新兴解决方案,比如医学成像,临床决策支持,药品等等。显然,将人工智能应用于医学具有重要价值。目前我国的医疗环境存在很大的挑战,由于病症的繁多复杂,有很多从未见过的疑难杂症。在这种情况下,数据分析能否改变医疗系统?如何加强医疗保健防止病例的产生?医疗行业应如何保持人工智能方面的优势? 数据分析如何改变医疗保健系统? 大数据分析正在彻底改变商业模式。自动数据库使企业能够更高效地执行日常任务。而且,商业部门并不是从数据分析中受益的唯一领域。其影响是广泛的,并且正在医疗保健行业的许多
企鹅号小编
2018/01/23
7020
省钱提效做管理,医疗保健初创公司保持AI优势的四个方法
8个带你快速入门的趣味机器学习项目(附数据源、教程)
来源:机械鸡(ID:jixieji2017) 本文长度为3216字,建议阅读6分钟 本文为你介绍八个短时间可以完成的趣味机器学习项目。 抽时间做项目是最好的一种投资方式,在项目中你会享受学习、保持积极性并能获得更快的进展。没有任何理论可以代替实践,虽然教材和课程能让你掌握一些基本原理,但在尝试应用时,你会发现具体操作起来比较困难。 因此项目有助于提高应用机器学习的技巧,此外在找工作中也会给自己增添一些筹码。 以下将具体介绍这八个项目,每个项目都能在一个周末完成,如果你喜欢的话,可以对其进行相关的扩展。
数据派THU
2018/01/30
1.5K0
8个带你快速入门的趣味机器学习项目(附数据源、教程)
GTC2022精彩讲座预告|医学/医药/保健
我们整理了GTC2022精彩讲座预告,欢迎大家报名参加 01 用于生成化学和蛋白质的人工智能药物发现 [A41196] 大型语言模型显示出学习生化空间表示的希望。NVIDIA 将展示一个大型语言模型框架,用于构建、训练和部署基于转换器的大型蛋白质和生物分子神经架构,扩展之前在小分子生成化学模型方面所做的工作。 时间:Thursday, Sep 221:00 AM - 1:25 AM CST 02 脑外科新领域 [A41130] 我们将讨论高级计算和数字孪生世界在改变外科专科,特别是神经外科方面的作用
GPUS Lady
2022/09/08
2830
GTC2022精彩讲座预告|医学/医药/保健
强生|人工智能改变医疗保健行业的五种方式
2023年9月13日,强生 (Johnson & Johnson) 官网发表文章Artificial intelligence is helping revolutionize healthcare as we know it,介绍了强生公司如何利用人工智能来帮助推动医疗健康。
智药邦
2024/03/05
2140
强生|人工智能改变医疗保健行业的五种方式
业界 | 医疗AI应该更关注「数据」还是「人」?数据工程师反思机器学习模型的力量
最近,《华尔街日报》的一篇文章——《Models Will Run the World》(模型将玩转世界)在网上流传。我相信这种观点在很大程度上是有道理的。机器学习算法和模型在各行各业都越来越普遍,也越来越受人信赖。但是反过来看,这导致我们花在结果审查的时间上越来越少,反而更加依赖系统给出答案。我们已经依靠谷歌、Facebook 和亚马逊等公司来提供约会、朋友生日以及最佳产品等方面的信息。当我们从这些公司得到答案时,一些人甚至会不假思索地听之信之。
机器之心
2018/09/20
3350
业界 | 医疗AI应该更关注「数据」还是「人」?数据工程师反思机器学习模型的力量
6个令人惊奇的数据科学应用
作者:DATAFLAIR TEAM 原文链接:https://data-flair.training/blogs/data-science-applications/
陆勤_数据人网
2019/09/17
4K0
6个令人惊奇的数据科学应用
机器学习的必备条件不是数学而是...
编者按:2012年10月《哈佛商业周刊》上面发表了一篇专栏,文章称“数据科学家”是21世纪最最性感的工作。在美国,数据科学家的年收入已超过律师和医生,无怪乎有人惊呼“告诉你的孩子不要成为医生而要成为数
小莹莹
2018/04/18
9150
机器学习的必备条件不是数学而是...
【应用】Hadoop大数据可以帮助医疗机构5种方法
在医疗行业的所有信息中非结构化数据大约占80%,并且增长速度比大多数人甚至可以理解的速度要快。通过数据排序,查找需要的病人信息,并做研究的诊断和治疗几乎是不可能没有Hadoop的巨大技术能力的。 该MAPR分布,包括Hadoop是帮助供应商组织医疗文件,与其他医生,患者和组织,流程和实验室结果,财务数据,临床资料,影像学报告,和输出的医疗设备进行通信交流。该功能几乎是无止境的,而Hadoop的新的功能和应用正在不断发展。 Hadoop的医疗保健有许多不同的用例。他们中的一些,包括帮助医生,患者和医疗机构,包
小莹莹
2018/04/20
7380
数据之海 — 探索大数据的无尽可能
在信息爆炸的时代,大数据已经成为当今社会的瑰宝,而数据科学的发展为我们揭开了一个神秘而广阔的世界 —— 数据之海。本文将带领读者踏上一段奇妙的探索之旅,深入了解大数据的定义、应用领域以及对未来的巨大影响。我们将揭示数据之海中隐藏的宝藏,并通过精心设计的实例演示,帮助新手更好地理解和学习数据科学的精髓。
默 语
2024/11/20
1590
推荐阅读
相关推荐
数据整合和机器学习深入客户见解
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档