Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >入门 | 做数据科学如烤蛋糕?不服来看

入门 | 做数据科学如烤蛋糕?不服来看

作者头像
CDA数据分析师
发布于 2018-10-25 02:33:32
发布于 2018-10-25 02:33:32
5070
举报
文章被收录于专栏:CDA数据分析师CDA数据分析师

作者:Azika Amelia

机器之心编译 参与:高璇、王淑婷

本文转自机器之心,转载请授权

数据科学是什么,用来干什么?数据科学使用数学和不同的机器学习方法(也称算法)来实现不同目的。具体来讲,就和烤蛋糕的原理有些类似,至于怎么个类似法,请看作者的详细解说 ↓↓↓

面部识别自动驾驶、机器人统治世界?!还有那个令人毛骨悚然的机器人女孩,索菲亚。emmm…还有黑镜?

我们想知道它们都是怎么工作的。「这全是人工智能。」是的。但我们想知道更多。

数据科学、人工智能、大数据、机器学习等都是最近的热门词汇。它们大多与谷歌、苹果和亚马逊等大型科技公司有关。

幸运的是,你不用成为一名数据科学家就能对数据科学有所了解。只要你对此热爱、好奇即可。

什么是数据科学?

要事第一!

向亚马逊的聊天机器人寻求答案

数据科学使用数学和不同的机器学习方法(也称算法)来实现不同目的。

机器学习(ML)是编写计算机程序的科学和艺术,它使计算机具有了学习能力。你的计算机现在可以从它观察到的数据中学习,而不是像在传统计算机程序中那样盲目地遵循一套固定规则。你骂电脑是笨蛋的日子一去不复返了。

但是数据科学在哪里发挥作用呢?就在我们身边。Facebook 给你推荐可能认识的人、Youtube 预测股票市场价格的推荐系统,都需要数据科学。

数据科学按照一系列步骤来获得这些答案,而使用机器学习算法只是其中之一。

数据科学流程综述

我们要明白这样一个事实:无论电脑学什么,它都是从数据中学习。将数据视为配料、数据预处理视为食谱、机器学习算法视为烤箱、最终结果视为蛋糕。蛋糕的美味程度取决于原料的质量、食谱和烤箱温度设置。同样地,数据的质量非常重要,你采用的方法也是如此。

数据科学流程抽象图

数据和数据预处理

因此,第一步是收集数据并进行处理。就像你要买食材一样。

还需要确保数据与将要解决的问题相关。弄清楚需要多少数据,以及数据的形式(或格式),就像做蛋糕你要方糖还是砂糖?真实世界的数据集通常以表格形式显示,例如.xls、.csv 或.json 等。

有大量不同的算法可以帮助你进行数据清理和预处理。训练模型的数据会极大地影响模型性能。就像食谱决定蛋糕的味道。

数据集类型

数据集是以适当格式收集所有示例的集合。它可以是一个*标注的*数据集,也可以是一个*未标注的*数据集。

标注的数据集是指具有特征值及其结果的数据集。而未标注的数据集中只有特征值。

特征好比不同的食材,如:牛奶、黄油、糖和鸡蛋是四个不同的特征。这些特征的结果是一个蛋糕。是特征帮你得到结果。

这是真实数据集的样子:

用于预测房价的标注数据集

选择机器学习算法

一旦数据集准备好了,就该使用机器学习算法了。这就是把蛋糕糊放进烤箱。

数据集和标签帮助你确定使用哪种算法。就像如果你想做一些冰淇淋,你需要的不是烤箱而是冰箱。你的配料和配方也会改变。

可供选择的算法

训练、测试、预测!

只学习测试中会出现的题目,你绝对会通过测试。但遇到没见过的题,就不会考得很好了。我们希望模型即使在没见过的例子上也能表现得很好。为了确保这一点,我们采用了一种技术。

我们将数据集分为两组:训练集和测试集。通常以 7:3 的比例来划分,这样有利于训练。

我们的模型仅从训练集的例子中学习。这样划分数据集可以帮助我们评估模型表现,明确提升空间。

训练-测试分解图

测试很简单。你问,模型答,然后给模型打分。它起作用是因为你是在未见过的例子上评估模型。通过的标准取决于你的需求。通常 80% 的通过率是可以达到的。

如果模型在第一次尝试中失败,不要失望,因为在最初的尝试中失败是很正常的。这是因为开始时你总是使用较简单的方法,然后根据测试得分,逐渐增加解决方案的复杂性。但在此之前,请重新评估你的数据集以及它的预处理方式。重复此过程,直到模型通过测试。

测试模型

一旦模型通过测试,就可以投入使用。换句话说,它为实时预测做好了准备。

提示:保持测试集中的数据模式与训练集中的数据模式相同。

数据可视化

既然你已经烤好了蛋糕,而且看起来很好吃,那就该上桌了。也许可以加一些糖霜,把它放在一个漂亮的托盘里等等。让它看起来更美味。

这就是数据可视化。通过制作图表,你可以利用不同的数据可视化技术向受众传达你对数据的理解。数据可视化可以在任何阶段进行,你可以在训练集中绘制现有的基础图案。

就像我说的,你不用成为数据科学家就能对数据科学有所了解。希望你喜欢我刚烤好的「蛋糕」。??

这是我写的第一篇博客。我最近开始了数据科学家的职业生涯。我觉得每个人——即使没有技术背景——都应该了解数据科学的基础知识。但是,大多数数据科学文章都充斥着技术术语,让外行人读起来佶屈聱牙,希望这篇文章能对你有所帮助。

原文链接:

https://blog.goodaudience.com/data-science-a-piece-of-cake-92a70232e71f

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-10-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CDA数据分析师 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
在数据科学中需要多少数学技能?(附链接)
作者:Benjamin Obi Tayo 翻译:刘思婧 校对:车前子 编辑:数据派THU
统计学家
2020/09/22
4480
Google首席决策师告诉你AI和数据科学团队需要哪10种角色?
【导读】组建一个出色的数据团队都需要哪些角色?Google 的首席决策工程师 Cassie Kozyrkov 在这一问题上有自己独到的见解。在她看来,一个好的 AI 和数据科学团队需要 10 种不同的角色。无论你是公司的管理者、招聘者,还是想在数据科学领域工作的求职者,都可以在这篇文章中找到对自己有用的信息。
AI科技大本营
2018/08/17
6250
Google首席决策师告诉你AI和数据科学团队需要哪10种角色?
开启数据科学之旅
不是很久以前,商人们往往找占星家来预测下明年是否能挣钱,虽然这毫无根据,并且结果也不确定,但如果听专家的建议来为自己的商业行为作出决定,与此有什么本质却别?现在不同了,我们正在变化,目前已经可以基于事实和数字进行预测。
老齐
2020/05/15
6200
开启数据科学之旅
数据科学入门指南
随着世界进入大数据时代,对其存储的需求也在增长。直到2010年,它一直是企业行业面临的主要挑战和关注点。主要重点是构建用于存储数据的框架和解决方案。现在,当Hadoop和其他框架成功解决了存储问题时,重点就转移到了处理这些数据上。数据科学是这里的秘诀。您在好莱坞科幻电影中看到的所有想法实际上都可以通过数据科学变成现实。数据科学是人工智能的未来。因此,了解什么是数据科学及其如何为您的业务增加价值非常重要。
大数据杂货铺
2020/02/11
6580
数据科学入门指南
探索数据科学家的日常:揭秘职业背后的故事
大家好,我是你们熟悉的大数据领域自媒体创作者Echo_Wish。今天我们来聊一聊数据科学家的日常工作。这个职业听起来高大上,甚至有点神秘。那么,数据科学家的一天究竟是怎样的呢?让我们一探究竟。
Echo_Wish
2025/02/14
580
探索数据科学家的日常:揭秘职业背后的故事
2023爱分析 · 数据科学与机器学习平台厂商全景报告 | 爱分析报告
经济新常态下,如何对海量数据进行分析挖掘以支撑敏捷决策、适应市场的快速变化,正成为企业数字化转型的关键。机器学习算法能识别数据模型,基于规律完成学习、推理和决策,正广泛的应用在金融、消费品与零售、制造业、能源业、政府与公共服务等行业的各种业务场景中,如精准营销、智能风控、产品研发、设备监管、智能排产、流程优化等。企业传统的机器学习虽然能有效支撑业务决策,但由于严重依赖数据科学家,其技术门槛高、建模周期长的特点正成为企业实现数据驱动的阻碍。
爱分析ifenxi
2023/02/14
6460
带你轻松看懂机器学习工作流 | 以“点一份披萨外卖”为例
你有没有想过,从下单点外卖到披萨送过来当中的流程呢?我指的是完成的工作流程,包括从种下披萨上的西红柿,到外卖骑手送单到你的楼下。其实这一系列过程与与机器学习工作流程并没有什么不同。
CDA数据分析师
2018/12/26
5260
入数据科学大坑,我需要什么样的数学水平?
本文的作者是物理学家、数据科学教育者和作家 Benjamin Obi Tayo 博士,他的研究兴趣在于数据科学、机器学习、AI、Python 和 R 语言、预测分析、材料科学和生物物理学。
机器之心
2020/06/18
7270
入数据科学大坑,我需要什么样的数学水平?
Python数据科学入门:基础知识、工具与实战应用
文章链接:https://cloud.tencent.com/developer/article/2465509
一键难忘
2024/11/27
2140
数据科学新人需要知道的13个雷区
看来你已经决定要进入数据科学这个领域了。数据正在驱动越来越多的业务,世界的联系正在变得越来越紧密,似乎每个业务都需要数据科学实践。因此,对数据科学家的需求是巨大的。更好的是,所有人都承认这个行业的人才短缺。
Python数据科学
2019/03/18
4090
数据科学新人需要知道的13个雷区
R 家族又添新丁,5个数据科学专用包,怀着探索的心态来使用吧
李垠序编译 出处:雪晴数据网 R生态体系有其非常之美,在于它的新包贡献系统,而这也可能是R使用者显著增加的根本原因。这一特点与坚如磐石的基础包版本库(CRAN)结合,给了R一个非常优越的条件。任何有足够专业技术的人,通过合适的方法都可以为CRAN贡献包。 仅仅关注CRAN可能无法发现其优秀的地方:事实上,对R的初学者而言,开源会让他们遇到很多麻烦。怎样通过一个有机的包系统来构造高质量的集成软件?学习这些需要花费许多时间和精力。不过即使是相对新手的人来说,发现那些支撑R语言发展的基础包并不难。那些可靠地为R
小莹莹
2018/04/20
8680
R 家族又添新丁,5个数据科学专用包,怀着探索的心态来使用吧
数据科学、人工智能与机器学习傻傻分不清楚,看这篇就够了
尽管"数据科学"、人工智能 (AI) 和机器学习属于同一领域,彼此相互联系,但是它们也有特定的应用背景和意义。它们有时也会有重叠,但基本上它们都有自己的特定的用途。
deephub
2020/05/09
5.3K0
数据科学、人工智能与机器学习傻傻分不清楚,看这篇就够了
五大难懂的Python库,每位数据科学家都应了解
每位数据科学家的项目都是从处理数据开始的,而互联网则是最大、最丰富、最易访问的数据库。但可惜的是,数据科学家除了能通过pd.read_html函数来获取数据外,一旦涉及从那些数据结构复杂的网站上抓取数据时,他们大多都会毫无头绪。Web爬虫常用于分析网站结构和存储提取信息,但相较于重新构建网页爬虫,Scrapy使这个过程变得更加容易。
人工智能小咖
2020/08/02
5260
五大难懂的Python库,每位数据科学家都应了解
Google 科学家最新整理,给新手的十篇最佳数据科学文章
作为数据科学的初学者,一些好的文章能够快速带我们入门这一充满了未知和挑战的领域。近日,google 决策智库的主管 Cassie Kozyrkov 整理了十篇给学生们推荐的最好的文章。下面这些文章几乎都来自于相同的博客。让我们来看看是哪些文章吧~
AI研习社
2019/08/23
5130
Google 科学家最新整理,给新手的十篇最佳数据科学文章
数据科学初学者不要做的三件事
这样一个受欢迎的领域吸引了人们作为职业选择。许多来自不同行业的人转行从事数据科学领域的工作。
deephub
2021/08/20
3110
对大数据和物联网环境中数据科学自动化的见解
数据科学在任何大数据研究实践或物联网(IoT)环境中位于核心地位。数据科学涉及广泛的技术,商业和机器学习算法。数据科学的目的不仅仅在于机器学习或统计分析,而在于从数据中挖掘出没有统计知识的用户也可以明白的深刻见解。在诸如大数据和物联网等快速节奏的环境中,数据类型可能随时间而变化,这使得每一次的维护和重建模型变得十分困难。
未来守护者
2018/05/02
7540
对大数据和物联网环境中数据科学自动化的见解
安全数据科学家的日常:需要做什么?将面对哪些挑战?
导读:目前网络安全领域的工作岗位远远多于合格的人选,所以好消息是网络安全还是一个适合涉足的领域。坏消息是要保持最新状态所需的技能在快速变化。通常情况下,需求是发明的动力。
IT阅读排行榜
2020/04/08
7050
安全数据科学家的日常:需要做什么?将面对哪些挑战?
独家 | 数据科学入门指南:新手如何步入数据科学领域?
数据科学,据说是本世纪最吸引人的工作,已经成为我们许多人梦寐以求的工作。但对某些人来说,数据科学看起来像一个充满挑战的迷宫,让人无从下手。如果你也是其中之一,那就继续阅读。
数据派THU
2020/06/01
8070
独家 | 数据科学入门指南:新手如何步入数据科学领域?
未来是数据科学的时代,也是数据科学家的时代
无论是在国内还是国外,数据科学都是目前最炙手可热的研究领域,数据分析师、数据科学家也是最火爆的职业。据LinkedIn的最新投票结果显示,“统计分析和数据挖掘” 是2014年最热门的职业技能,美国招聘
小莹莹
2018/04/23
7140
未来是数据科学的时代,也是数据科学家的时代
【智能】数据科学管道初学者指南
曾几何时,有一个名叫Data的男孩。 在他的一生中,他总是试图了解他的目的是什么。 我有什么价值观? 我可以对这个世界产生什么影响? 数据来自哪里? 看到你和数据之间的任何相似之处? 这些问题始终在他的脑海中,幸运的是,凭借纯粹的运气,Data终于遇到了一个解决方案,并经历了一次巨大的变革。
陆勤_数据人网
2018/10/26
6270
推荐阅读
相关推荐
在数据科学中需要多少数学技能?(附链接)
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档