Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >在未来的大数据和机器学习领域,获得一份不错的工作?

在未来的大数据和机器学习领域,获得一份不错的工作?

原创
作者头像
用户2292346
修改于 2018-12-03 02:30:33
修改于 2018-12-03 02:30:33
9390
举报

AI 的发展脚步会加快,这一年将是 AI 技术重生和数据科学得以重新定义的一年。对于雄心勃勃的数据科学家来说,他们如何在与数据科学相关的工作市场中脱颖而出?会有足够多的数据科学相关工作吗?还是说有可能出现萎缩?接下来,让我们来分析一下数据科学的趋势,并一探如何在未来的大数据机器学习 /AI 领域获得一份不错的工作。”

在这里还是要推荐下我自己建的大数据学习交流群:199427210,群里都是学大数据开发的,如果你正在学习大数据 ,小编欢迎你加入,大家都是软件开发党,不定期分享干货(只有大数据软件开发相关的),包括我自己整理的一份最新的大数据进阶资料和高级开发教程,欢迎进阶中和进想深入大数据的小伙伴加入。

1、你需要牢固掌握概率统计学,并学习和掌握一些算法,比如朴素贝叶斯、高斯混合模型、隐马尔可夫模型、混淆矩

阵、ROC 曲线、P-Value 等。

不但要理解这些算法,还要知道它们的工作原理。你需要牢固掌握梯度下降、凸优化、拉各朗日方法论、二次规划、偏微分方程、求积法等相关算法。

如果你想找一份高薪的工作,还需要掌握机器学习技术和算法,比如 k-NN、朴素贝叶斯、SVM 和决策森林等。

2、

现在大部分机器学习都需要海量数据,所以你无法在单台机器上进行机器学习。所以,你需要用到集群,需要掌握 Apache Hadoop 和一些云服务,如 Rackspace、Amazon EC2、Google Cloud Platform、OpenStack 和 Microsoft Azure 等。

你还需要掌握各种 Unix 工具,如 cat、grep、find、awk、sed、sort、cut、tr 等。因为机器学习基本上都是在 Unix 系统上运行的,所以需要掌握这些工具,知道它们的作用以及如何使用它们。

3、在掌握编程语言和算法的同时,不要忽略了数据可视化的作用。如果无法让你自己或别人理解数据,那么它们就变得毫无意义。数据可视化就是指如何在正确的时间向正确的人展示数据,以便让他们从中获得价值。主要的数据可视化工具包括:Tableau、QlikView、Someka Heat Maps、FusionCharts、Sisense、Plotly、Highcharts、Datawrapper、D3.js、ggplot 等。

4、要成为数据科学家,不一定非要拿到数据科学方面的学位。事实上,你完全不需要这么做,这样做反而不是个好主意。如果你能拿到计算机学位、工程学学位、经济学学位、数学学位、统计学学位、精算师学位、金融学学位或者自然科学学位(物理、化学或生物)都是可以的。甚至是人文科学(包括社会科学)也是可以的。

2019年跳槽指南:如何找到一份人工智能相关的工作?

AI前线 • 7小时前 • 技能Get

大数据把 AI 推向了技术炒作的舞台正中央,数据科学和机器学习在各行各业开始崭露头角

AI 前线导读:“2017 年,大数据把 AI 推向了技术炒作的舞台正中央,数据科学和机器学习在各行各业开始崭露头角。机器学习开始被应用于解决数据分析问题。机器学习、AI 和预测分析成为 2017 年的热门话题。我们见证了基于数据的价值创新,包括数据科学平台、深度学习和主要几个厂商提供的机器学习云服务,还有机器智能、规范性分析、行为分析和物联网

增强技术实力

编程语言和开发工具

365 Data Science 收集了来自 LinkedIn 的 1001 数据科学家的信息,发现需求量最大的编程语言为 R 语言、Python 和 SQL。另外,还要求具备 MATLAB、Java、Scala 和 C/C++ 方面的知识。为了能够脱颖而出,需要熟练掌握 Weka 和 NumPy 这类工具。

概率统计学、应用数学和机器学习算法

你需要牢固掌握概率统计学,并学习和掌握一些算法,比如朴素贝叶斯、高斯混合模型、隐马尔可夫模型、混淆矩阵、ROC 曲线、P-Value 等。

不但要理解这些算法,还要知道它们的工作原理。你需要牢固掌握梯度下降、凸优化、拉各朗日方法论、二次规划、偏微分方程、求积法等相关算法。

如果你想找一份高薪的工作,还需要掌握机器学习技术和算法,比如 k-NN、朴素贝叶斯、SVM 和决策森林等。

分布式计算和 Unix 工具

现在大部分机器学习都需要海量数据,所以你无法在单台机器上进行机器学习。所以,你需要用到集群,需要掌握 Apache Hadoop 和一些云服务,如 Rackspace、Amazon EC2、Google Cloud Platform、OpenStack 和 Microsoft Azure 等。

你还需要掌握各种 Unix 工具,如 cat、grep、find、awk、sed、sort、cut、tr 等。因为机器学习基本上都是在 Unix 系统上运行的,所以需要掌握这些工具,知道它们的作用以及如何使用它们。

查询语言和 NoSQL 数据库

传统关系型数据库已经老去。除了 Hadoop 之外,你还需要掌握 SQL、Hive 和 Pig,以及 NoSQL 数据库,如 MongoDB、Casssandra、HBase

基于 NoSQL 分布式数据库的基础设施已经成为大数据仓库的基础。原先在一个中心关系型数据库上需要 20 个小时才能处理完的任务,在一个大型的 Hadoop 集群上可能只需要 3 分钟时间。当然,你也可以使用 MapReduce、Cloudera、Tarn、PaaS、Chef、Flume 和 ABAP 这些工具。

数据可视化工具

在掌握编程语言和算法的同时,不要忽略了数据可视化的作用。如果无法让你自己或别人理解数据,那么它们就变得毫无意义。数据可视化就是指如何在正确的时间向正确的人展示数据,以便让他们从中获得价值。主要的数据可视化工具包括:Tableau、QlikView、Someka Heat Maps、FusionCharts、Sisense、Plotly、Highcharts、Datawrapper、D3.js、ggplot 等。

正确选择教育背景和专业

要成为数据科学家,不一定非要拿到数据科学方面的学位。事实上,你完全不需要这么做,这样做反而不是个好主意。如果你能拿到计算机学位、工程学学位、经济学学位、数学学位、统计学学位、精算师学位、金融学学位或者自然科学学位(物理、化学或生物)都是可以的。甚至是人文科学(包括社会科学)也是可以的。

但或许你会在其他领域得到更好的发展,比如经济、应用数学或工程领域。首先要确定数据科学这条路是不是适合自己。2019 年绝对不会让那些有志在数据科学领域一展身手的人失望。不过还是那句话,一个具备分析能力的大脑、熟练的编程技能、诚挚的热情和持续自我提升的毅力将决定你的数据科学家之路会走多远。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
糟糕,线上OOM了该怎么办,JVM heap dump快速分析
在故障定位(尤其是out of memory)和性能分析的时候,经常会用到一些文件辅助我们排除代码问题。这些文件记录了JVM运行期间的内存占用、线程执行等情况,这就是我们常说的dump文件。常用的有heap dump和thread dump(也叫javacore,或java dump)。我们可以这么理解:heap dump记录内存信息的,thread dump记录CPU信息。
架构师修炼
2020/07/20
7K0
糟糕,线上OOM了该怎么办,JVM heap dump快速分析
JVM故障分析及性能优化实战(VI)——JVM Heap Dump(堆转储文件)的生成和MAT的使用
正如Thread Dump文件记录了当时JVM中线程运行的情况一样,Heap Dump记录了JVM中堆内存运行的情况。 可以通过以下几种方式生成Heap Dump文件:
IT技术小咖
2019/09/29
3.8K0
JVM故障分析及性能优化实战(VI)——JVM Heap Dump(堆转储文件)的生成和MAT的使用
MAT工具定位分析Java堆内存泄漏问题方法
MAT,全称Memory Analysis Tools,是一款分析Java堆内存的工具,可以快速定位到堆内泄漏问题。该工具提供了两种使用方式,一种是插件版,可以安装到Eclipse使用,另一种是独立版,可以直接解压使用。
朱季谦
2021/06/29
3.2K0
美团面试:说说OOM三大场景和解决方案? (绝对史上最全)
小伙伴们,有没有遇到过程序突然崩溃,然后抛出一个OutOfMemoryError的异常?这就是我们俗称的OOM,也就是内存溢出。简单来说,就是你的Java应用想要的内存超过了JVM愿意给的极限,就会抛出这个错误。
程序员江小北
2024/02/24
9030
美团面试:说说OOM三大场景和解决方案? (绝对史上最全)
heapdump
通过上一篇 监控和管理生产环境spring boot actuator 我们可以知道可以通过boot集成的actuator插件来监控并管理服务的运行状况,处理由于某种不规范的操作,导致短时间内cpu内存暴增,通过log文件有时很难定位出现问题的环节。遇到这样的问题,除了通知运维同学通过jmap或jcmd指令导出jvm heap dump(堆转存文件)文件快速定位问题以外,如果我们的服务仍然可以正常工作的话,还可以通过actuator为我们提供的jvm heap dump接口来导出jvm heap dump文件。
用户7798898
2022/05/09
1.4K0
heapdump
一次通过dump文件分析OutOfMemoryError异常代码定位过程
OutOfMemoryError是Java程序中常见的异常,通常出现在内存不足时,导致程序无法运行。
codetrend
2024/05/06
4670
一次通过dump文件分析OutOfMemoryError异常代码定位过程
手把手:Java内存泄漏分析Memory Analyzer Tool
点击上方"IT牧场",选择"设为星标"点击上方"IT牧场",选择"设为星标"技术干货每日送达
用户1516716
2019/08/06
13.4K0
手把手:Java内存泄漏分析Memory Analyzer Tool
JVM垃圾回收与一次线上内存泄露问题分析和解决过程
内存泄漏(Memory Leak)是指程序中己动态分配的堆内存由于某种原因程序未释放或无法释放,造成系统内存的浪费,导致程序运行速度减慢甚至系统崩溃等严重后果。
猿天地
2020/02/14
1.1K0
JVM垃圾回收与一次线上内存泄露问题分析和解决过程
堆转储文件泄露
一开始通过浏览器访问目标站点,发现网站Icon是一个小绿叶,初步猜测网站使用了Spring Boot框架。然后进行执行器端点路径的枚举,得到以下相关路径:
Naraku
2021/07/29
1.2K0
堆转储文件泄露
JVM-通过MAT工具对dump文件进行分析
MAT(Memory Analyzer Tool),一个基于Eclipse的内存分析工具,是一个快速、功能丰富的JAVA heap分析工具,它可以帮助我们查找内存泄漏和减少内存消耗。使用内存分析工具从众多的对象中进行分析,快速的计算出在内存中对象的占用大小,看看是谁阻止 了垃圾收集器的回收工作,并可以通过报表直观的查看到可能造成这种结果的对象。 官网地址:https://www.eclipse.org/mat/
共饮一杯无
2022/11/28
2.2K0
JVM-通过MAT工具对dump文件进行分析
jvm系列(七):jvm调优-工具篇
16年的时候花了一些时间整理了一些关于jvm的介绍文章,到现在回顾起来还是一些还没有补充全面,其中就包括如何利用工具来监控调优前后的性能变化。工具做为图形化界面来展示更能直观的发现问题,另一方面一些耗费性能的分析(dump文件分析)一般也不会在生产直接分析,往往dump下来的文件达1G左右,人工分析效率较低,因此利用工具来分析jvm相关问题,长长可以到达事半功倍的效果来。 jvm监控分析工具一般分为两类,一种是jdk自带的工具,一种是第三方的分析工具。jdk自带工具一般在jdk bin目录下面,以exe的形
纯洁的微笑
2018/04/19
1.4K0
jvm系列(七):jvm调优-工具篇
JVM 常见线上问题 → CPU 100%、内存泄露 问题排查
  后文会从 Windows、Linux 两个系统来做示例展示,有人会有疑问了:为什么要说 Windows 版的 ? 目前市面上还是有很多 Windows 服务器的,应用于传统行业、政府结构、医疗行业 等等;两个系统下的情况都演示下,有备无患
青石路
2020/10/09
2.8K0
掌握这几点,让你轻松搞定内存泄露、内存溢出!
学会下面这几个方法,让你轻松玩转内存溢出,我们会从 Windows、Linux 两个系统来做示例展示,有人会有疑问了:为什么要说 Windows 版的 ?因为目前市面上还是有很多 Windows 服务器的,应用于传统行业、政府结构、医疗行业等等;两个系统下的情况都演示下,有备无患,
终码一生
2022/04/14
2K0
掌握这几点,让你轻松搞定内存泄露、内存溢出!
Linux如何使用MAT分析dump文件
可用的内存变成0kB了,以前服务是正常的,猜测出现内存泄露。使用Eclipse MAT工具进行分析。
伊泽瑞尔
2022/06/01
4.6K0
Linux如何使用MAT分析dump文件
Eclipse Memory Analyzer(MAT) 使用总结
在日常的开发工作中,遇到生产环境报OOM的问题时,你首先会想到采用哪些方式并使用什么样的工具对OOM问题进行分析,定位和解决呢?
从大数据到人工智能
2022/09/16
5.5K0
Eclipse Memory Analyzer(MAT) 使用总结
获取 Spring heapdump中的密码明文
Actuator是Spring Boot提供的应用系统监控的开源框架。在攻防场景里经常会遇到Actuator配置不当的情况,攻击者可以直接下载heapdump堆转储文件,然后通过一些工具来分析heapdump文件,从而可进一步获取敏感信息。
Bypass
2022/12/01
1.9K0
一次频繁full gc引发的问题排查
刚发布的应用,间隔8小时不到,就开始告警,告警的位置还很特殊,属于调用外组接口的位置,让人费解。
品茗IT
2023/10/22
9500
一次频繁full gc引发的问题排查
Java进行内存泄露​ GC 分析都有哪些常用好用的工具
使用Java语言开发应用程序,虽然JVM帮我们进行了GC收集、清除工作;但是使用不当的话,还是会导致某些对象常驻堆空间无法给垃圾收集器清除,导致内存泄露、内存溢出等情况,今天盘点一下在项目中进行内存泄露分析和GC分析的一些常用、好用的工具。
BUG弄潮儿
2021/01/05
1.3K0
MAT入门到精通(二)
上一篇文章MAT入门到精通(一)介绍了MAT的使用场景和基本概念,这篇文章开始介绍MAT的基本功能,后面还有两篇,一篇是MAT的高级功能,另一篇是MAT实战案例分析。
kirito-moe
2019/05/10
1.7K0
MAT入门到精通(二)
MAT入门到精通(二)
上一篇文章MAT入门到精通(一)介绍了MAT的使用场景和基本概念,这篇文章开始介绍MAT的基本功能,后面还有两篇,一篇是MAT的高级功能,另一篇是MAT实战案例分析。
阿杜
2019/03/04
1.1K0
MAT入门到精通(二)
推荐阅读
相关推荐
糟糕,线上OOM了该怎么办,JVM heap dump快速分析
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档