什么是数据分析工程师?
数据分析师指的是不同领域中,专门从事领域内数据搜集、清洗、分析,并依据数据特征和统计结论,给出领域内相关问题的研究、评估和预测报告的专业人员。
01
专业领域的数据分析工程师有何特点?
1、知道如何提出正确的问题(核心特征);
2、善于数据分析,数据可视化和数据呈现;
3、辅助科学研究,帮助降低决策成本,提高获取科研结论的成功率,发现新的现象或者获得新的观点等。
02
数据分析工程师的主要任务有哪些?
1、从primary research和secondary research中收集提取数据
2、清理和选取数据,去除无关信息
3、熟悉使用统计软件和其他技术分析和解读数据
4、总结数据里的趋势或相关性
5、为科学研究的提供可行建议与判断研究观点的可靠性
6、提供准确的数据分析和可视化报告
7、创建并管理维持数据库,亦可开发针对特定问题的数据库,开放给其它专业研究人员使用
——数据分析师《我的任务》
03
为什么需要数据分析工程师?
1、大数据是一个时代,并不局限于生物领域,而且它正不断的证明自己是一种先进生产力。现在的爆发得益于收集、存储、分析、转化利用数据的成本不断下降,下降到唾手可得之时,即为爆发之时。
2、以生物医学领域为例,从生物学角度来看,生物学科发展那么多年,早已经进入了分子时代,以前由于技术限制,只能单个或者少数几个基因,少量的生物个体进行研究。而这种东西在大数据面前这种研究模式不能继续成为理所当然,因为我们不能一直管中窥豹,因为想看得更远,只能站的更高,一定要有大局观。人有两万左右的编码基因,加上一些其他基因有4万多,如果还是现在的基本分子生物学将无法进行研究,即使耗费足够的精力,也无法研究清楚,因为机体是个整体,牵一发而动全身,不通过组学将很难全局的观测到发生的变化。
3、人的需求时无止境的,在满足人不断发展的需求中,各种新型技术不断涌现。无论是对当前医疗现状的不满,亦或是技术发展到可以解决医学领域的老大难问题也罢,人对疾病的精准智能诊断、药物研发的智能化、治疗方案的精准智能化的需求是在不断被强化的,加之各种相关资源的获取成本不断降低,如此种种变化就必然迎来精准医学领域蓬勃发展以及带来数据的爆炸式增长。这些数据的不断增加,必然需要更加智能的分析系统和专业的数据分析工程师。这就是行业新的需求以及对从业人员的新要求。
04
数据分析工程师有哪些必备技能?
要成为一名成功的数据分析师,需要的技能主要有两大块:挖掘问题和解决问题
挖掘问题
它是最核心的技能
主要依赖于对领域内知识和现状的理解,同时更为重要的是兴趣、好奇心与批判性思维。
解决问题
从数据角度解决问题依赖于
1、分解问题的能力
如何将挖掘到的专业问题转变成数据问题是充满挑战和智慧的事,这也是用科学的方法和思路解决专业领域内问题的必备条件。
2、知识体系
统计学的基本知识、不同算法和或统计方法3、依赖的数学基础知识
领域数据特征与数据产生原理(专业相关)
4、软件工具与数据格式
对于数据分析师来说,可能每个项目的70%到80%的时间都是在收集和处理数据,他们需要首先想好需要什么样的数据,期望得到什么样的结论,从哪里可以收集到数据?而后才是利用已有的或者自己开发相应的工具来收集、清洗、分析数据。为了能更好的从数据里提取到需要的信息,以下这些软件就是数据分析师们常用的。
Querying language和Statistical language主要是用来做一些初步的数据分析,例如可以出一些图表,看一下数据的分布,从而对数据有个了解。而scripting language则可以用于建模或者测试一下hypothesis。因此总的来说,这些软件对于数据分析师来说就像厨师的刀,是必不可少的工具。
查询语言(Querying Language)
SQL; CQL; Hive; Pig...
脚本编程语言(Scripting Language)
Python; Perl; Matlab...
统计语言(Statistical Language)
R; SAS; SPSS...
数据表(Spreadsheet)
Excel...
绘图语言
ggplot2, EChats, AntV
其它工具
Tableau; LaTeX; PowerPoint; Word; ECharts...
计算平台工具
Hadoop; Slurm; Docker; Conda...
常用文件格式
FastQ; BAM; VCF; CSV; TSV...
05
数据科学常见过程?
1、问题陈述
识别出目标问题是什么?
2、数据收集与存储
数据从何而来?将它们存放在哪?存储格式是什么?需要多少存储空间?等等
3、数据清洗
数据是否需要修改?有什么需要删除的?数据应该怎样调整才能适用于接下来的分析与挖掘?
4、数据分析与机器学习
数据需要哪些处理?需要什么样的转换?使用什么样的统计方法/算法?运用什么公式?是否需要用机器学习算法/AI技术?使用什么机器学习算法?顺序又是怎样的?
5、数据展现和可视化实现
数据处理结果应该怎样呈现出来?可以用一张或几张数据表来表现,亦可使用热图、PCA、柱状图、WordCloud、地图等形式。但是最佳的可视化方案是什么?有没有更好的替代方案呢?选用的可视化方案能否很好的与想要表达的观点契合?
6、问题决议
在第一步里所提出来的疑问或者问题的答案究竟是什么?数据处理结果还有哪些不足?这个方法能彻底解决问题吗?你还能找出别的办法吗?
在数据分析、挖掘、机器学习或是可视化实现之前,做好相关的数据清洗工作意义重大。不过,请牢记,这是一个迭代的过程,因为在项目中我们可能需要不止一次地执行这些清洗操作。此外,我们所采用的挖掘或分析方法会影响清洗方式的选取。我们可以认为数据清洗包含了分析方法所能决定的各种任务,这有可能是交换文件的格式、字符编码的修改、数据抽取等等。
以上,我们对数据分析工程师所必备的技能以及数据科学常见过程进行了概述,此为数据科学专栏的第一篇文章,之后我们将给大家呈现生物医学领域的数据分析的各种工具、应用和分析方法。为您学习数据分析和解决研究中遇到的问题提供些许帮助
数据可视化是数据分析中的重头戏,不过数据可视化本身只是用图来展示关键性的信息,图的选择也并非一层不变的,需要依据具体需求来选择,主要是要能用于直观表达你的观点!在我们研究发表文章的时候,很多编辑看完你的题目和摘要之后就会去找你的图,如果没有看到他想要的很多时候就会认为研究不到位或者有缺陷。一般来说论文中的图是有规律的,不同类型的研究通常来说都需要包含一些特定类型的图,如果你没有可能编辑就要打个问号了!是不是少了某些实验或者数据!另外一个就是图表的数量,随阐述问题的复杂程度不同图表数量不同!所以大家可以收集一些常见的图表,熟悉图所表达的意义。只有真正理解图的特点,常用于解释或者说明哪些类型的问题,才有可能在自己研究时做到游刃有余。
——小编寄语
领取专属 10元无门槛券
私享最新 技术干货