大数据分析岗有些神秘,主要是因为在普通人看来,超过500kb的数据都把自己给难到不行,但是大数据分析师却能处理超过10tb的数据集,这在她们看来很难理解。而对于在大数据分析岗上正在从业的人士而言,大数据分析的工作早就被流程化了,只要按照数据获得、数据清洗、数据存储、数据建模、数据分析、可视化结论等几个模块去执行,在每个环节用到不同的系统和软件,用鼠标点一点就能完成操作,不算难。
大数据分析的工作内容
具体来说,大数据分析师的工作包含以下这些:
第一,数据获得,通过多渠道方式获得大量数据,有什么方式可以得到数据呢?
1、爬虫,就是在网上获取。
2、问卷调查,这项工作可以交给专业的收集公司,他们会安排专人在大型商场或者是车站等地进行数据收集,为了保证数据收集的高效性一般会发一些小礼物给大家。
第二,数据清洗,即便有小礼物可拿,但赶着回去煮饭的家庭主妇、赶着去上班的白领们未必会很认真的填写,所以初期收集到的数据未必是真实的,可能会参杂着一定水分,所以需要做无效数据的剔除,确保留下来的都有分析的可能性。
第三,数据建模,建模乃是大数据分析的最难点,因为数据量大,看着A数据和B数据有关联,B数据和C数据也有关联,所以这时候就需要选择不同的切入点做建模,甚至根据过去调查结果显示,大多数刚走上大数据分析岗的新人都需要尝试n次之后才能找到正确的切入点。
第四,数据分析,为了保证最后结果的准确性,在建模环节不少人会多角度切入同时操作,这样在一个模型不契合之后可以直接进入到另外一个模型的反向评估,而所谓的数据分析其实就是反向评估的过程,随意拿数据套入到模型中看看是否满足,如果不满足就需要重新开始。
第五,可视化结论的获得,按照以上所说去反向评估之后应该就能得到一个跟真实情况维持一致的模型,这还不够,还需要以大众懂得的语言来得到结论,对非专业人士而言,他们并不知道到底这个模型图片代表着什么,你需要用文字组织语言、告诉大家这次分析之后的结果:不同参数数据之间的大概关系。
以上流程的执行虽然不难,但是要在每个环节上都做到需要学会各种不同的工具软件,如R,Tableau,Python,Matlab,Hive,Impala,PySpark,Excel,Hadoop,SQL和SAS,这些一个都不能少。懂流程,懂软件就可以开始尝试着分析了,也许初次接触的分析结果跟实际情况不统一,但总是能走完整个流程的。
摘自:https://www.aaa-cg.com.cn/data/4004.html?seo
领取专属 10元无门槛券
私享最新 技术干货