最近在 Coursera 上学习一门大数据相关的课程 Introduction to Big Data,选择这门课的初衷是,希望系统地了解从数据产生,存储,清理,到输入到机器学习模型,再到用于预测或分析整个过程。
课程背景
制作学校是:University of California, San Diego,两位老师是:
Ilkay Altintas, Chief Data Science Officer
Amarnath Gupta, Director, Advanced Query Processing Lab
2位老师都在San Diego Supercomputer Center (SDSC)工作,可见具有丰富的学术背景和应用背景,这也是我选择这门课的一个主要原因。
另外值得一提的是,这门课属于一个Specialization(专题)中的第一门课。如果不熟悉Coursera上Specialization的概念,我这里简要介绍一下。就拿这门而言,Introduction to Big Data是一个Course,包含3 weeks的课,同时,还有其它共6个courses组成了这个Big Data Specialization,这6 courses分别是:
Introduction to Big Data (3 weeks)
Big Data Modeling and Management Systems (6 weeks)
Big Data Integreation and Processing
Machine Learning with Big Data (5 weeks)
Graph Analytics for Big Data (4 weeks)
Big Data - Capstone Project
从课程名称,以及课程大纲的描述中可见,如果学完这个Specialization,可以对Big Data这个领域有个系统、全面的了解。我之前花了几个月,完成了另一个Deep Learning Specialization, 也是收获很大。
Week 1
因为这门课,包括这个专题的目标学生是beginner,所以内容相对比较基础。在这一周里,主要介绍了Big Data是什么,以及可以用来做什么,工作流程,以及一些术语.
介绍大数据的组成,其中unstructured占80%到90%
Data warehouse,通常使用hadoop / spark / storm
三大数据源:机器、组织和人
图数据库,Neo4J
大数据metric
the workflow for working with big data: big data -> better models -> higher precision
in situ: bringing the computation to the location of the data
What does it mean for a device to be “smart”? Connect with other devices and have knowledge of the environment.
讲师Ilkay还讲述了大量Big Data在现实生活的使用案例,比如结合sensor,卫星照片,社交媒体等数据源,发现和定位森林火警。
讲师Amarnath讲述了结合社交媒体数据分析的难度,但是可能带来的有趣前景:what new answers we could give, and what new questions we could ask.
小结
领取专属 10元无门槛券
私享最新 技术干货