G
GPU加速的数据库:
提取流数据所需的数据库。
图分析:
一种组织和可视化集合中不同数据点之间关系的方法。
H
Hadoop:
一种用于处理和存储大数据的编程框架,尤其是在分布式计算环境中。
I
Ingestion摄取:
从许多不同来源获取流数据。
M
MapReduce:
一种数据处理模型,该模型在Map阶段对数据进行过滤和排序,然后对该数据执行功能,并在Reduce阶段返回输出。
Munging:
手动将数据从一种原始格式转换或映射为另一种格式以便更方便使用的过程。
N
正态分布:
表示大量随机变量的概率的通用图,其中,随着数据集的增加,这些变量趋于正态。也称为高斯分布或钟形曲线。
规范化:
将数据组织到表中的过程,以便使用数据库的结果始终是明确的和预期的。
P
解析:
将数据(例如字符串)划分为较小的部分以进行分析。
永久性存储:
一个不变的位置,例如磁盘,在创建数据的过程结束后将数据保存在该位置。
Python:
一种通用的编程语言,强调代码的可读性,以允许程序员使用较少的代码行来表达其概念。
R
R:
一种主要用于数据可视化和预测分析的开源语言。
实时流处理:
一种模型,可通过并行使用机器来分析数据序列,但功能有所减少。
关系数据库管理系统(RDBMS):
一种系统,用于管理,捕获和分析基于称为关系的共享属性进行分组的数据。
弹性分布式数据集:
Apache Spark抽象数据的主要方式,其中数据以容错的方式存储在多台计算机上。
S
碎片:
数据库的单个分区。
智能数据:
经过格式化的数字信息,可以在收集点上对其进行操作,然后再发送到下游分析平台以进行进一步的数据合并和分析。
流处理:
数据的实时处理。数据被连续,同时处理并逐记录进行处理。
结构化数据:
具有高度组织性的信息。
T
分类法:
根据预定系统对数据进行分类,并使用生成的目录来提供易于访问和检索的概念框架。
遥测:
远程获取有关对象的信息(例如,从汽车,智能手机,医疗设备或IoT设备)。
转换:
将数据从一种格式转换为另一种格式。
u
非结构化数据:
没有预定义数据模型或未按预定义方式组织的数据。
V
可视化:
分析数据并以可读的图形格式(例如图表或图形)表示数据的过程。
Z
区域:
数据湖中用于特定,明确定义目的的不同区域。