1
什么是高维数据
高维数据在这里泛指高维和多变量数据,它蕴含的数据特征与二维、三维不同空间数据不同。其中,高维是指数据具有多个独立属性,多变量是指数据具有多个相关属性。
与常规的低维可视化方法相比,高维数据可视化面临的挑战是如何呈现单个数据点的各属性数据值分布,以及比较多个高维数据点属性之间的关系,从而提升高维数据的分类、聚类、关联、异常值检测、属性选择、属性关联等任务效率。因此,需要专业的可视化技术。
高维数据可视化分类(来源:《Python数据可视化之美》)
常见的高维数据可视化的4种方法如上图所示:
(1)基于点的方法:以点为基础展现单个数据点与其他数据点之间的关系(如距离、相似性、聚类等)
(2)基于线的方法:采用轴坐标编码各个维度的数据属性值,体现各属性之间的关联。
(3)基于区域的方法:将全部数据点的全部属性,以区域填充的方式展现在二维布局,并采用颜色等视觉通道呈现数据属性的具体值。
(4)基于样本的方法:采用图标或基本统计图表方法编码单个高维数据点,并将所有数据在空间排列方便用户进行对比分析。
四类可视化方法的特点比较
编码对象/方法 | 基于点 | 基于线 | 基于区域 | 基于样本 |
---|---|---|---|---|
单属性值 | 无 | 轴坐标 | 带颜色的点 | 基本可视化元素 |
全属性值 | 无 | 轴坐标链接 | 填充颜色块 | 可视化元素集合 |
多属性关系 | 无 | 轴坐标对比 | 以属性为索引的填充颜色块对比 | 无 |
多数据点关系 | 散点布局 | 折线的相似性 | 以数据序号为索引的填充颜色块对比 | 样本的排列对比 |
适应范围 | 分析数据点之间关系 | 分析各属性之间关系 | 大规模数据集的全属性同步比较 | 少量数据点的全属性比较 |
2
高维数据的变换展示
高维数据变换简单来说就是通过采用降维的方式把高维数据投影到低维空间,去除冗余属性同时尽量保留原数据的重要信息和特征。
根据降维方法主要可以分为线性和非线性变换两大类。其中线性变换包括主成分分析、非矩阵分解等;非线性变换包括特征映射、局部线性嵌套等。
主成分分析法
这个一个非常常用的降维方法,采用线性变换将数据变换到一个新的坐标系统。其中第一轴(第一主成分)方差最大,信息最多;第二轴(第二主成分)方差第二大,信息量次之。
绘制主成分分析图:
利用了sklearn的主成分分析函数PCA()来进行降维,使用plotnine包的geom_point以散点形式展现数据分析结果。数据采用sklearn内置的鸢尾花数据集。事实上sklearn内置了许多数据集,可以参考下方链接。
https://blog.csdn.net/weixin_45589713/article/details/106601047
此代码展示了数据结构:
from sklearn.decomposition import PCA
import pandas as pd
import numpy as np
from plotnine import *
from sklearn import datasets
iris = datasets.load_iris() #加载数据集
features = iris.data #获取鸢尾花的特征属性
df = pd.DataFrame(features, columns = ['var1', 'var2', 'var3', 'var4'])
df.head()
绘制图片:
#PCA变换,n_components决定了保留的成分个数
x_reduced = PCA(n_components = 2).fit_transform(features)
target = pd.Categorical.from_codes(iris.target, iris.target_names)
#构建df对象
df = pd.DataFrame(dict(pca1 = x_reduced[:, 0], pca2 = x_reduced[:, 1], target = target))
base_plot = (ggplot(df, aes('pca1', 'pca2', fill = 'target'))+
geom_point(alpha = 1, size = 3, shape = 'o', colour = 'k') +
stat_ellipse(geom = 'polygon', level = .95, alpha = 0.2) +
scale_fill_manual(values = ('#00AFBB', '#E7B800', '#FC4E07'), name = 'group') )
print(base_plot)
上图通过PCA变换,将鸢尾花4个特征降维为2个特征,并投影到2维坐标系中。可以看出降维后3个物种能够较好的区分,达到了降维的目的。
THE END
由于篇幅限制,本篇到此结束,主要介绍了高维数据的概念和PCA的实例应用,关于其他的可视化方法将在下一节介绍。
本文分享自 python数据可视化之美 微信公众号,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与 腾讯云自媒体同步曝光计划 ,欢迎热爱写作的你一起参与!