CrossVis 应用程序包括平行坐标图(左)、平铺图像视图(右图)和其他交互式数据视图。
从材料科学和地球系统建模到量子信息科学和网络安全,许多领域的专家进行模拟和实验,以收集科学进步所需的大量数据。但是,从这些数据中收集有用的见解可能是一项挑战,尤其是当多个复杂变量影响研究结果时。
为了更好地分析所谓的多变量数据,能源部橡树岭国家实验室的研究人员开发了一个开源的、可定制的可视化分析系统,名为 CrossVis。与类似的工具(往往侧重于数值数据并提供结果的单一可视化表示)不同,CrossVis 在平衡数值、分类和基于图像的数据的同时,提供了这些数据类型和其他数据的多个动态、协调的视图。
ORNL的研究人员约翰·古道尔、郑洪·蔡、阿特姆·特罗菲莫夫和查德·斯蒂德,ORNL科技进步视觉信息学主任,或VISTA实验室,使CrossVis在线提供,并公布了该系统在图形和视觉计算方面的独特功能。
"CrossVis 是分析许多不同类型的数据的一站式商店,它揭示了不仅仅是两个变量之间的关系,"Steed 说。
该工具的主视图由并行坐标图(PCP)组成,这是一种流行的信息可视化技术。PCP 将数据表的列显示为垂直轴,其行显示为折线,折线是连接到轴的相互依赖线段的链。在这种情况下,CrossVis 接口超越了传统的 PCP,包括非数字数据,这些数据没有自然顺序,也没有临时数据或基于时间的数据。
此外,CrossVis 还提供散点图、图像窗格和其他选项,以补充主视图,以帮助用户识别异质多变量数据中的关键模式和有趣的异常。为了缩小焦点,用户还可以选择同时突出显示所有视图中的变量,生成新数据或输入参数以筛选现有数据。
"以前,科学家不得不使用单独的程序来分析图像数据、数字数据和分类数据,然后手动比较结果,"Steed 说。"CrossVis 允许他们在单个框架中完成所有这些步骤。
该团队利用该系统分析分类和图像数据的能力,将其应用于由 ORNL 纳米相材料科学中心(CNMS)的研究人员领导的基因工程项目,该项目涉及验证用于扫描硅藻电子显微镜图像的人工神经网络(ANN)的结果。硅藻是一种藻类,会产生强二氧化硅,可用于工业目的,包括药物输送和水过滤。
具体来说,CNMS团队对硅藻上的毛孔进行特征化,以区分这些生物体的未修饰或野生的硅藻和转基因版本。最终,这些见解可以帮助科学家优化和模拟硅藻生物矿化,这是这些生物体用于产生二氧化硅的过程。
该团队使用 CrossVis 来检查硅藻参数之间的关系,该工具的许多视图揭示了两个类别之间的细微差异。例如,研究人员确定野生硅藻的毛孔比改良的孔更小,而改性直径的毛孔较少,而孔隙体型较小。
"ANN 自动派生图像分类,将毛孔识别为分离两种类型的硅藻的重要特征,"Steed 说。但是,这些结果并不清楚算法为何选择按其方式对毛孔进行分类,因此 CrossVis 使 CNMS 科学家能够解释和验证他们的发现。
"没有 CrossVis,我们不可能完全了解如何根据这些关键参数(即平均面积和毛孔密度)区分野生和改性硅藻图像,"ORNL 研究员 Artem Trofimov 补充说,他领导了 CNMS 项目。
为了在更大范围内证明 CrossVis 的价值,Steed 和他的合作者还与 ORNL 领导的团队合作,该团队开发了能源 Exascale 地球系统模型,以帮助验证气候建模技术。此外,该小组还利用 CrossVis 验证了国家海洋和大气管理局大西洋飓风数据库中的数据,该数据库中包含 21 个列和 50,000 多行有关飓风位置、大小和其他特征的统计信息。
"这是一个很好的用例,因为它是一个更大的数据集,变量更多,"Steed 说。"我们发现一些模式证实了已知的飓风状况,这表明 CrossVis 可以在更大范围上有效地验证实际结果。
今后,CrossVis 团队的目标是进一步改善这一资源。例如,研究人员计划扩大 CrossVis 以在高性能计算系统上运行。凭借超级计算机(如 ORNL 峰会)的处理能力,CrossVis 可以更高效地完成复杂的计算。
通过整合自动化机器学习技术,团队计划更积极地捕获用户与数据的交互。科学家将数据样本标记为标签,内置的人工智能算法将在数据中不可见的部分中识别、标记和编译类似的模式,使用户能够快速分析整个数据集并可能做出意外发现。
"如果你尝试手动整理飓风数据集或气候建模数据,这需要一生的时间,"Steed 说。这种人机合作将领域专家的创造力和直觉与计算机的数据处理能力相结合,是进行更有效的数据分析的关键。
领取专属 10元无门槛券
私享最新 技术干货