作者:Elisabeth Richter Sasha Rezvina翻译:陈之炎校对:欧阳锦
本文约5100字,建议阅读10分钟本文为您展示了KNIME分析平台的用户界面,解释了其关键功能,在展示友好的KNIME分析平台的同时,演示如何创建一个无代码的数据科学项目。
标签:KNIME分析平台
近年来,数据科学在我们的日常生活中无处不在,许多数据分析工具得以萌芽和发展,供数据科学家使用。Python、R或KNIME分析平台是最常见的数据分析工具。KNIME分析平台包含了可视化编程环境和直观界面等技术在内的具有创新特质的诸多特点。
在本博中,为您展示了KNIME分析平台的用户界面,解释了其关键功能,在展示友好的KNIME分析平台的同时,演示如何创建一个无代码的数据科学项目。为此,将采用一个具体的例子来实现基于k-Means聚类过程的客户细分工作流程。
KNIME分析平台是一个免费的,开源的软件,贯穿于整个数据科学的生命周期。KNIME的可视化编程环境不仅提供了访问、转换和清洗数据的工具,而且还可以训练算法、执行深度学习、创建交互式可视化等等。
KNIME分析平台的用户界面也可称为工作台,其典型组织方式如图1所示。
图1.KNIME工作台概述
使用“节点”组装一个可视化的工作流,节点在KNIME分析平台中显示为一个彩色的方框,可执行一个独立的任务。相互连接的节点集合构成了工作流,代表部分或全部数据分析项目。
单个节点都可以执行各种任务,例如,读写文件、转换数据、训练模型,或创建可视化。可以在节点存储库中找到(在左下角)不同类型的节点。数据通过输入端口和输出端口在节点间实现路由。单个节点可以有数据输入或数据输出,也可以有其他对象,如机器学习模型、SQL查询或数据属性,对象专用输入端口或输出节点,相同类型的端口之间可以实现互联。节点根据其类别进行颜色编码,例如,所有黄色节点都用于数据整理。根据各自的任务,对节点进行特定的设置,可以在其配置对话框中调整节点的设置。
每个节点下面有一个简单的交通灯系统,显示该节点是否已经配置、已执行,或者是否发生了错误。
图2.单个节点的不同状态
KNIME分析平台中的工作流由多个节点组合而成。互联的数据节点从左到右流过工作流。
可以使用注释——自由放置在工作流中的彩色框架来记录工作流中的步骤。
图3.利用k-Means聚类过程执行客户细分的简单工作流程。工作流的任务、读取数据预处理的每个步骤以及应用k-Means可视化都记录在注释框中
还可以在工作流中识别孤立的逻辑操作块,并将这些节点包含到所谓的元节点或组件中。组件和元节点一样,不是为了更加透明而对某些节点进行分组,而是封装和抽象了逻辑块的功能。组件与节点具有类似的用途,而元节点更像是对视觉外观的改善。
除了上述功能外,KNIME分析平台还有两个重要的元素——扩展和集成。各种扩展和集成为KNIME的核心功能提供了附加的功能。例如,KNIME深度学习-Keras集成或文本处理扩展只是众多扩展中的两种。
最后,再说几句关于在哪里获取帮助和资源的话。
KNIME Hub是一个公共存储库,可以在其中找到大量的节点、组件、工作流和扩展,并提供了与其他KNIME用户协作的空间。在KNIME Hub上,还可以找到示例工作流和预打包组件。
KNIME社区论坛是一个与其他KNIME用户交流经验、寻求帮助或提供技能来帮助他人的环境。
如果需要帮助来启动项目,在我们的学习网页上,可找到额外的课程和材料。
接下来把知识付诸实践,组装一个可视化的工作流,利用k-Means聚类分割客户数据。
可以从Kaggle下载用于本示例的数据集,其中包含一些基本的客户数据:“客户ID”、“性别”、“年龄”、“年收入”和“支出分数”。
有很多方法来实现客户细分。其中大多数包含了至少一个输入属性的一些先验知识。当对先验知识一无所知时,就知识或目标而言,通常通过聚类技术来执行客户细分。
通常,用聚类检测数据中的底层模式、相似的特征或数据点,将相似性高的数据分组到一起。在所有的聚类技术中,k-Means是一种非常简单的技术,而且也足够有效。
本示例实现一个工作流,读取数据,应用k-Means算法,评估最终聚类的质量,并可视化获得的聚类集。此工作流程如图3所示,可以从KNIME Hub免费下载。
首先,需要将数据读入到工作流中。KNIME分析平台为不同的文件类型提供了多种数据读取选项,例如,带有Excel阅读器节点的Excel文件,带有文件读取器节点的文本文件,或带有CSV读取器节点的CSV文件。也可以使用专用的数据库节点连接到数据库并从数据库中读取。要将数据读取到KNIME分析平台中,有两种不同的选择。
可以将文件拖放到工作流中,如果它是一个已知文件扩展名的文件,KNIME分析平台会自动创建正确的读取器节点,并自动将文件位置输入到节点配置设置当中。
或者,也可以手动创建和配置该节点。从节点存储库(Node Repository)中选择相应的读取器(reader)节点(图4),拖放到工作流编辑器区域,双击新创建的节点(或右键点击,然后选择“配置”(“Configure”)),并在配置窗口中插入文件位置。
CSV Reader节点的配置窗口(图5)显示了需要读取数据的预览。在这里,可以发现存在的读取问题,当发生数据读取问题时,可在同一配置窗口中修复它们。如果已经正确读取数据,那么只需单击节点配置窗口右下角的“确定”。
注意,以下都是标准的操作。
在本示例中,找到文件Mall_Customers.csv,将其拖放到KNIME分析平台工作台中心的工作流编辑器中。自动创建CSV Reader节点,打开节点对话框,自动填写设置(图5)。此时,所有设置均正确,只需单击配置窗口底部的“确定”。
图4.通过节点存储库搜索CSV读取器节点
图5.CSV读取器节点的配置窗口
b)对节点属性进行归一化
k-Means算法需要归一化的数值属性。一般来说,当属性是两个不同的非可比单位(例如,cm和kg)或属性之间的方差很大时,必须进行归一化。通过对值进行归一化,确保输入特征在距离或方差计算中不主导其他特征。另外,在将标称属性输入算法之前需要离散,否则无法正确处理。使用“分类成数值”节点(Category to Number node)离散标称变量。
本数据集由五个属性组成,其中一个是分类变量(“性别”),其他四个是数值变量。通常,最佳的实践是使用全部输入属性,但此时,决定将自己数据集属性限定在两个以内:年收入和支出得分。这样做的目的是为了在二维散点图中获得更清晰的结果可视化,从而更容易比较不同情况下k-Means的运行结果。
在归一化节点的配置窗口(图6)中,选择需要进行归一化的属性。使用min-max归一化简单地将值转换为[0,1]区间,其中最小的值转换为0,最大的值转换为1。当然,也可以有其他选择,比如z分数归一化(适用于有许多异常值的情况),或通过十进制缩放实现归一化。
图6.归一化节点的配置窗口
(通过拖放或双击)插入归一化节点。
若要连接两个节点,应右键单击节点A的输出端口,并将光标拖动到节点B的输入端口;或者,选择节点A并双击节点存储库中的节点B:这个操作将自动创建节点B,并自动将其连接到选定的节点A。
然后,配置好归一化节点(图6)。
既可以单步执行以节点,检查中间结果,也可以一次性检查整个工作流。工具栏中的两个绿色箭头按钮负责这两种不同类型的执行方法。
将规范归一化的数据集连接到k-Means节点,配置聚类的数量k。如果事先不能知道正确的聚类的数量的话,可以尝试输入一些聚类的数目,然后直观地比较和评估最终的聚类数;也可以通过轮廓系数(Silhouette Coefficient)测量和比较不同数目聚类的质量。也可以运行一种优化方法得到最优的聚类数,如肘部法,轮廓优化法,或间隙统计法。
从k=3开始。在k-Means节点的节点配置窗口中(图7)中,决定是用数据集的前k行还是用k个随机数据点初始化算法。此外,还可以包含或排除是否计算距离的属性。
读者可能会对为什么排除距离测量的选项产生疑惑。在这种情况下,k-Means节点默认使用欧几里德距离。注意,欧氏距离仅适用于数值属性,因此只有数值列可以从“包含”移动到“排除”面板,反之亦然。这里使用了两个归一化的输入属性,年收入和支出得分。当添加属性年龄时,会得出相同的结果吗?可以试一试。
该配置窗口还包括一个紧急停止准则,以避免无限运行,无法收敛到稳定解决方案的情况,即名为最大迭代次数(Max. Number of Iterations)的设置选项。
图7.k-Means节点的配置窗口
成功执行该节点之后,会输出k=3聚类的k个聚类质心(图8)。可以尝试使用不同聚类数目再次运行算法,看看聚类质心是否发生变化以及如何变化。
图8:三个聚类的质心
成功地确定了三个聚类之后,需要对聚类质量进行评价,更准确地说,何以对选取的k是否足够好做出评价?聚类的质量可以通过计算节点的轮廓系数(Silhouette Coefficient)来度量。
在k-Means节点中,包含/排除面板允许包含用于计算轮廓系数的属性。此外,这里必须选择聚类列,在本示例中,聚类列来自前面的k-Means节点,称之为“聚类”(Cluster),它包含一个指示聚类隶属关系的字符串。
当节点成功执行之后,可以右键单击它,打开表单,其中显示了每个元组的聚类关联和轮廓系数,表中报告了每个聚类的平均轮廓系数和总体均值。在本示例中,总体平均轮廓系数是0.45,情况虽然还不算太糟糕,但仍有改进的空间。尝试使用不同的k值,看看是否可以获得更好的聚类。
最后一步是可视化将所获得的聚类,为此,需要使用颜色管理器节点来为每个聚类分配一个特定的颜色(图9),然后使用散点图节点来可视化生成的聚类集(图10)。事实上,可以用目视检查协助评估聚类集的质量。
图9.颜色管理器节点的配置窗口
在图10中,可以看到散点图节点的配置窗口及其最重要的设置:为x轴和y轴选择属性。在“常规打印选项”(General Plot Options)选项卡中,可以指定图表标题和副标题。
图10.散点图节点的配置窗口
现在,来看看可视化图(图11),可以看出,聚类相当宽泛,特别是聚类0和聚类1,通过轮廓系数0.45可以看出,可能需要重新考虑参数的选取。
为工作流添加注释。
为工作流插入注释,右键单击工作流中的任何位置,然后单击“新建工作流注释”。可以通过双击正方形的左上角来编辑颜色、帧宽和字体。在注释中,可以编写一些关于由工作流或部分工作流实现的任务描述。
最终的工作流程如图3所示,可以从KNIME Hub下载到。
如果对当前聚类不满意,只需用不同的参数重新运行k-Means,看看是否能实现更好的聚类。
下表,报告了k=3、k=5和k=8的平均轮廓系数以及相应的散点图。
表1.不同k条件下的平均整体轮廓系数
图11. k=3聚类结果的可视化
图12.k=5聚类结果的可视化
图13. k=8聚类结果的可视化
通过比较散点图和轮廓系数值,k=5似乎是到目前为止最好的选择。然而,使用基于轮廓系数的优化过程,并在名为“优化k-均值(轮廓系数)”的组件中实现,k=5是选取的最佳设置。
消除学习脚本语言的必要性来简化分析流程。具体来说,KNIME是一个免费的开放平台,无论资源是否可用,使用者有无经验,任何想要理解数据的人都可以利用KNIME平台做数据分析。自KNIME首发以来,任何人都可以下载该平台,利用该平台实现数据分析,不带任何限制或附加条件。
下面应该解释如何创建和使用组件……将在下一篇文章中说明。
原文标题:
A Friendly Introduction to KNIME Analytics Platform
原文链接:
https://www.analyticsvidhya.com/blog/2021/03/a-friendly-introduction-to-knime-analytics-platform/
官宣:早访第5版KNIME分析平台
跨社区和组织采用高级分析的最大障碍之一是分析技能的差距,低代码/无代码平台通过消除学习脚本语言的必要性来简化分析流程。具体来说,KNIME是一个免费的开放平台,无论资源是否可用,使用者有无经验,任何想要理解数据的人都可以利用KNIME平台做数据分析。自KNIME首发以来,任何人都可以下载该平台,利用该平台实现数据分析,不带任何限制或附加条件。
为了进一步提高分析的可访问性,KNIME产品团队进行了大量投资,以改善新用户体验和平台的整体易用性。为此,今天,我们荣幸地宣布可以早访第5版KNIME分析平台。
最新版本改进了用户体验/用户界面(UX/UI),改善了初学者体验的特定功能:
注意,这是一个早访版本,不建议用于生产环境。我们邀请所有用户在KNIME论坛上留下反馈。
对于测试该版本的初学者,建议使用以下配套资产:
原文标题:
Announcing: Early Access to KNIME Analytics Platform Version 5
原文链接:
https://www.knime.com/blog/announcing-early-access-to-knime-analytics-platform-version-5
编辑:于腾凯
校对:林亦霖
译者简介
陈之炎,北京交通大学通信与控制工程专业毕业,获得工学硕士学位,历任长城计算机软件与系统公司工程师,大唐微电子公司工程师,现任北京吾译超群科技有限公司技术支持。目前从事智能化翻译教学系统的运营和维护,在人工智能深度学习和自然语言处理(NLP)方面积累有一定的经验。业余时间喜爱翻译创作,翻译作品主要有:IEC-ISO 7816、伊拉克石油工程项目、新财税主义宣言等等,其中中译英作品“新财税主义宣言”在GLOBAL TIMES正式发表。能够利用业余时间加入到THU 数据派平台的翻译志愿者小组,希望能和大家一起交流分享,共同进步
翻译组招募信息
工作内容:需要一颗细致的心,将选取好的外文文章翻译成流畅的中文。如果你是数据科学/统计学/计算机类的留学生,或在海外从事相关工作,或对自己外语水平有信心的朋友欢迎加入翻译小组。
你能得到:定期的翻译培训提高志愿者的翻译水平,提高对于数据科学前沿的认知,海外的朋友可以和国内技术应用发展保持联系,THU数据派产学研的背景为志愿者带来好的发展机遇。
其他福利:来自于名企的数据科学工作者,北大清华以及海外等名校学生他们都将成为你在翻译小组的伙伴。
点击文末“阅读原文”加入数据派团队~
转载须知
如需转载,请在开篇显著位置注明作者和出处(转自:数据派ID:DatapiTHU),并在文章结尾放置数据派醒目二维码。有原创标识文章,请发送【文章名称-待授权公众号名称及ID】至联系邮箱,申请白名单授权并按要求编辑。
发布后请将链接反馈至联系邮箱(见下方)。未经许可的转载以及改编者,我们将依法追究其法律责任。
点击“阅读原文”拥抱组织