我一直在研究一些可用的选项来实现这一点,我遇到了k-means聚类算法。因为我的大多数数据都是分类的,所以我必须执行一次热编码(将分类变量转换为0-1个单列向量),然后在Excel上进行相关分析,以排除一些冗余变量。这是我用来导入带有教授调查数据的.csv的代码,并运行elbow方法: # loads the .csv dataframe (DF) for c in clusters:
load csv with headers from 'file:///C:/Users/user/Desktop/Neo4J'Create (:State_Code {state_cd:row.st_cd})
Neo.ClientError.Statement.ExternalResourceFailed:无法在: file:/C