我有一个很大的数据集(207989,23),现在我正尝试在一列上应用层次聚类,以测试它是否适合我手头的任务。 我尝试过的: import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn import preprocessing
data = pd.read_csv('gpmd.csv', header = 0)
X = data.loc[:, ['ContextID', 'BacksGas_Flow_sccm']]
min_max_s
情况如下:
我有一个文档数据集,我已经根据它们的主题手动分配给(地面)集群。然后,我使用层次聚集聚类(HAC)自动对同一数据集进行聚类。我现在试图使用对计数f测度来评估HAC集群( Darius Pfitzner,Richard Leibbrandt & David Power在描述和评估对聚类的相似性度量中描述了这一点)。
然而,我面临的问题是,我的手动集群生成了扁平的集群(因此集群之间没有任何关系),而HAC发现的集群是分层的。因此,在查看树状图时,根据您选择的深度(水平线),您有不同数量的集群(深度为0(根节点),只有一个集群;在最大深度,您的集群数等于数据集中的元素数)。
所以
我已经建立了以下网络:
extensions [nw]
breed [agents agent]
agents-own [status
]
to setup
clear-all
ask patches [
set pcolor white
]
nw:generate-preferential-attachment agents links 100 1 [ set shape "person"
setxy random-xcor random-ycor
set status random 2