然而,当我试图在连续的和分类的(type = as.factor)上运行“tried ()”函数时,我开始遇到一些错误(“参数数据应该是数字的”)。“欧几里得”表示连续,"tanimoto“表示”范畴“)应用于不同的列。我用4个连续变量和3个分类变量创建了一个数据集。#load libraries library(dplyr)#create and format data
b = rnorm
我正在研究一个分类问题。数据集维度为187,643 x 203。第一列包含没有NA的类标签。数据集的其余部分是频率数据,可以是0到1之间的任何数据。为了处理NAs,我正在考虑为NAs计数定义一个截断(假设为30%),将列中的NAs计数大于cut-0ff值,并用类特定的平均值替换其余的每个列中的NAs。然而,这样做,我将失去一些功能,似乎是非常重要的这一分类工作基础上的数据探索性分析。另一方面,保持缺失值需要使用可以像k-NN、朴素贝叶斯和随机森林那样处