我有一个数据框(a),其中有两列:total_amount和Gender。我需要计算一下男性和女性的消费总额。
在性别栏中,也有NA。在运行以下命令时
tapply(a$total_amount,a$Gender, sum)
结果是:
F M
23623513 24935632
我的问题是:默认情况下,tapply是否删除了为分类选择的片段列中的缺失值,即本例中的性别?如果是,那么我们如何将它们包含在我们的结果中?
我正在使用R执行分析,我将实现四种算法。
1. RF
2. Log Reg
3. SVM
4. LDA
我有50个预测器和1个目标变量。我所有的预测器和目标变量都只是二进制数0和1。
我有以下问题:
Should I convert them all into factors?
Converting them into factors, and applying RF algorithms give 100% accuracy, I am very much surprised to see that as well.
Also, for other algorithms, how shoul
我在R中使用FactoMineR包中的MCA()函数对一组大约160个变量和大约2000个观察值进行多重对应分析。大约150个变量是连续的,所以我首先使用cut()函数将这些连续变量转换为分类变量,然后使用MCA()函数。
我的代码非常简单,如下所示:
library(FactoMineR)
data<-read.csv('demographics.csv')
for (i in 9:length(data)){
temp<-unlist(data[i],use.names=FALSE)
data[i]<-cut(temp,breaks=5
我很难加入两个数据集
#df1
id name1
1 a
2 b
3 c
和
$df2
id name2
1 c
2 d
我试着通过他们的id加入他们
library(dplyr)
result <- left_join(df1, df2, by="id")
它给出了以下错误
错误:无法连接列'id‘x 'id':由于类型不兼容(因子/整数),无法连接'id’x 'id‘
因为他们有不同的课程:
sapply(df
我有一些医院的数据,从csv中读取。我试图通过用户定义的列col,然后按医院的名称订购数据,如下所示:
col <- 'Hospital.30.Day.Death..Mortality..Rates.from.Pneumonia'
hospitals.sorted <- hospitals[order(hospitals[,col], hospitals$Hospital.Name),]
但我想我遗漏了一些东西;它似乎像字符串一样对col排序:
> hospitals.sorted
... # so far so good # ...
2749
我在R中创建了箱形图,但是,它们显示不正确。我的数据基于Kaggle上的德国信用数据集。
我的代码有两个不同的属性,试图被测试:
data %>%
ggplot(aes(x = Creditability, y = Purpose, fill = Creditability)) +
geom_boxplot() +
ggtitle("Creditability vs Purpose")
data %>%
ggplot(aes(x = Creditability, y = Account.Balance, fill = Creditability