我正在研究R.中的质量库的活检数据,我正处于建立一个logistic回归模型的初始阶段,以了解哪些变量对发生恶性肿瘤的概率有影响。我删除了所有丢失数据的行(大约16个观察)。所有变量本身都是重要的,所以我从包含所有变量的最充分的模型开始,而第三个变量(V3 -单元大小的一致性)在这个最完整的模型中最不重要。
我创建了另一个删除V3的模型。然后,我想使用anova()函数来查看这两种模型的匹配是否有显着性差异。然而,我从我的anova测试中没有得到p值。这是否意味着p值接近于1?在我的模型设置中,我犯了什么错误吗?
感谢您的所有输入!
#post removal of rows with mis
我的代码:
from scipy import stats
import statsmodels.api as sm
data=[-0.032400000000000005,-0.0358,-0.035699999999999996,-0.029500000000000002,-0.0227,-0.0146,-0.0125,-0.0103,-0.0182,-0.0137,-0.021099999999999997,-0.0327,-0.0279,-0.0325,-0.0252,-0.015700000000000002,-0.0148,-0.013999999999999999,-0.0137
在我看来,有多种方法可以处理数据集离群值
> -> Delete data
> -> Transforming using log or Bin
> -> using mean median
> -> Test separately
我有一个大约50000个观测值的数据集,每个观测值都有相当多的异常值(一些变量有少量的异常值,有些有100-200个异常值),所以排除数据并不是我想要的,因为它会导致我丢失大量数据。
我在某处读到使用均值和中位数是用于人为的异常值,但在我的例子中,我认为异常值是自然的
我实际上打算使用median来去除异
有没有人可以帮我在R中填写下面的函数:
#data is a single vector of decimal values
normally.distributed <- function(data) {
if(data is normal)
return(TRUE)
else
return(NO)
}
我目前正在为学校做一个R项目。我有一个关于这个项目的问题。我必须打印一个双向表格,我的表格中的每个单元格都应该包含一个卡方测试的结果。
例如:
例如,0.7是橘子和苹果之间的卡方检验结果。
我知道如何在两个变量之间进行卡方检验:
chisq.test(c(data_frame$Apple, data_frame$Orange))
然后我试着打印双向桌子:
list <- c("Apple", "Orange", "Grappe")
for (element in list) {
for (element2 in list)