Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >广义估计方程和混合线性模型在R和python中的实现

广义估计方程和混合线性模型在R和python中的实现

原创
作者头像
生信学习者
修改于 2024-06-11 23:54:14
修改于 2024-06-11 23:54:14
1K00
代码可运行
举报
运行总次数:0
代码可运行

广义估计方程和混合线性模型在R和python中的实现

欢迎大家关注全网生信学习者系列:

  • WX公zhong号:生信学习者
  • Xiao hong书:生信学习者
  • 知hu:生信学习者
  • CDSN:生信学习者2

介绍

针对某个科学问题,通常会在一段时间内对多个同一研究对象进行多次或重复测量,这类数据一般称为纵向数据。纵向数据具有两个特点,一是研究对象重复;二是观察值可能存在缺失值。上述两个因素导致在探索结果和观测指标相关性分析时,一般线性(linear regression model)或广义线性模型(generalized regression model)以及重复测量方差分析(repeated ANOVA)均不适用。因此,广义估计方程(generalized estimating equations,GEE)混合线性模型(mixed linear model,MLM) 被广泛应用于纵向数据的统计分析。

  • 广义估计方程(generalized estimating equations,GEE): 假定每个研究对象的重复观察值间存在某种类型的作业相关矩阵(应变量的各次重复测量值两两之间相关性的大小),应用准似然函数原理,可以得到回归系数及其方差的一致性估计
  • 混合线性模型(mixed linear model,MLM):它是一类对误差进行精细分解成对固定效应和随机效应等误差的广义线性模型的方法,相比广义线性模型而言,它能处理纵向数据(如时间序列数据,时间一般作为随机因素)。

上述两种方法适合解析因变量和自变量的相关性

原理

基本概念

  • 自变量(independent variable):又称独立变量、解释变量(explanatory variable)、外生变量,是可由研究者选择、控制、研究,且能独立变化而影响或引起其他变量变化的条件或因素(变数、变量、变项),因此自变量被看作是因变量的原因。
  • 因变量(dependent variable):又称应变量、被解释变量、内生变量、反应变量、响应变量(response variable)、依变量、果变量,亦即要研究的目标变量,其取值可被观测且随自变量的变化而变化。
  • 控制变量(controlled variable):又称额外变量(extraneous variable)、无关变量,是除了实验因素(自变量)以外,所有可能影响实验变化和结果并需要进行控制的潜在条件或因素(变数、变量、变项)
  • 协变量(covariate):在实验的设计中,协变量是一个独立变量(解释变量),不为实验者所操纵,但仍影响响应。同时,它指与因变量有线性相关并在探讨自变量与因变量关系时通过统计技术加以控制 的变量。常用的协变量包括因变量的前测分数、人口统计学指标以及与因变量明显不同的个人特征等。协变量应该属于控制变量的一种。有些控制变量可以通过实验操作加以控制(如照明、室温等),也称为无关变量;而另一些控制变量由于受实验设计等因素的限制,只能借助统计技术来加以控制,即成了统计分析中的协变量,因而属于统计概念。

假定因变量y,自变量X,作为固定变量,而Z则是随机变量(协变量)。

  • 广义估计方程(generalized estimating equations,GEE)
    • 建立结果变量y与协变量Z之间(每个协变量内含有对应的自变量X)的函数关系
    • 建立y的方差与平均值之间的函数关系
    • y构建一个P*P维作业相关矩阵(自变量X),用以表示因变量的各次重复测量值(自变量)之间的相关性大小
    • 求参数$\beta$的估计值及其协方差矩阵
  • 混合线性模型(mixed linear model,MLM):构建包含固定因子和随机因子的线性混合模型

$$y = X\beta + Z\mu + \epsilon $$

  • $\beta$ 是固定效应值;
  • $\mu$ 是随机效应值;
  • $\epsilon$ 是随机误差向量(拟合值和真实值的误差);

回归系数的95% 置信区间计算:$$CI{0.95}^{\beta{i}} = [\beta{i} - 1.96 * SE(\beta{i}),\space \beta{i} + 1.96 * SE(\beta{i})]$$

为各个变量之间存在不同的单位也即是量纲可能不同,所以对数据做归一化和标准化处理是必须的。

加载R包

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
knitr::opts_chunk$set(message = FALSE, warning = FALSE)
library(tidyverse)
library(data.table)

# rm(list = ls())
options(stringsAsFactors = F)
options(future.globals.maxSize = 1000 * 1024^2)

导入数据

数据来自于一个肾脏病的研究,大家通过以下链接下载:

本案例数据来源于一个肾脏病的研究。研究对200个肾病患者进行随访,每年化验一次肾小球滤过率(GFR,评价肾脏功能的指标,会逐年下降)。主要分析目的是探索基线的尿蛋白定量对GFR年下降率(斜率)的影响(尿蛋白量越大,对肾功能危害越大),混杂因素包括基线年龄和性别。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
dataset <- data.table::fread("data_dropout.csv")

dataset <- dataset |>
  dplyr::select(-all_of(c("line", "normo")))

head(dataset)

  • patient: 患者ID编号;
  • visit:化验次序编号
  • time:化验时间(单位年),第一次化验定为0,后面依次推延;
  • GFR:肾小球滤过率,单位是ml/min/1.73^2,作为响应变量;
  • age:基线年龄,单位岁;
  • gender:性别,0=男,1=女;
  • micro:基线是否有微量蛋白尿,0=正常蛋白组,1=有;
  • macro:基线是否有大量蛋白尿,0=正常蛋白组,1=有;

研究问题

患者GFR是否受到基线年龄、性别、尿蛋白情况以及化验时间影响。另外根据专业医学知识,假设尿蛋白不仅影响GFR的下降率,也影响基线GFR,也即是time和尿蛋白micro和macro存在交互影响(此地排除age,gender对GFR下降率的影响)。

预测变量还需要加上一个时间x尿蛋白的交互项(交互项是指不同的尿蛋白等级会有不同的GFR下降斜率和下降曲线)

数据特点

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
summary(dataset) 

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
dataset %>%
  group_by(patient) %>%
    summarise(
      count = n(),
      mean = mean(GFR, na.rm=TRUE),
      sd = sd(GFR, na.rm=TRUE)
    )
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
ggplot(data = dataset, aes(x = time, y = GFR, group = patient, color = patient)) +
  geom_line(alpha = .3) + 
  labs(title = "GFR Levels of Patient across the therapeutic times") +
  theme(legend.position = "none")

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
rando <- sample(unique(dataset$patient), 10)
indplot <- subset(dataset, patient %in% rando)
ggplot(indplot, aes(x = time, y = GFR)) + 
  geom_line(color = "tomato") + 
  facet_wrap( ~ patient) + 
  labs(x = "time", y="GFR Levels", title="Individual GFR Levels\nfor a Random Sample of Patients") + 
  theme(axis.text.x=element_blank(), axis.ticks.x=element_blank())

广义估计方程(generalized estimating equations,GEE)

  • 自变量(independent variable):age,gender,micro,macro,time
  • 因变量(dependent variable):GFR
  • 协变量(covariate):patient

GEE通过协变量patient考虑到他们内部观测值的相关性后再对总体效应进行推断,如何确定分组需要考虑到组群变量。除此之外,确定组内相关关系,还需要考虑到组内观测之间的相关性是相互独立还是相互依赖等各种情况。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
library(geepack)

gee_fit <- geeglm(GFR ~ age + gender + micro + macro + time + micro:time + macro:time, 
              id = patient, 
              data = dataset, 
              std.err = "san.se",
              corstr = "exchangeable",
              family = "gaussian")

gee_fit

  • GFR ~ age + gender + micro + macro + time + micro:time + macro:time是因变量和自变量的线性关系方程式,其中micro:time是交互式影响自变量
  • id = patient表示每个patients是一个内在cluster的标识,用于剔除内在相关关系
  • std.err = "san.se"计算评估系数的标准误差,san.se适合cluster数目小于等于30的数据集
  • corstr = "exchangeable"是构造自变量作业相关矩阵参数
    • exchangeable correlation:假设一个cluster里的不同观察是等相关的,并且是时间不依赖的
    • autoregressive correlation:假设一个cluster里的不同观察是等相关的,假设一个cluster内的观察是时间依赖的
    • unstructured correlation:is the most general of the correlation structures that we discuss. It imposes no structure to the correlation matrix.
    • userdefined correlation:根据自变量自身特点构造作业相关矩阵
  • family = "gaussian"是连接函数,链接因变量和自变量(很多中文教程说是协变量)线性关系的函数

提取结果

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
gee_cc <- coef(summary(gee_fit)) |>
  as.data.frame() |>
  dplyr::mutate(lower_95CI = round(Estimate - 1.96 * Std.err, 2),
                upper_95CI = round(Estimate + 1.96 * Std.err, 2)) |>
  dplyr::mutate(Estimate_95CI = paste0(round(Estimate, 2), " (", lower_95CI, ", ", upper_95CI, ")")) |>
  dplyr::select(-all_of(c("lower_95CI", "upper_95CI"))) |>
  dplyr::mutate(OddRatio = round(exp(Estimate), 2)) |>
  dplyr::arrange(`Pr(>|W|)`)

DT::datatable(gee_cc)

  • Estimate:$\beta$相关系数,其中Intercept是截距估计值。提供了截距和预测变量的估计系数。
  • Std.err:$\beta$相关系的标准误差。给出了与系数估计相关的标准误差。这些是参数估计的不确定性的度量。
  • Wald:$\beta$相关系的wald检验统计量(检验约束条件是否成立的方法之一:F检验、似然比检验(LR)、沃尔德检验(Wald)和拉格朗日乘子检验(LM))
  • Pr(>|W|):$\beta$相关系的wald检验统计量对应pvalue。提供了与Wald检验相关的p值。它指示系数是否具有统计显著性。
  • Estimate_95CI:$\beta$置信区间提供可以合理确信真实总体参数位于其中的范围。Estimate 和 Std.err 值用于计算置信区间。例如,micro 变量的比值几率的95%置信区间可能是 [-23.75, -16.72]。该区间表示可以有95%的信心,真实的GFR比值几率位于-23.75和-16.72之间。
  • OddRatio:风险值,一般用于逻辑回归,可以通过对系数估计进行指数化来计算比值几率。比值几率表示单位预测变量变化时响应变量的几率的乘性变化。在本例中,不适合。

在校正年龄和性别下,

  • 基线的GFR在micro - 正常蛋白组(micro->1; 正常蛋白组->0)估计值:-20.23 (-23.75, -16.72)
  • 平均GFR年下降率(斜率)
    • time(正常蛋白组):-1.63 (-2.36, -0.9)
    • micro - 正常蛋白组:-1.56 (-2.58, -0.54)
    • macro - 正常蛋白组:-1.06 (-2.43, 0.31)

python实现方式

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
library(reticulate)

# myenvs <- conda_list()
# 
# envname <- myenvs$name[2]
# use_condaenv(envname, required = TRUE)
# # or
use_condaenv("base", required = TRUE)
  • python调用statsmodels包的gee函数
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
import pandas as pd
import statsmodels.api as sm
import statsmodels.formula.api as smf
  • 读取数据
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
dataset = pd.read_csv("./InputData/TherapyData/data_dropout.csv")

dataset = dataset.drop(columns = ['line', 'normo'])

dataset.head()

  • GEE实现
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
fam = sm.families.Gaussian()
ind = sm.cov_struct.Exchangeable()
mod = smf.gee(formula = "GFR ~ age + gender + micro + macro + time + micro:time + macro:time", 
              groups = "patient", 
              data = dataset, 
              cov_struct = ind,
              family = fam) 

res = mod.fit()

print(res.summary())

混合线性模型(mixed linear model,MLM)

  • 自变量(independent variable):age,gender,micro,macro,time
  • 因变量(dependent variable):GFR
  • 协变量(covariate):patient

线性混合效应(LME)模型可以被认为是具有附加成分的回归模型,这些成分可以解释个体(重复测量环境)或群体(多层次/分层环境)之间截距和/或斜率参数的变化。区分混合线性模型中的随机效应和固定效应是一个重要的概念。固定效应是具有特定水平的变量,而随机效应捕捉了由于分组或聚类引起的变异性。

比如下方正在探究尿蛋白对来自不同患者的GFR的影响。拥有的变量(例如年龄、性别、尿蛋白等)和患者的变量(patient)。想要了解尿蛋白如何影响患者的G FR。

  • 固定效应:具有特定的水平或值需要进行研究的主要变量,如尿蛋白等
  • 随机效应:患者
  • 分层结构:尿蛋白嵌套在患者内
  • 模型方程:GFR = 尿蛋白 + 患者 + 误差
  • 解释:解释固定效应,以了解尿蛋白的变化如何与GFR的变化相关联。患者的随机效应捕捉了在患者之间的GFR变异性,这不能由固定效应解释
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# 第一种方法
# library(lmerTest)
# mlm_fit <- lmerTest::lmer(GFR ~ age + gender + time + micro + macro +
#                   micro:time + macro:time +
#                   (1|patient),
#                 data = dataset)

# 第二种方法
library(nlme)
mlm_fit <- nlme::lme(GFR ~ age + gender + micro + macro + time + micro:time + macro:time,
               random = ~ 1 | patient,
               method = "ML",
               data = dataset,
               control = lmeControl(opt = "optim"))

mlm_fit

构建模型: 通过(1|patient)确定随机因子

  • GFR is the dependent variable you want to model.
  • age, gender, time, micro, macro, micro:time, and macro:time are the independent variables (fixed effects).
  • (1|patient) specifies a random intercept term for the grouping variable patient. This accounts for the fact that measurements are nested within patients, allowing for correlations among measurements within the same patient.
  • 提取结果
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
summary(mlm_fit)

# mlm_cc <- coef(summary(mlm_fit)) |>
#   as.data.frame() |>
#   dplyr::mutate(lower_95CI = round(Estimate - 1.96 * `Std. Error`, 2),
#                 upper_95CI = round(Estimate + 1.96 * `Std. Error`, 2)) |>
#   dplyr::mutate(Estimate_95CI = paste0(round(Estimate, 2), " (", lower_95CI, ", ", upper_95CI, ")")) |>
#   dplyr::select(-all_of(c("lower_95CI", "upper_95CI"))) |>
#   dplyr::mutate(OddRatio = round(exp(Estimate), 2)) |>
#   dplyr::arrange(`Pr(>|t|)`)

mlm_cc <- coef(summary(mlm_fit)) |>
  as.data.frame() |>
  dplyr::mutate(lower_95CI = round(Value - 1.96 * Std.Error, 2),
                upper_95CI = round(Value + 1.96 * Std.Error, 2)) |>
  dplyr::mutate(Estimate_95CI = paste0(round(Value, 2), " (", lower_95CI, ", ", upper_95CI, ")")) |>
  dplyr::select(-all_of(c("lower_95CI", "upper_95CI"))) |>
  dplyr::mutate(OddRatio = round(exp(Value), 2)) |>
  dplyr::arrange(`p-value`)

DT::datatable(mlm_cc)

  • Value:$\beta$相关系数,其中Intercept是截距估计值。提供了截距和预测变量的估计系数。
  • Std.Error:$\beta$相关系的标准误差。给出了与系数估计相关的标准误差。这些是参数估计的不确定性的度量。
  • t-value:$\beta$相关系的t检验统计量
  • p-value:$\beta$相关系的wald检验统计量对应pvalue。提供了与Wald检验相关的p值。它指示系数是否具有统计显著性。
  • Estimate_95CI:$\beta$置信区间提供可以合理确信真实总体参数位于其中的范围。Estimate 和 Std.err 值用于计算置信区间。例如,micro 变量的比值几率的95%置信区间可能是 [-25.04, -15.44]。该区间表示可以有95%的信心,真实的GFR比值几率位于-25.04和-15.44之间。
  • OddRatio:风险值,一般用于逻辑回归,可以通过对系数估计进行指数化来计算比值几率。比值几率表示单位预测变量变化时响应变量的几率的乘性变化。在本例中,不适合。

综上:GEE和MLM的结果较为接近

python实现方式

  • python调用statsmodels包的gee函数
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
import pandas as pd
import statsmodels.api as sm
import statsmodels.formula.api as smf
  • 读取数据
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
dataset = pd.read_csv("./InputData/TherapyData/data_dropout.csv")

dataset = dataset.drop(columns = ['line', 'normo'])

dataset.head()
  • MLM实现
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
mod_lme = smf.mixedlm(formula = "GFR ~ age + gender + micro + macro + time + micro:time + macro:time", 
              groups = dataset["patient"], 
              data = dataset) 

modf_lme = mod_lme.fit()
print(modf_lme.summary())

参考

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
临床预测模型概述6-统计模型实操-单/多因素Logistic回归
既往推文已经介绍过了logistic,cox,lasso回归(https://mp.weixin.qq.com/s/pXRZ1rYUr3lwH5OlDeB0_Q),接下来将重点进行代码的实操。
凑齐六个字吧
2024/08/07
2470
临床预测模型概述6-统计模型实操-单/多因素Logistic回归
混合线性模型学习笔记5
这篇文档,是为那些想了解混合线性模型的人准备的。这里面很多部分,可以在很多领域中使用 。我们假定大家对一些矩阵和线性回归的理论有所了解,但是更高级的知识只有模糊的认识,希望对你有所帮助。
邓飞
2020/05/14
1.4K0
广义线性模型(GLM)专题(2)——带约束的假设检验,模型诊断,0/1变量分析与建模
这一节我们继续广义线性模型的相关内容去说。事实上在这一节我们会发现,我们更多会回到一些更简单和实际的应用中来,因此这一节的内容不会有上一节那么难以理解,但相对应的,基本的概念和背景知识会比较多。我们也会提供对应的习题帮助大家理解。
学弱猹
2022/03/30
1.7K0
广义线性模型(GLM)专题(2)——带约束的假设检验,模型诊断,0/1变量分析与建模
GMSB文章二:数据汇总和数据探索
森林图是一种常用于展示多个研究结果的统计图表。它显示了各个研究的效应量(effect size)或优势比(odds ratio, OR)以及它们的95%置信区间(confidence interval, CI)。通过森林图,研究者可以快速地比较和评估不同变量对结局变量的影响。
生信学习者
2024/06/29
1590
R语言︱线性混合模型理论与案例探究(固定效应&随机效应)
笔者认为一般统计模型中的横截面回归模型中大致可以分为两个方向:一个是交互效应方向(调节、中介效应)、一个是随机性方向(固定效应、随机效应)。
悟乙己
2019/05/26
21K3
临床预测模型概述6-统计模型实操-单/多因素Cox回归
https://mp.weixin.qq.com/s/pXRZ1rYUr3lwH5OlDeB0_Q
凑齐六个字吧
2024/08/08
4610
临床预测模型概述6-统计模型实操-单/多因素Cox回归
R语言分层线性模型案例
有许多分层数据的例子。例如,地理数据通常按层次分组,可能是全球数据,然后按国家和地区分组 。一个生物学的例子是按物种分组的动物或植物的属性,或者属于一个级别的属性,然后是家族。一个商业例子可能是业务部门和细分的员工满意度。每个学科都有许多例子,其中观察以某种形式的层次结构进行分组。
拓端
2020/11/30
1.7K0
R语言分层线性模型案例
R语言广义线性混合模型GLMMs在生态学中应用可视化2实例合集|附数据代码
在生态学研究领域,广义线性混合模型(Generalized Linear Mixed Models,简称GLMMs)是一种强大的统计工具,能够同时处理固定效应和随机效应,从而更准确地揭示生态系统中复杂关系的本质(点击文末“阅读原文”获取完整代码数据)。
拓端
2024/04/03
2.1K0
R语言广义线性混合模型GLMMs在生态学中应用可视化2实例合集|附数据代码
R语言使用二元回归将序数数据建模为多元GLM
用于分析序数数据的最常见模型是 逻辑模型 。本质上,您将结果视为连续潜在变量的分类表现。此结果的预测变量仅以一种方式对其产生影响,因此 为每个预测变量获得一个回归系数。但是该模型有几个截距,它们代表将变量切分以创建观察到的分类表现的点。
拓端
2020/08/14
9450
R语言混合效应逻辑回归(mixed effects logistic)模型分析肺癌数据
在混合效应逻辑回归用于建立二元结果变量的模型,其中,当数据被分组或同时存在固定和随机效应时,结果的对数几率被建模为预测变量的线性组合(点击文末“阅读原文”获取完整代码数据)。
拓端
2025/05/01
1590
R语言混合效应逻辑回归(mixed effects logistic)模型分析肺癌数据
R语言混合效应模型(mixed model)案例研究|附代码数据
在本文中,我们描述了灵活的竞争风险回归模型。回归模型被指定为转移概率,也就是竞争性风险设置中的累积发生率
拓端
2022/11/17
1.4K0
R语言混合效应逻辑回归(mixed effects logistic)模型分析肺癌数据|附代码数据
在混合效应逻辑回归用于建立二元结果变量的模型,其中,当数据被分组或同时存在固定和随机效应时,结果的对数几率被建模为预测变量的线性组合(点击文末“阅读原文”获取完整代码数据)。
拓端
2022/11/02
2K0
R语言广义线性模型(GLM)、全子集回归模型选择、检验分析全国风向气候数据
我们正和一位朋友讨论如何在R软件中用GLM模型处理全国的气候数据。本文获取了全国的2021年全国的气候数据(点击文末“阅读原文”获取完整代码数据)。
拓端
2023/11/17
3900
R语言广义线性模型(GLM)、全子集回归模型选择、检验分析全国风向气候数据
R语言实现混合模型
普通的线性回归只包含两项影响因素,即固定效应(fixed-effect)和噪声(noise)。噪声是我们模型中没有考虑的随机因素。而固定效应是那些可预测因素,而且能完整的划分总体。例如模型中的性别变量,我们清楚只有两种性别,而且理解这种变量的变化对结果的影响。 那么为什么需要 Mixed-effect Model?因为有些现实的复杂数据是普通线性回归是处理不了的。例如我们对一些人群进行重复测量,此时存在两种随机因素会影响模型,一种是对某个人重复测试而形成的随机噪声,另一种是因为人和人不同而形成的随机
机器学习AI算法工程
2018/03/14
4.5K0
R语言用线性回归模型预测空气质量臭氧数据
尽管线性模型是最简单的机器学习技术之一,但它们仍然是进行预测的强大工具。这尤其是由于线性模型特别容易解释这一事实。在这里,我将讨论使用空气质量数据集的普通最小二乘回归示例解释线性模型时最重要的方面。
拓端
2020/08/10
1.9K0
基于R语言混合效应模型(mixed model)案例研究|附代码数据
在本文中,我们描述了灵活的竞争风险回归模型。回归模型被指定为转移概率,也就是竞争性风险设置中的累积发生率
拓端
2023/02/10
1.5K0
「R」一文掌握生存分析
学习生存分析预先要求对R有所了解,基本能够操作R数据框和包的使用。要是懂ggplot2和dplyr就更好了。
王诗翔呀
2020/07/03
3.5K0
「R」一文掌握生存分析
数据分析:宏基因组数据的荟萃分析
宏基因组数据的荟萃分析是一种综合多个独立宏基因组研究结果的方法,目的是揭示不同人群或样本中微生物群落的共同特征和差异。这种方法特别适用于跨区域、跨人群的大规模比较研究,能够帮助科学家们识别与特定健康状况或环境因素相关的微生物标志物。
生信学习者
2024/08/15
2990
贝叶斯线性回归和多元线性回归构建工资预测模型
在劳动经济学领域,收入和工资的研究为从性别歧视到高等教育等问题提供了见解。在本文中,我们将分析横断面工资数据,以期在实践中使用贝叶斯方法,如BIC和贝叶斯模型来构建工资的预测模型。
拓端
2022/01/13
2K0
贝叶斯线性回归和多元线性回归构建工资预测模型
【视频】什么是非线性模型与R语言多项式回归、局部平滑样条、 广义相加GAM分析工资数据|数据分享
在这文中,我将介绍非线性回归的基础知识。非线性回归是一种对因变量和一组自变量之间的非线性关系进行建模的方法。最后我们用R语言非线性模型预测个人工资数据(查看文末了解数据获取方式)是否每年收入超过25万(点击文末“阅读原文”获取完整代码数据)。
拓端
2023/08/30
4560
【视频】什么是非线性模型与R语言多项式回归、局部平滑样条、 广义相加GAM分析工资数据|数据分享
推荐阅读
相关推荐
临床预测模型概述6-统计模型实操-单/多因素Logistic回归
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验