首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

循环回归:创建交互项,存储结果,仅提取有意义的项

循环回归(Recursive Regression)是一种统计分析方法,用于研究变量之间的动态关系。在创建交互项、存储结果并仅提取有意义的项的过程中,涉及以下几个基础概念和步骤:

基础概念

  1. 交互项(Interaction Term)
    • 在回归分析中,交互项是指两个或多个自变量的乘积,用于捕捉这些变量之间的相互作用对因变量的影响。
  • 循环回归(Recursive Regression)
    • 这是一种逐步构建模型的方法,每次迭代中加入一个新的变量或交互项,并评估其对模型拟合的贡献。
  • 模型选择标准
    • 如AIC(Akaike Information Criterion)、BIC(Bayesian Information Criterion)等,用于比较不同模型的优劣。

相关优势

  • 动态模型构建:能够根据数据的特征逐步调整模型,避免一次性引入过多变量导致的过拟合。
  • 解释性强:通过交互项可以更细致地理解不同变量间的相互影响。
  • 灵活性高:适用于各种复杂的数据结构和关系。

类型与应用场景

  • 线性回归中的交互项:常用于社会科学、经济学等领域,分析不同因素如何共同影响某一结果。
  • 非线性模型中的交互项:适用于生物学、医学等领域,探究变量间非线性关系。

实施步骤及示例代码

步骤

  1. 数据准备:确保数据清洗完整,缺失值处理得当。
  2. 初始模型建立:从一个基础模型开始,逐步添加交互项。
  3. 模型评估:使用统计指标评估每次迭代后模型的性能。
  4. 选择最优模型:基于评估结果,选定包含最有意义交互项的模型。
  5. 结果提取与存储:保存最终模型参数及相关统计量。

示例代码(Python)

代码语言:txt
复制
import pandas as pd
import statsmodels.api as sm
from sklearn.model_selection import train_test_split

# 假设我们有一个数据集df,包含自变量X和因变量y
# X = df[['var1', 'var2', 'var3']]
# y = df['target']

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 初始化一个基础模型
base_model = sm.OLS(y_train, sm.add_constant(X_train)).fit()

# 定义一个函数来递归地添加交互项并评估模型
def recursive_regression(data, target, initial_model, max_iterations=10):
    current_model = initial_model
    for i in range(max_iterations):
        # 尝试添加所有可能的交互项
        for col1 in data.columns:
            for col2 in data.columns:
                if col1 != col2:
                    interaction_term = data[col1] * data[col2]
                    new_data = data.copy()
                    new_data['interaction_' + col1 + '_' + col2] = interaction_term
                    new_model = sm.OLS(target, sm.add_constant(new_data)).fit()
                    # 使用AIC评估模型
                    if new_model.aic < current_model.aic:
                        current_model = new_model
                        data = new_data
        if i == max_iterations - 1 or current_model.aic == initial_model.aic:
            break
    return current_model

# 执行循环回归
final_model = recursive_regression(X_train, y_train, base_model)

# 输出最终模型的摘要
print(final_model.summary())

# 存储结果(可根据实际需求选择存储方式)
final_model.save('final_model.pkl')

可能遇到的问题及解决方法

问题1:计算量过大

  • 原因:随着交互项数量的增加,模型复杂度上升,导致计算耗时增长。
  • 解决方法:限制最大迭代次数,或采用并行计算技术加速运算过程。

问题2:过拟合

  • 原因:引入过多交互项可能使模型过于复杂,捕捉到训练集中的噪声而非真实关系。
  • 解决方法:使用正则化方法(如Lasso、Ridge回归)来惩罚模型复杂度,或提前设定停止条件。

问题3:交互项选择标准不明确

  • 原因:缺乏明确的指标来判断哪些交互项是有意义的。
  • 解决方法:结合业务背景和统计指标(如p值、置信区间)综合判断交互项的重要性。

通过以上步骤和方法,可以有效地进行循环回归分析,并提取出具有实际意义的结果。

页面内容是否对你有帮助?
有帮助
没帮助

相关·内容

学习创建框架

从excel行中逐行提取测试数据并执行脚本。 在给定的三种情况下,前两种情况既费力又费时。因此,遵循第三种方法是理想的。 因此,第三种方法就是数据驱动框架。 如何创建数据驱动的自动化框架 ?...使用输入测试数据创建excel / csv ? 步骤修改凭证以循环输入测试数据。...仅通过将测试数据值附加到Excel,即可使用测试脚本来循环以下测试用例 输入错误的用户名和错误密码–登录失败 输入正确的用户名和密码为空白–登录失败 输入空白的用户名和密码–登录失败 数据驱动测试的最佳做法...: 下面给出的是数据驱动测试的最佳测试实践: 理想的是在数据驱动的测试过程中使用真实的信息 测试流程导航应在测试脚本中编码 利用有意义的数据来驱动虚拟API 使用数据来驱动动态断言 测试正面和负面结果...测试脚本中的任何更改都不会影响测试数据 数据驱动测试的缺点: 测试的质量取决于实施团队的自动化技能 测试大量数据时,数据验证是一项耗时的任务。 维护是一个大问题,因为数据驱动测试需要大量编码。

2.6K30

R语言广义相加模型 (GAMs)分析预测CO2时间序列数据|附代码数据

理论 让我们从高斯线性模型的方程开始 : GAM中发生的变化是存在光滑项: 这仅意味着对线性预测变量的贡献现在是函数f。从概念上讲,这与使用二次项( )或三次项( )作为预测变量没什么不同。...首先,让我们创建一个数据框,并创建一些具有明显非线性趋势的模拟数据,并比较一些模型对该数据的拟合程度。...基函数 我们将从拟合模型开始,记住光滑项是一些函数的和, 首先,我们提取_基本函数_集  (即光滑项的bj(xj)部分)。然后我们可以画出第一和第二基函数。...周期性光滑项fintrannual(month)由基函数组成,与我们已经看到的相同,只是样条曲线的端点被约束为相等,这在建模时是有意义的周期性(跨月/跨年)的变量。...plot(CO2_season_time) 结果 从本质上讲,您可以将GAM的模型结果表示为任何其他线性模型,主要区别在于,对于光滑项,没有单一系数可供推断(即负、正、效应大小等)。

96000
  • R语言广义相加模型 (GAMs)分析预测CO2时间序列数据|附代码数据

    理论 让我们从高斯线性模型的方程开始 : GAM中发生的变化是存在光滑项: 这仅意味着对线性预测变量的贡献现在是函数f。从概念上讲,这与使用二次项( )或三次项( )作为预测变量没什么不同。...首先,让我们创建一个数据框,并创建一些具有明显非线性趋势的模拟数据,并比较一些模型对该数据的拟合程度。...基函数 我们将从拟合模型开始,记住光滑项是一些函数的和, 首先,我们提取_基本函数_集  (即光滑项的bj(xj)部分)。然后我们可以画出第一和第二基函数。...周期性光滑项fintrannual(month)由基函数组成,与我们已经看到的相同,只是样条曲线的端点被约束为相等,这在建模时是有意义的周期性(跨月/跨年)的变量。...plot(CO2_season_time) 结果 从本质上讲,您可以将GAM的模型结果表示为任何其他线性模型,主要区别在于,对于光滑项,没有单一系数可供推断(即负、正、效应大小等)。

    1K00

    R语言广义相加模型 (GAMs)分析预测CO2时间序列数据|附代码数据

    理论让我们从高斯线性模型的方程开始 :GAM中发生的变化是存在光滑项:这仅意味着对线性预测变量的贡献现在是函数f。从概念上讲,这与使用二次项()或三次项()作为预测变量没什么不同。...首先,让我们创建一个数据框,并创建一些具有明显非线性趋势的模拟数据,并比较一些模型对该数据的拟合程度。...基函数我们将从拟合模型开始,记住光滑项是一些函数的和,首先,我们提取_基本函数_集  (即光滑项的bj(xj)部分)。然后我们可以画出第一和第二基函数。...周期性光滑项fintrannual(month)由基函数组成,与我们已经看到的相同,只是样条曲线的端点被约束为相等,这在建模时是有意义的周期性(跨月/跨年)的变量。...plot(CO2_season_time)结果从本质上讲,您可以将GAM的模型结果表示为任何其他线性模型,主要区别在于,对于光滑项,没有单一系数可供推断(即负、正、效应大小等)。

    1.2K20

    R语言广义相加模型 (GAMs)分析预测CO2时间序列数据|附代码数据

    相关视频**拓端,赞18理论让我们从高斯线性模型的方程开始 :GAM中发生的变化是存在光滑项:这仅意味着对线性预测变量的贡献现在是函数f。...首先,让我们创建一个数据框,并创建一些具有明显非线性趋势的模拟数据,并比较一些模型对该数据的拟合程度。...基函数我们将从拟合模型开始,记住光滑项是一些函数的和,首先,我们提取_基本函数_集  (即光滑项的bj(xj)部分)。然后我们可以画出第一和第二基函数。...周期性光滑项fintrannual(month)由基函数组成,与我们已经看到的相同,只是样条曲线的端点被约束为相等,这在建模时是有意义的周期性(跨月/跨年)的变量。...plot(CO2_season_time)结果从本质上讲,您可以将GAM的模型结果表示为任何其他线性模型,主要区别在于,对于光滑项,没有单一系数可供推断(即负、正、效应大小等)。

    1.9K20

    教程|Python Web页面抓取:循序渐进

    提取数据 有趣而困难的部分–从HTML文件中提取数据。几乎在所有情况下,都是从页面的不同部分中取出一小部分,再将其存储到列表中。...回归到编码部分,并添加源代码中的类: 提取3.png 现在,循环将遍历页面源中所有带有“title”类的对象。...因为将执行类似的操作,所以建议暂时删除“print”循环,将数据结果输入到csv文件中。 输出5.png 两个新语句依赖于pandas库。第一条语句创建变量“ df”,并将其对象转换为二维数据表。...为了收集有意义的信息并从中得出结论,至少需要两个数据点。 当然,还有一些稍有不同的方法。因为从同一类中获取数据仅意味着附加到另一个列表,所以应尝试从另一类中提取数据,但同时要维持表的结构。...最简单的方法之一是重复上面的代码,每次都更改URL,但这种操作很烦。所以,构建循环和要访问的URL数组即可。 ✔️创建多个数组存储不同的数据集,并将其输出到不同行的文件中。

    9.2K50

    定制人脸图像没那么难!使用TL-GAN模型轻松变脸

    虽然创建此类应用程序困难重重,但生成模型(加一些控制)在很多方面非常有用: 内容创建:想象一下,广告公司可以自动生成具有吸引力的产品图像,而且该图像不仅与广告内容相匹配,而且与镶嵌这些图片的网页风格也相融合...为了解决该问题,TL-GAN 模型做出了一项重要创新,即利用已有标注图像数据集 (x_real, y_real) 训练单独的特征提取器(用于离散标签的分类器或用于连续标签的回归器)模型 y=F(x),然后将训练好的...沿着示例相关特征轴移动潜在向量的初始结果 解除相关特征轴之间的关联 上述示例也展示了该方法的缺点:相关特征轴。举例来说,当我打算减少胡须量时,生成的人脸图像更女性化,而这并非用户期望的结果。...灵活的交互式编辑 为了查看 TL-GAN 模型控制图像生成过程的灵活程度,我构建了一个交互式 GUI 来探索沿着不同特征轴调整特征值的效果。...利用已经训练好的 GAN 生成器(英伟达的 pg-GAN),我通过发现其中有意义的特征轴使其潜在空间变得透明。当向量沿着潜在空间中的特征轴移动时,对应的图像特征发生变化,实现受控的合成和编辑。

    1.4K20

    R语言贝叶斯广义线性混合(多层次水平嵌套)模型GLMM、逻辑回归分析教育留级影响因素数据|附代码数据

    二元逻辑回归假设结果变量来自伯努利分布(这是二项分布的特例),其中试验次数 nn 为 1,因此结果变量只能是 1 或 0。相反,二项逻辑回归假设目标事件的数量服从 n 次试验和概率 q 的二项式分布。...通过这种方式,二项逻辑回归允许结果变量采用任何非负整数值,因此能够处理计数数据。 聚集在学校内的个别学生的 信息。...请注意,我们将变量建模 MSESC 为其逆 logit,因为在二项式回归模型中,我们假设线性预测变量的逆 logit 与结果(即事件的比例)之间存在线性关系,而不是预测变量本身与预测变量之间的线性关系结果...请注意,随机效应项应包含在括号中。此外,在括号内,随机斜率项和聚类项之间应以 隔开 |。 我们首先指定一个仅截距模型,以评估数据聚类结构的影响。我们将跳过模型收敛诊断的步骤。...#提取所有随机效应项的后验分布 RdEffct <- rf(aoFl) #提取 "sd(Intecpt) "的后验分布 r_ec %。

    1.6K30

    R语言贝叶斯广义线性混合(多层次水平嵌套)模型GLMM、逻辑回归分析教育留级影响因素数据

    二元逻辑回归假设结果变量来自伯努利分布(这是二项分布的特例),其中试验次数 nn 为 1,因此结果变量只能是 1 或 0。相反,二项逻辑回归假设目标事件的数量服从 n 次试验和概率 q 的二项式分布。...通过这种方式,二项逻辑回归允许结果变量采用任何非负整数值,因此能够处理计数数据。 聚集在学校内的个别学生的 信息。...请注意,我们将变量建模 MSESC 为其逆 logit,因为在二项式回归模型中,我们假设线性预测变量的逆 logit 与结果(即事件的比例)之间存在线性关系,而不是预测变量本身与预测变量之间的线性关系结果...请注意,随机效应项应包含在括号中。此外,在括号内,随机斜率项和聚类项之间应以 隔开 |。 我们首先指定一个仅截距模型,以评估数据聚类结构的影响。我们将跳过模型收敛诊断的步骤。...#提取所有随机效应项的后验分布 RdEffct <- rf(aoFl) #提取 "sd(Intecpt) "的后验分布 r_ec %。

    2.9K20

    每日学术速递4.8

    基于 LiDAR 的数据库检索通常会产生高计算存储成本,并且如果数据库过于稀疏,则可能导致全局不准确的姿态估计。另一方面,姿态回归方法以图像或点云作为输入,并以端到端的方式直接回归全局姿态。...我们提出了 HypLiLoc,一种用于 LiDAR 位姿回归的新模型。我们使用两个分支主干分别提取 3D 特征和 2D 投影特征。...我们还对框架设计进行了广泛的消融研究,证明了多模态特征提取和多空间嵌入的有效性。...值得注意的是,DiffMimic 允许物理模拟角色在训练 10 分钟后学习 Backflip,并能够在训练 3 小时后循环它,而现有方法可能需要大约一天的训练才能循环 Backflip。...综合实验证明了我们模型的优越性;还揭示了一些有价值的观察结果,以促进未来对多模态媒体操纵的研究。

    19810

    入行数据挖掘你需要知道这些知识点

    数据挖掘是指有组织有目的地收集数据、分析数据,并从这些大量数据提取出需要的有用信息,从而寻找出数据中存在的规律、规则、知识以及模式、关联、变化、异常和有意义的结构。...01 数据挖掘的含义 数据挖掘是指有组织有目的地收集数据、分析数据,并从这些大量数据提取出需要的有用信息,从而寻找出数据中存在的规律、规则、知识以及模式、关联、变化、异常和有意义的结构。...(3)方法:主要采用对比分析、分组分析、交叉分析、回归分析等分析方法; (4)结果:狭义的数据分析一般都是得到一个指标统计量结果。...(3)回归分析 回归分析的含义:回归分析是一个统计预测模型,用以描述和评估因变量与一个或多个自变量之间的关系;反映的是事务数据库中属性值在时间上的特征,产生一个将数据项映射到一个实值预测变量的函数,发现变量或属性间的依赖关系...(4)关联规则 关联规则的含义:关联规则是隐藏在数据项之间的关联或相互关系,即可以根据一个数据项的出现推导出其他数据项的出现。关联规则是描述数据库中数据项之间所存在的关系的规则。

    1.4K20

    r语言中对LASSO回归,Ridge岭回归和弹性网络Elastic Net模型实现|附代码数据

    默认设置为 type.coef = "coef",其中为每个因变量创建一个系数图。 通过使用该函数coef ,我们可以提取要求的λ值的系数, 并通过进行预测 。...如果有两个可能的结果,则使用二项式分布,否则使用多项式。 二项式模型 对于二项式模型,假设因变量的取值为G = {1,2} 。表示yi = I(gi = 1)。...我们建模 可以用以下形式写 惩罚逻辑回归的目标函数使用负二项式对数似然 我们的算法使用对数似然的二次逼近,然后对所得的惩罚加权最小二乘问题进行下降。这些构成了内部和外部循环。...glmnet 除少数情况外,多项式逻辑回归中的可选参数 与二项式回归基本相似。....        ## V30 -0.008236 稀疏矩阵 我们的程序包支持稀疏的输入矩阵,该矩阵可以高效地存储和操作大型矩阵,但只有少数几个非零条目。 我们加载一组预先创建的样本数据。

    3.1K20

    p for trend p for interaction per 1 sd 的R语言实现

    本篇主要介绍P for trend、p for interaction、per 1 sd的R语言实现,关于每一项的具体含义,可参考文中给出的链接,或者自己搜索学习。...两种方法: 对于数值与等级或二分类,可以直接模型中增加相乘项【如x1×X2】,然后看交互项有无意义。...而对于多项分类【如血型】,产生哑变量后,相乘则会产生多个交互项,此时不能整体判断交互作用是否有意义。我们可以先构建一个无交互作用项的模型,再构建一个有交互作用项的模型。...然后采用似然比检验(likelihood ratio test)进行比较有个模型差异,则可以判定交互项整体是否有意义。...方法2 # 先构建一个没有交互项的逻辑回归模型 f1 <- glm(y ~ x1 + x7, family = binomial(), data = df16_2)

    1.3K20

    Geegle Earth Engine - A Review

    九项研究仅使用雷达数据,其结果最好,中位数约为96%,差异很小。 图12 总体准确性与数据类型 3.2.2.4 总体精度与传感器类型 图13中的箱线图表示6种传感器类型的总体精度。...3.2.3 回归与GEE 在遥感数据分析方面,有64项研究使用回归方法进行分析。图15显示了不同类型的回归类型和研究数量。...(2017)报告说,MLR模型在预测过程中会处理因变量和自变量之间的非线性关系(Forkuor et al.,2017)。结果,这里仅回顾了五项研究使用了MLR方法。...有八篇论文在土地利用/土地覆盖监测中的应用使用了这种方法。在这种情况下,以彩色合成图像显示遥感图像,以从图像中提取有意义的信息(Sader & Winne,1992)。...使用从该系统评价中提取的信息创建了一个数据库,其中包括与地理大数据处理相关的典型领域。

    2.2K20

    r语言中对LASSO回归,Ridge岭回归和弹性网络Elastic Net模型实现

    默认设置为 type.coef = "coef",其中为每个因变量创建一个系数图。 通过使用该函数coef ,我们可以提取要求的λ值的系数, 并通过进行预测 。...如果有两个可能的结果,则使用二项式分布,否则使用多项式。 二项式模型 对于二项式模型,假设因变量的取值为G = {1,2} 。表示yi = I(gi = 1)。我们建模 ? 可以用以下形式写 ?...惩罚逻辑回归的目标函数使用负二项式对数似然 ? 我们的算法使用对数似然的二次逼近,然后对所得的惩罚加权最小二乘问题进行下降。这些构成了内部和外部循环。...glmnet 除少数情况外,多项式逻辑回归中的可选参数 与二项式回归基本相似。.... ## V30 -0.008236 稀疏矩阵 我们的程序包支持稀疏的输入矩阵,该矩阵可以高效地存储和操作大型矩阵,但只有少数几个非零条目。 我们加载一组预先创建的样本数据。

    6.3K10

    预见未来!李飞飞等提出端到端系统Next预测未来路径与活动

    由于预测未来活动很难,研究者引入了两项新技术。一,与大部分现有研究将行人过度简化为空间中一个点不同,该研究通过丰富的语义特征来编码行人,如视觉外观、身体活动和与周围环境的交互。...图 3:给定一系列行人帧(左),图中展示了对应的行人行为模块。研究者提取了人的外观和姿势特征来建模行人的行为变化。 ? 图 4:图中展示了行人交互模块,包含行人-场景建模和行人-对象建模。...图 5:在多尺度 Manhattan 网格上通过分类与回归进行活动位置预测。 ? 图 6:该研究提出方法与基线模型之间的对比。黄色线路是观察到的轨迹,绿色线路是预测阶段的真值轨迹。蓝色热图是预测结果。...为了便于训练,我们引入了两项辅助任务,一是预测未来活动,二是预测活动将要发生的位置。实验结果显示,我们的方法在两个公开基准上达到了未来轨迹预测的当前最佳性能。...另外,除了路径以外,我们的方法还可以产生有意义的未来活动预测。该结果提供了首个实验证据,证明对路径和活动进行联合建模有助于未来路径预测。

    64020

    预见未来!李飞飞等提出端到端系统Next预测未来路径与活动

    由于预测未来活动很难,研究者引入了两项新技术。一,与大部分现有研究将行人过度简化为空间中一个点不同,该研究通过丰富的语义特征来编码行人,如视觉外观、身体活动和与周围环境的交互。...图 3:给定一系列行人帧(左),图中展示了对应的行人行为模块。研究者提取了人的外观和姿势特征来建模行人的行为变化。 ? 图 4:图中展示了行人交互模块,包含行人-场景建模和行人-对象建模。...图 5:在多尺度 Manhattan 网格上通过分类与回归进行活动位置预测。 ? 图 6:该研究提出方法与基线模型之间的对比。黄色线路是观察到的轨迹,绿色线路是预测阶段的真值轨迹。蓝色热图是预测结果。...为了便于训练,我们引入了两项辅助任务,一是预测未来活动,二是预测活动将要发生的位置。实验结果显示,我们的方法在两个公开基准上达到了未来轨迹预测的当前最佳性能。...另外,除了路径以外,我们的方法还可以产生有意义的未来活动预测。该结果提供了首个实验证据,证明对路径和活动进行联合建模有助于未来路径预测。 本文为机器之心编译,授权本公众号转载。

    77630

    python数据分析师面试题选

    如何利用Numpy对数列的前n项进行排序 使用argsort()函数:x[x [: n-1].argsort ()] 4....在python中如何创建包含不同类型数据的dataframe 利用pandas包的DataFrame函数的serias创建列然后用dtype定义类型: df = pd.DataFrame({'x': pd.Series...所以结果是,当任何 multipliers() 返回的函数被调用,在那时,i 的值是在它被调用时的周围作用域中查找,到那时,无论哪个返回的函数被调用,for 循环都已经完成了,i 最后的值是 3,因此...什么是逻辑斯蒂回归(logistic regression)、 逻辑斯蒂回归常指逻辑回归模型,用于预测参数之间组合可能输出的二分结果。 2. 推荐系统、协同过滤 3....首先判断缺失数据是否有意义,如果没有意义或者缺失数据的比例超过80%直接去掉。

    2.9K60

    DID | 安慰剂检验

    一是改变政策发生时点,具体又包括前置处理组的政策发生时点,此时安慰剂检验的作用与平行趋势检验相同,都是考察政策发生前基础回归中时间虚拟变量与处理组交互项系数(F(-1)、F(-2)、F(-3)、.......rep78合并至已被处理过的原始数据集中; 第三步:将随机化的rep78放入回归方程中进行回归; 第四步:以上操作步骤重复1,000次; 第五步:单独提取出1,000次回归结果中rep78的系数与标准误...单独提取出1,000次回归结果中rep78的系数与标准误,最后分别绘制系数和t值的核密度估计图以及P值与系数的散点图 set seed 13579 // 设置随机种子数 forvalue...将随机化的treat与dt的交互项(did)放入回归方程中进行回归; 第四步:以上操作步骤重复1,000次; 第五步:单独提取出1,000次回归结果后did的系数与标准误,最后分别绘制系数和t值的核密度估计图以及...将随机化的treat与dt的交互项(did)放入回归方程中进行回归 *- d. 以上操作步骤重复1,000次 *- e.

    5.4K30

    R语言使用虚拟变量(Dummy Variables) 回归分析工资影响因素|附代码数据

    回归分析 忽略教育和管理之间的相互作用 我们只将工资与教育、经验和管理职位进行回归。...其结果是  虽然这些参数在统计学上是有意义的,但这并没有任何意义。与高中相比,大学学历怎么可能使你的工资减少5105? 正确的模型应该包括教育和管理职位的交互项。...添加教育和管理之间的交互作用 现在,让我们添加教育和管理之间的交互项,看看会发生什么。 对结果的解释 现在的结果是有意义的。 截距为40137(接近4万)是基本保障收入。 教育的基数是高中。...没有多重共线性 预测变量edu、exp和mngt的VIF值均小于5,因此满足这一假设。 用数据的子集进行回归 你可以通过用一个数据子集运行模型来获得同样的结果。...你可以将数据按教育程度分成子集,并在每个子集上运行回归模型,而不是使用一个教育的虚拟变量。 如果只用高中生的数据,你会得到这样的结果。

    85910
    领券