首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

在Stata中,如何创建组,使每个组具有相同的另一个变量的总和?

在Stata中,你可以使用egen命令结合sum()函数来创建一个新的分组变量,使得每个组中的另一个变量的总和相同。以下是具体步骤:

步骤 1: 准备数据

假设你有一个数据集,其中包含两个变量:group_var(用于分组的变量)和value_var(需要求和的变量)。

代码语言:txt
复制
* 示例数据
clear
input group_var value_var
1 10
1 20
2 30
2 40
3 50
end

步骤 2: 计算每个组的总和

首先,计算每个组的总和。

代码语言:txt
复制
* 计算每个组的总和
egen group_sum = sum(value_var), by(group_var)

步骤 3: 创建新的分组变量

接下来,创建一个新的分组变量,使得每个组中的value_var的总和相同。你可以使用egen命令的group()函数来实现这一点。

代码语言:txt
复制
* 创建新的分组变量
egen new_group = group(group_var) if group_sum == max(group_sum)

步骤 4: 验证结果

最后,验证新的分组变量是否满足条件。

代码语言:txt
复制
* 验证结果
list group_var value_var group_sum new_group

完整代码示例

代码语言:txt
复制
* 示例数据
clear
input group_var value_var
1 10
1 20
2 30
2 40
3 50
end

* 计算每个组的总和
egen group_sum = sum(value_var), by(group_var)

* 创建新的分组变量
egen new_group = group(group_var) if group_sum == max(group_sum)

* 验证结果
list group_var value_var group_sum new_group

解释

  1. 准备数据:创建一个包含分组变量和需要求和变量的数据集。
  2. 计算每个组的总和:使用egen命令计算每个组的总和。
  3. 创建新的分组变量:使用egen命令的group()函数创建一个新的分组变量,使得每个组中的value_var的总和相同。
  4. 验证结果:列出数据以验证新的分组变量是否满足条件。

参考链接

通过以上步骤,你可以在Stata中创建一个新的分组变量,使得每个组中的另一个变量的总和相同。

页面内容是否对你有帮助?
有帮助
没帮助

相关·内容

使用SAS,Stata,HLM,R,SPSS和Mplus分层线性模型HLM

正如Enders&Tofighi(2007)所详细讨论那样,以总体平均值为中心,而不是以平均值(每个平均值均以该受试者得分为准)为中心,并不适合所有模型。 。...唯一区别是他们如何报告随机方差估计精度。此模型ICC等于: 这告诉我们,“流行”课程总变化大约三分之一可以由每个学生所在班级解释。...Mplus结果也显示出比以前模型更大差异。此模型ICC为: 同样,当我们模型添加另一个学生级别的效果(包括随机斜率)时,ICC略有增加。 ...分层格式, 可以看到它具有固定斜率系数,并且对于每个类j都是唯一。该模型在教师经验和学生水平变量之间没有任何相互作用。...Stata结果 Stata无法自动识别变量之间交互项,因此我们必须为两个跨级别的交互手动创建变量(请参见上面的代码gen语句)。

3K20

SAS,Stata,HLM,R,SPSS和Mplus分层线性模型HLM分析学生受欢迎程度数据|附代码数据

正如Enders&Tofighi(2007)所详细讨论那样,以总体平均值为中心,而不是以平均值(每个平均值均以该受试者得分为准)为中心,并不适合所有模型。。...唯一区别是他们如何报告随机方差估计精度。此模型ICC等于: 这告诉我们,“流行”课程总变化大约三分之一可以由每个学生所在班级解释。...Mplus结果也显示出比以前模型更大差异。此模型ICC为: 同样,当我们模型添加另一个学生级别的效果(包括随机斜率)时,ICC略有增加。 ...分层格式, 可以看到它具有固定斜率系数,并且对于每个类j都是唯一。该模型在教师经验和学生水平变量之间没有任何相互作用。...Stata结果 Stata无法自动识别变量之间交互项,因此我们必须为两个跨级别的交互手动创建变量(请参见上面的代码gen语句)。

1.7K20
  • SAS,Stata,HLM,R,SPSS和Mplus分层线性模型HLM分析学生受欢迎程度数据|附代码数据

    正如Enders&Tofighi(2007)所详细讨论那样,以总体平均值为中心,而不是以平均值(每个平均值均以该受试者得分为准)为中心,并不适合所有模型。。...唯一区别是他们如何报告随机方差估计精度。此模型ICC等于: 这告诉我们,“流行”课程总变化大约三分之一可以由每个学生所在班级解释。...Mplus结果也显示出比以前模型更大差异。此模型ICC为: 同样,当我们模型添加另一个学生级别的效果(包括随机斜率)时,ICC略有增加。 ...分层格式, 可以看到它具有固定斜率系数,并且对于每个类j都是唯一。该模型在教师经验和学生水平变量之间没有任何相互作用。...Stata结果 Stata无法自动识别变量之间交互项,因此我们必须为两个跨级别的交互手动创建变量(请参见上面的代码gen语句)。

    1.4K10

    SAS,Stata,HLM,R,SPSS和Mplus分层线性模型HLM分析学生受欢迎程度数据

    正如Enders&Tofighi(2007)所详细讨论那样,以总体平均值为中心,而不是以平均值(每个平均值均以该受试者得分为准)为中心,并不适合所有模型。。...唯一区别是他们如何报告随机方差估计精度。此模型ICC等于: 这告诉我们,“流行”课程总变化大约三分之一可以由每个学生所在班级解释。...Mplus结果也显示出比以前模型更大差异。此模型ICC为: 同样,当我们模型添加另一个学生级别的效果(包括随机斜率)时,ICC略有增加。...分层格式, 可以看到它具有固定斜率系数,并且对于每个类j都是唯一。该模型在教师经验和学生水平变量之间没有任何相互作用。...Stata结果 Stata无法自动识别变量之间交互项,因此我们必须为两个跨级别的交互手动创建变量(请参见上面的代码gen语句)。

    2.5K10

    Stata治疗效果:RA:回归调整、 IPW:逆概率加权、 IPWRA、 AIPW|附代码数据

    p=10148 最近我们被客户要求撰写关于Stata治疗效果研究报告,包括一些图形和统计输出。 今天主题是Stata治疗效果 。 治疗效果估算器根据观察数据估算治疗对结果因果关系。...我们第一括号中指定结果模型,并带有结果变量及其后变量。...在此示例,结果变量为bweight,唯一变量为mage。 我们第二括号中指定处理模型(仅是处理变量)。在此示例,我们仅指定处理变量mbsmoke。我们将在下一节讨论协变量。...IPWRA使用IPW权重来估计校正后回归系数,随后将其用于执行回归调整。 结局模型和治疗模型变量不必相同,它们常常不是因为影响受试者选择治疗变量通常不同于与结果相关变量。...因此,偏差校正项使AIPW估计器具有与IPWRA估计器相同双重鲁棒性。 AIPW估计器语法和输出与IPWRA估计器语法和输出几乎相同

    72320

    Stata治疗效果:RA:回归调整、 IPW:逆概率加权、 IPWRA、 AIPW

    p=10148 ---- 今天主题是Stata治疗效果功能。 治疗效果估算器根据观察数据估算治疗对结果因果关系。  ...在此示例,结果变量为bweight,唯一变量为mage。 我们第二括号中指定处理模型(仅是处理变量)。在此示例,我们仅指定处理变量mbsmoke。我们将在下一节讨论协变量。...结果是下图替换了图1: 图5,较大圆圈表示较大权重。 要使用此IPW估算器估算POM,我们可以输入 第一括号指定结果模型,在这种情况下,它只是结果变量。没有协变量。...IPWRA使用IPW权重来估计校正后回归系数,随后将其用于执行回归调整。 结局模型和治疗模型变量不必相同,它们常常不是因为影响受试者选择治疗变量通常不同于与结果相关变量。...因此,偏差校正项使AIPW估计器具有与IPWRA估计器相同双重鲁棒性。 AIPW估计器语法和输出与IPWRA估计器语法和输出几乎相同

    1K00

    Stata治疗效果:RA:回归调整、 IPW:逆概率加权、 IPWRA、 AIPW

    p=10148 ---- 今天主题是Stata治疗效果功能。 治疗效果估算器根据观察数据估算治疗对结果因果关系。  ...在此示例,结果变量为bweight,唯一变量为mage。 我们第二括号中指定处理模型(仅是处理变量)。在此示例,我们仅指定处理变量mbsmoke。我们将在下一节讨论协变量。...结果是下图替换了图1: 图5,较大圆圈表示较大权重。 要使用此IPW估算器估算POM,我们可以输入 第一括号指定结果模型,在这种情况下,它只是结果变量。没有协变量。...IPWRA使用IPW权重来估计校正后回归系数,随后将其用于执行回归调整。 结局模型和治疗模型变量不必相同,它们常常不是因为影响受试者选择治疗变量通常不同于与结果相关变量。...因此,偏差校正项使AIPW估计器具有与IPWRA估计器相同双重鲁棒性。 AIPW估计器语法和输出与IPWRA估计器语法和输出几乎相同

    1.4K10

    Stata与Python等效操作与调用

    只是另一个对象/变量,这种区别也使得 Python 中进行 reshape 变得更加容易。...首先创建一个 DataFrame ,然后为每个索引列指定一个名称,为该列命名。...在这些情况下,给列起一个名字很有意义,这样就知道要处理内容。long.unstack('time') 进行 reshape ,它使用索引 'time' 并创建一个新具有每个唯一值列。...请注意,这些列现在具有多个级别,就像以前索引一样。这是标记索引和列另一个理由。如果要访问这些列任何一列,则可以照常执行操作,使用元组两个级别之间进行区分。... Stata ,内存 “DataFrame” 始终具有观察行号,由 Stata 内置变量 _n 表示。

    9.9K51

    Day4:R语言课程(向量和因子取子集)

    我们使用R函数将取决于我们引入数据文件类型(例如文本,Stata,SPSS,SAS,Excel等)以及该文件数据如何分开或分隔。下表列出了可用于从常见文件格式导入数据函数。...但是,如果数据文本文件由不同分隔符分隔,我们可以使用泛型read.table函数并将分隔符指定为函数参数。 基因数据通常有一个metadata文件,其中包含有关数据集中每个样本信息。...仍以age向量为例: age 想知道age向量每个元素是否大于50,可以使用: age > 50 返回具有与age相同长度逻辑值向量,其中TRUE和FALSE值指示向量每个元素是否大于...[1] FALSE FALSE FALSE TRUE TRUE TRUE 使用这些逻辑向量仅选择具有与逻辑向量相同位置或索引处TRUE值向量元素。...(2) 因子 由于因子是特殊向量,因此索引选择值相同规则适用于因子。之前创建expression因子元素具有以下level:low,medium,high。

    5.6K21

    北大数据分析老鸟写给学弟们一封信

    关于实验 随机实验,样本被随机分成两,一经历处理条件(进入干预),另一接受控制条件(进入对照),然后比较两样本效果指标均值是否有差 异。...为了解决这个问题,可以运用统计或计量方法对除干预因素外其他可能影响因素进行控制,或运用匹配方法调整样本属性不平衡性——在对照寻 找一个除了干预因素不同之外,其他因素与干预样本相同对照样本与之配对...关于拟合优度、变量选择原则及估计值绝对大小意义 人人“数据分析”小站,某同学提出这样一个问题:“多元回归分析,怎么选择自变量和因变量,可以使R方达到80%以上?”...但是,如果拟合优度(或类似拟合优度指标)20%、30%或 更低时,回归系数只具有定性或定序上意义,强调其绝对数值大小没什么意义。...其他一些建议或忠告 用心思考变量因果关系:是A影响了B还是B影响了A?A、B之间是否真的有因果关系?是否存在C,使C既影响A又影响B,而A、B本身无直接关系?

    1.7K40

    Pandas库常用方法、函数集合

    :数据透视表,类似excel透视表 cut:将一数据分割成离散区间,适合将数值进行分类 qcut:和cut作用一样,不过它是将数值等间距分割 crosstab:创建交叉表,用于计算两个或多个因子之间频率...分组 聚合 转换 过滤 groupby:按照指定列或多个列对数据进行分组 agg:对每个分组应用自定义聚合函数 transform:对每个分组应用转换函数,返回与原始数据形状相同结果 rank:...计算元素每个分组排名 filter:根据分组某些属性筛选数据 sum:计算分组总和 mean:计算分组平均值 median:计算分组中位数 min和 max:计算分组最小值和最大值 count...,用于展示具有多个特征数据集中各个样本之间关系 pandas.plotting.scatter_matrix:绘制散点矩阵图 pandas.plotting.table:绘制表格形式可视化图 日期时间...: 用于展开窗口操作 at_time, between_time: 特定时间进行选择 truncate: 截断时间序列

    28810

    Stata广义矩量法GMM面板向量自回归PVAR模型选择、估计、Granger因果检验分析投资、收入和消费数据|附代码数据

    本文中,我们简要概述了广义矩量法 (GMM) 框架面板 VAR 模型选择、估计和推理,并提供了一 Stata 程序,我们使用国家纵向调查和投资、收入和消费数据。...2.面板向量自回归 我们考虑具有特定面板固定效应阶数 -变量面板 VAR,由以下线性方程表示: 其中, 是因变量(1)向量; 是外生协变量(1)向量; 以及 分别是因变量特定固定效应和特异性误差...假设 和 rank ,GMM 估计量是一致。可以选择加权矩阵来最大化效率(Hansen,1982)。 方程联合估计使交叉方程假设检验变得简单明了。...基于选择标准,我们使用由 pvar 实现 GMM 估计拟合具有与上述相同一阶面板 VAR 模型。...在实践,研究人员通常对面板 VAR 系统每个内生变量外生变化对其他变量影响感兴趣。

    63010

    Stata广义矩量法GMM面板向量自回归 VAR模型选择、估计、Granger因果检验分析投资、收入和消费数据

    本文中,我们简要概述了广义矩量法 (GMM) 框架面板 VAR 模型选择、估计和推理,并提供了一 Stata 程序,我们使用国家纵向调查和投资、收入和消费数据。...2.面板向量自回归 我们考虑具有特定面板固定效应阶数 -变量面板 VAR,由以下线性方程表示: 其中, 是因变量(1)向量; 是外生协变量(1)向量; 以及 分别是因变量特定固定效应和特异性误差...假设 和 rank ,GMM 估计量是一致。可以选择加权矩阵来最大化效率(Hansen,1982)。 方程联合估计使交叉方程假设检验变得简单明了。...基于选择标准,我们使用由 pvar 实现 GMM 估计拟合具有与上述相同一阶面板 VAR 模型。...在实践,研究人员通常对面板 VAR 系统每个内生变量外生变化对其他变量影响感兴趣。

    3.6K50

    北大老鸟三年数据分析深刻总结——致学弟学妹们

    关于实验 随机实验,样本被随机分成两,一经历处理条件(进入干预),另一接受控制条件(进入对照),然后比较两样本效果指标均值是否有差异。...为了解决这个问题,可以运用统计或计量方法对除干预因素外其他可能影响因素进行控制,或运用匹配方法调整样本属性不平衡性——在对照寻找一个除了干预因素不同之外,其他因素与干预样本相同对照样本与之配对...关于拟合优度、变量选择原则及估计值绝对大小意义 人人“数据分析”小站,某同学提出这样一个问题:“多元回归分析,怎么选择自变量和因变量,可以使R方达到80%以上?”...但是,如果拟合优度(或类似拟合优度指标)20%、30%或更低时,回归系数只具有定性或定序上意义,强调其绝对数值大小没什么意义。...其他一些建议或忠告 用心思考变量因果关系:是A影响了B还是B影响了A?A、B之间是否真的有因果关系?是否存在C,使C既影响A又影响B,而A、B本身无直接关系?

    3.1K60

    北大数据分析老鸟写给学弟们一封信

    随机实验,样本被随机分成两,一经历处理条件(进入干预),另一接受控制条件(进入对照),然后比较两样本效果指标均值是否有差异。...为了解决这个问题,可以运用统计或计量方法对除干预因素外其他可能影响因素进行控制,或运用匹配方法调整样本属性不平衡性——在对照寻找一个除了干预因素不同之外,其他因素与干预样本相同对照样本与之配对...关于拟合优度、变量选择原则及估计值绝对大小意义。 人人“数据分析”小站,某同学提出这样一个问题:“多元回归分析,怎么选择自变量和因变量,可以使R方达到80%以上?”...但是,如果拟合优度(或类似拟合优度指标)20%、30%或更低时,回归系数只具有定性或定序上意义,强调其绝对数值大小没什么意义。...用心思考变量因果关系:是A影响了B还是B影响了A?A、B之间是否真的有因果关系?是否存在C,使C既影响A又影响B,而A、B本身无直接关系? 仔细选择自变量,不要遗漏重要变量,否则会造成内生性问题。

    1.6K100

    Stata治疗效果:RA:回归调整、 IPW:逆概率加权、 IPWRA、 AIPW|附代码数据

    p=10148 最近我们被客户要求撰写关于Stata治疗效果研究报告,包括一些图形和统计输出。 治疗效果估算器根据观察数据估算治疗对结果因果关系。...我们第一括号中指定结果模型,并带有结果变量及其后变量。...在此示例,结果变量为bweight,唯一变量为mage。 我们第二括号中指定处理模型(仅是处理变量)。在此示例,我们仅指定处理变量mbsmoke。我们将在下一节讨论协变量。...IPWRA使用IPW权重来估计校正后回归系数,随后将其用于执行回归调整。 结局模型和治疗模型变量不必相同,它们常常不是因为影响受试者选择治疗变量通常不同于与结果相关变量。...因此,偏差校正项使AIPW估计器具有与IPWRA估计器相同双重鲁棒性。 AIPW估计器语法和输出与IPWRA估计器语法和输出几乎相同

    44700

    C#3.0新增功能07 查询表达式

    查询是什么及其作用是什么 查询是一指令,描述要从给定数据源(或源)检索数据以及返回数据应具有的形状和组织。 查询与它生成结果不同。 通常情况下,源数据按逻辑方式组织为相同类型元素序列。...具有最大或最小值元素。 与某个条件匹配第一个元素,或指定元素集中特定值总和。...还可以使用 into 关键字,使 join 或 group 子句结果可以充当相同查询表达式其他查询子句源。 查询变量 LINQ ,查询变量是存储查询而不是查询结果任何变量。...而是通过迭代变量 testScore 返回。 scoreQuery 变量可以另一个 foreach 循环中进行循环访问。 只要既没有修改它,也没有修改数据源,便会生成相同结果。...源序列每个元素本身是集合或包含集合时,可使用其他 from 子句。 例如,假设具有 Country 对象集合,其中每个对象都包含名为 Cities City 对象集合。

    2.1K10
    领券