开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

在Stata中，如何创建组，使每个组具有相同的另一个变量的总和？

在Stata中，你可以使用egen命令结合sum()函数来创建一个新的分组变量，使得每个组中的另一个变量的总和相同。以下是具体步骤：

步骤 1: 准备数据

假设你有一个数据集，其中包含两个变量：group_var（用于分组的变量）和value_var（需要求和的变量）。

* 示例数据
clear
input group_var value_var
1 10
1 20
2 30
2 40
3 50
end

步骤 2: 计算每个组的总和

首先，计算每个组的总和。

* 计算每个组的总和
egen group_sum = sum(value_var), by(group_var)

步骤 3: 创建新的分组变量

接下来，创建一个新的分组变量，使得每个组中的value_var的总和相同。你可以使用egen命令的group()函数来实现这一点。

* 创建新的分组变量
egen new_group = group(group_var) if group_sum == max(group_sum)

步骤 4: 验证结果

最后，验证新的分组变量是否满足条件。

* 验证结果
list group_var value_var group_sum new_group

完整代码示例

* 示例数据
clear
input group_var value_var
1 10
1 20
2 30
2 40
3 50
end

* 计算每个组的总和
egen group_sum = sum(value_var), by(group_var)

* 创建新的分组变量
egen new_group = group(group_var) if group_sum == max(group_sum)

* 验证结果
list group_var value_var group_sum new_group

解释

准备数据：创建一个包含分组变量和需要求和变量的数据集。
计算每个组的总和：使用egen命令计算每个组的总和。
创建新的分组变量：使用egen命令的group()函数创建一个新的分组变量，使得每个组中的value_var的总和相同。
验证结果：列出数据以验证新的分组变量是否满足条件。

参考链接

Stata官方文档 - egen

通过以上步骤，你可以在Stata中创建一个新的分组变量，使得每个组中的另一个变量的总和相同。

相关搜索:在Stata中重命名具有相同后缀的多个变量在dplyr中按组创建具有最新日期的新变量在R中使用相同的条件创建一组变量？在pdfmake中创建子列(具有相同标题的一组列)在R中创建一个变量，该变量指示数字“子组”行数是否等于每个组的“总”行数为dplyr中的每个组创建具有相等样本大小的数据帧如何在SQL Server中获取具有最小顺序组和特殊名称的每个组中的行在SQL Server中，如果两个记录在组中具有相同的排名，如何对每个组中的记录进行排名，并检查其他变量以分配排名？在R中的组内排名，每个组有多少个唯一变量？在Scala Spark中，如何分组并将组中的每个值除以该组中的行数在SQL中，如何获得两组日期范围的总和如何在Django模板的组和权限中创建相同的表单如何在seaborn boxplot中创建相同子组之间的间距？创建具有分布在多列中的组的箱形图如何使用可枚举函数将二维数组中的每个组的总和相加？如何在DRF generics APIView中创建与角色名称相同的组如何在Django Admin上显示列中具有组相同值的表使用LDAP的Nodejs。如何为具有相同权限的多个组中的用户授权 Timevis -使不同的盒子在不同的组中具有依赖于名称的颜色如何使用递增的序列id创建新的pandas列，但在每个组中保持相同的值

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

SAS，Stata，HLM，R，SPSS和Mplus分层线性模型HLM分析学生受欢迎程度数据|附代码数据

正如Enders＆Tofighi（2007）所详细讨论的那样，以总体平均值为中心，而不是以组平均值（每个组的平均值均以该组中受试者的得分为准）为中心，并不适合所有模型。。...唯一的区别是他们如何报告随机方差估计的精度。此模型的ICC等于：这告诉我们，“流行”课程总变化的大约三分之一可以由每个学生所在的班级解释。...Mplus结果也显示出比以前的模型更大的差异。此模型的ICC为：同样，当我们在模型中添加另一个学生级别的效果（包括随机斜率）时，ICC略有增加。 ...在分层格式中，可以看到它具有固定的斜率系数，并且对于每个类j都是唯一的。该模型在教师的经验和学生水平的变量之间没有任何相互作用。...Stata结果 Stata无法自动识别变量之间的交互项，因此我们必须为两个跨级别的交互手动创建变量（请参见上面的代码中的gen语句）。

1.4K1 0

SAS，Stata，HLM，R，SPSS和Mplus分层线性模型HLM分析学生受欢迎程度数据

正如Enders＆Tofighi（2007）所详细讨论的那样，以总体平均值为中心，而不是以组平均值（每个组的平均值均以该组中受试者的得分为准）为中心，并不适合所有模型。。...唯一的区别是他们如何报告随机方差估计的精度。此模型的ICC等于：这告诉我们，“流行”课程总变化的大约三分之一可以由每个学生所在的班级解释。...Mplus结果也显示出比以前的模型更大的差异。此模型的ICC为：同样，当我们在模型中添加另一个学生级别的效果（包括随机斜率）时，ICC略有增加。...在分层格式中，可以看到它具有固定的斜率系数，并且对于每个类j都是唯一的。该模型在教师的经验和学生水平的变量之间没有任何相互作用。...Stata结果 Stata无法自动识别变量之间的交互项，因此我们必须为两个跨级别的交互手动创建变量（请参见上面的代码中的gen语句）。

2.5K1 0

SAS，Stata，HLM，R，SPSS和Mplus分层线性模型HLM分析学生受欢迎程度数据|附代码数据

正如Enders＆Tofighi（2007）所详细讨论的那样，以总体平均值为中心，而不是以组平均值（每个组的平均值均以该组中受试者的得分为准）为中心，并不适合所有模型。。...唯一的区别是他们如何报告随机方差估计的精度。此模型的ICC等于：这告诉我们，“流行”课程总变化的大约三分之一可以由每个学生所在的班级解释。...Mplus结果也显示出比以前的模型更大的差异。此模型的ICC为：同样，当我们在模型中添加另一个学生级别的效果（包括随机斜率）时，ICC略有增加。 ...在分层格式中，可以看到它具有固定的斜率系数，并且对于每个类j都是唯一的。该模型在教师的经验和学生水平的变量之间没有任何相互作用。...Stata结果 Stata无法自动识别变量之间的交互项，因此我们必须为两个跨级别的交互手动创建变量（请参见上面的代码中的gen语句）。

1.7K2 0

使用SAS，Stata，HLM，R，SPSS和Mplus的分层线性模型HLM

正如Enders＆Tofighi（2007）所详细讨论的那样，以总体平均值为中心，而不是以组平均值（每个组的平均值均以该组中受试者的得分为准）为中心，并不适合所有模型。。...唯一的区别是他们如何报告随机方差估计的精度。此模型的ICC等于：这告诉我们，“流行”课程总变化的大约三分之一可以由每个学生所在的班级解释。...Mplus结果也显示出比以前的模型更大的差异。此模型的ICC为：同样，当我们在模型中添加另一个学生级别的效果（包括随机斜率）时，ICC略有增加。 ...在分层格式中，可以看到它具有固定的斜率系数，并且对于每个类j都是唯一的。该模型在教师的经验和学生水平的变量之间没有任何相互作用。...Stata结果 Stata无法自动识别变量之间的交互项，因此我们必须为两个跨级别的交互手动创建变量（请参见上面的代码中的gen语句）。

3K2 0

Stata中的治疗效果：RA：回归调整、 IPW：逆概率加权、 IPWRA、 AIPW|附代码数据

p=10148 最近我们被客户要求撰写关于Stata中的治疗效果的研究报告，包括一些图形和统计输出。今天的主题是Stata中的治疗效果。治疗效果估算器根据观察数据估算治疗对结果的因果关系。...我们在第一组括号中指定结果模型，并带有结果变量及其后的协变量。...在此示例中，结果变量为bweight，唯一的协变量为mage。我们在第二组括号中指定处理模型（仅是处理变量）。在此示例中，我们仅指定处理变量mbsmoke。我们将在下一节中讨论协变量。...IPWRA使用IPW权重来估计校正后的回归系数，随后将其用于执行回归调整。结局模型和治疗模型中的协变量不必相同，它们常常不是因为影响受试者选择治疗组的变量通常不同于与结果相关的变量。...因此，偏差校正项使AIPW估计器具有与IPWRA估计器相同的双重鲁棒性。 AIPW估计器的语法和输出与IPWRA估计器的语法和输出几乎相同。

7232 0

Stata中的治疗效果：RA：回归调整、 IPW：逆概率加权、 IPWRA、 AIPW

p=10148 ---- 今天的主题是Stata中的治疗效果功能。治疗效果估算器根据观察数据估算治疗对结果的因果关系。 ...在此示例中，结果变量为bweight，唯一的协变量为mage。我们在第二组括号中指定处理模型（仅是处理变量）。在此示例中，我们仅指定处理变量mbsmoke。我们将在下一节中讨论协变量。...结果是下图替换了图1：在图5中，较大的圆圈表示较大的权重。要使用此IPW估算器估算POM，我们可以输入第一组括号指定结果模型，在这种情况下，它只是结果变量。没有协变量。...IPWRA使用IPW权重来估计校正后的回归系数，随后将其用于执行回归调整。结局模型和治疗模型中的协变量不必相同，它们常常不是因为影响受试者选择治疗组的变量通常不同于与结果相关的变量。...因此，偏差校正项使AIPW估计器具有与IPWRA估计器相同的双重鲁棒性。 AIPW估计器的语法和输出与IPWRA估计器的语法和输出几乎相同。

1K0 0

Stata中的治疗效果：RA：回归调整、 IPW：逆概率加权、 IPWRA、 AIPW

p=10148 ---- 今天的主题是Stata中的治疗效果功能。治疗效果估算器根据观察数据估算治疗对结果的因果关系。 ...在此示例中，结果变量为bweight，唯一的协变量为mage。我们在第二组括号中指定处理模型（仅是处理变量）。在此示例中，我们仅指定处理变量mbsmoke。我们将在下一节中讨论协变量。...结果是下图替换了图1：在图5中，较大的圆圈表示较大的权重。要使用此IPW估算器估算POM，我们可以输入第一组括号指定结果模型，在这种情况下，它只是结果变量。没有协变量。...IPWRA使用IPW权重来估计校正后的回归系数，随后将其用于执行回归调整。结局模型和治疗模型中的协变量不必相同，它们常常不是因为影响受试者选择治疗组的变量通常不同于与结果相关的变量。...因此，偏差校正项使AIPW估计器具有与IPWRA估计器相同的双重鲁棒性。 AIPW估计器的语法和输出与IPWRA估计器的语法和输出几乎相同。

1.4K1 0

R基础知识及快速检阅你的数据

每个人或者系统都可以由自己的库~ library(ggplot2) 1.3更新包 Q: 如何更新包？...Q: 如何加载一个以符号分隔的文本文件中的数据？...Perl） 1.6 从SPSS/SAS/Stata文件中加载数据 Q: 如何从SPSS/SAS/Stata文件中加载数据？...read.spss()-------SPSS *输入ls('package:foreign')查看foreign包中所有的函数 1.7链接函数和管道操作符%>% Q: 如何以一种易读的形式调用一个函数并且将结果传递给另一个函数...plot(ToothGrowth$supp,ToothGrowth$len) 当两个参数向量在同一个数据框中时，使用boxplot(),其允许我们在x轴上使用变量组合 #公式语法 boxplot(len

3.9K1 0

Stata与Python等效操作与调用

只是另一个对象/变量，这种区别也使得在 Python 中进行 reshape 变得更加容易。...首先创建一个 DataFrame ，然后为每个索引列指定一个名称，为该列命名。...在这些情况下，给列起一个名字很有意义，这样就知道要处理的内容。long.unstack('time') 进行 reshape ，它使用索引 'time' 并创建一个新的它具有的每个唯一值的列。...请注意，这些列现在具有多个级别，就像以前的索引一样。这是标记索引和列的另一个理由。如果要访问这些列中的任何一列，则可以照常执行操作，使用元组在两个级别之间进行区分。...在 Stata 中，内存中的 “DataFrame” 始终具有观察行号，由 Stata 内置变量 _n 表示。

9.9K5 1

Day4：R语言课程（向量和因子取子集）

我们使用的R中的函数将取决于我们引入的数据文件的类型（例如文本，Stata，SPSS，SAS，Excel等）以及该文件中的数据如何分开或分隔。下表列出了可用于从常见文件格式导入数据的函数。...但是，如果数据在文本文件中由不同的分隔符分隔，我们可以使用泛型read.table函数并将分隔符指定为函数中的参数。基因组数据通常有一个metadata文件，其中包含有关数据集中每个样本的信息。...仍以age向量为例： age 想知道age向量中的每个元素是否大于50，可以使用： age > 50 返回的是具有与age相同长度的逻辑值的向量，其中TRUE和FALSE值指示向量中的每个元素是否大于...[1] FALSE FALSE FALSE TRUE TRUE TRUE 使用这些逻辑向量仅选择具有与逻辑向量中相同位置或索引处的TRUE值的向量中的元素。...(2) 因子由于因子是特殊的向量，因此索引选择值的相同规则适用于因子。之前创建的expression因子的元素具有以下level：low，medium，high。

5.6K2 1

Pandas 2.2 中文官方教程和指南（六）

DataFrame 在 pandas 中，DataFrame类似于 Stata 数据集 - 一个具有带标签列的二维数据源，可以是不同类型的数据。...Stata 中，要执行合并，一个数据集必须在内存中，另一个必须作为磁盘上的文件名引用。...可以通过使用_merge变量中创建的值，仅保留来自初始数据集、合并数据集或两者交集的观测值。...可以通过使用_merge变量中创建的值，仅保留初始数据集、合并数据集或两者的交集中的观测值。...例如，以下示例列出了当前排序顺序中每个性别/吸烟者组中的第一个观测值。

2400 0

Pandas库常用方法、函数集合

：数据透视表，类似excel中的透视表 cut：将一组数据分割成离散的区间，适合将数值进行分类 qcut：和cut作用一样，不过它是将数值等间距分割 crosstab：创建交叉表，用于计算两个或多个因子之间的频率...分组聚合转换过滤 groupby：按照指定的列或多个列对数据进行分组 agg：对每个分组应用自定义的聚合函数 transform：对每个分组应用转换函数，返回与原始数据形状相同的结果 rank：...计算元素在每个分组中的排名 filter：根据分组的某些属性筛选数据 sum：计算分组的总和 mean：计算分组的平均值 median：计算分组的中位数 min和 max：计算分组的最小值和最大值 count...，用于展示具有多个特征的数据集中各个样本之间的关系 pandas.plotting.scatter_matrix：绘制散点矩阵图 pandas.plotting.table：绘制表格形式可视化图日期时间...: 用于展开窗口的操作 at_time, between_time: 在特定时间进行选择 truncate: 截断时间序列

2891 0

北大数据分析老鸟写给学弟们一封信

关于实验在随机实验中，样本被随机分成两组，一组经历处理条件（进入干预组），另一组接受控制条件（进入对照组），然后比较两组样本的效果指标均值是否有差异。...为了解决这个问题，可以运用统计或计量的方法对除干预因素外的其他可能的影响因素进行控制，或运用匹配的方法调整样本属性的不平衡性——在对照组中寻找一个除了干预因素不同之外，其他因素与干预组样本相同的对照样本与之配对...关于拟合优度、变量选择原则及估计值绝对大小的意义在人人的“数据分析”小站中，某同学提出这样一个问题：“多元回归分析中，怎么选择自变量和因变量，可以使R方达到80%以上？”...但是，如果拟合优度（或类似拟合优度的指标）在20%、30%或更低时，回归系数只具有定性或定序上的意义，强调其绝对数值的大小没什么意义。...其他一些建议或忠告用心思考变量间的因果关系：是A影响了B还是B影响了A？A、B之间是否真的有因果关系？是否存在C，使C既影响A又影响B，而A、B本身无直接关系？

1.7K4 0

北大数据分析老鸟写给学弟们一封信

在随机实验中，样本被随机分成两组，一组经历处理条件（进入干预组），另一组接受控制条件（进入对照组），然后比较两组样本的效果指标均值是否有差异。...为了解决这个问题，可以运用统计或计量的方法对除干预因素外的其他可能的影响因素进行控制，或运用匹配的方法调整样本属性的不平衡性——在对照组中寻找一个除了干预因素不同之外，其他因素与干预组样本相同的对照样本与之配对...关于拟合优度、变量选择原则及估计值绝对大小的意义。在人人的“数据分析”小站中，某同学提出这样一个问题：“多元回归分析中，怎么选择自变量和因变量，可以使R方达到80%以上？”...但是，如果拟合优度（或类似拟合优度的指标）在20%、30%或更低时，回归系数只具有定性或定序上的意义，强调其绝对数值的大小没什么意义。...用心思考变量间的因果关系：是A影响了B还是B影响了A？A、B之间是否真的有因果关系？是否存在C，使C既影响A又影响B，而A、B本身无直接关系？仔细选择自变量，不要遗漏重要变量，否则会造成内生性问题。

1.6K10 0

Stata广义矩量法GMM面板向量自回归PVAR模型选择、估计、Granger因果检验分析投资、收入和消费数据|附代码数据

在本文中，我们简要概述了广义矩量法 (GMM) 框架中面板 VAR 模型的选择、估计和推理，并提供了一组 Stata 程序，我们使用国家纵向调查和投资、收入和消费数据。...2.面板向量自回归我们考虑具有特定面板固定效应的阶数 -变量面板 VAR，由以下线性方程组表示：其中，是因变量的（1）向量；是外生协变量的（1）向量；以及分别是因变量特定的固定效应和特异性误差的...假设和 rank ，GMM 估计量是一致的。可以选择加权矩阵来最大化效率（Hansen，1982）。方程组的联合估计使交叉方程假设检验变得简单明了。...基于选择标准，我们使用由 pvar 实现的 GMM 估计拟合具有与上述相同的一阶面板 VAR 模型。...在实践中，研究人员通常对面板 VAR 系统中每个内生变量的外生变化对其他变量的影响感兴趣。

6301 0

Stata广义矩量法GMM面板向量自回归 VAR模型选择、估计、Granger因果检验分析投资、收入和消费数据

在本文中，我们简要概述了广义矩量法 (GMM) 框架中面板 VAR 模型的选择、估计和推理，并提供了一组 Stata 程序，我们使用国家纵向调查和投资、收入和消费数据。...2.面板向量自回归我们考虑具有特定面板固定效应的阶数 -变量面板 VAR，由以下线性方程组表示：其中，是因变量的（1）向量；是外生协变量的（1）向量；以及分别是因变量特定的固定效应和特异性误差的...假设和 rank ，GMM 估计量是一致的。可以选择加权矩阵来最大化效率（Hansen，1982）。方程组的联合估计使交叉方程假设检验变得简单明了。...基于选择标准，我们使用由 pvar 实现的 GMM 估计拟合具有与上述相同的一阶面板 VAR 模型。...在实践中，研究人员通常对面板 VAR 系统中每个内生变量的外生变化对其他变量的影响感兴趣。

3.6K5 0

北大老鸟三年数据分析深刻总结——致学弟学妹们

关于实验在随机实验中，样本被随机分成两组，一组经历处理条件（进入干预组），另一组接受控制条件（进入对照组），然后比较两组样本的效果指标均值是否有差异。...为了解决这个问题，可以运用统计或计量的方法对除干预因素外的其他可能的影响因素进行控制，或运用匹配的方法调整样本属性的不平衡性——在对照组中寻找一个除了干预因素不同之外，其他因素与干预组样本相同的对照样本与之配对...关于拟合优度、变量选择原则及估计值绝对大小的意义在人人的“数据分析”小站中，某同学提出这样一个问题：“多元回归分析中，怎么选择自变量和因变量，可以使R方达到80%以上？”...但是，如果拟合优度（或类似拟合优度的指标）在20%、30%或更低时，回归系数只具有定性或定序上的意义，强调其绝对数值的大小没什么意义。...其他一些建议或忠告用心思考变量间的因果关系：是A影响了B还是B影响了A？A、B之间是否真的有因果关系？是否存在C，使C既影响A又影响B，而A、B本身无直接关系？

3.1K6 0

xarray | 序列化及输入输出

但是在操作之前都会先将 DataArray 转换为 Dataset，从而保证数据的准确性。一个数据集可以加载或写入netCDF 文件的特定组中。...比如：获取 foo 组中的 bar 组，可以传递 '/foo/bar/' 给 group 参数。...写入编码数据你也可以自定义 xarray 如何为 netCDF 文件中的每个数据集变量提供编码信息。encoding 参数接收包含编码信息的键值对字典。..._FillValue：当保存 xarray 对象到文件时，xarray 变量中的 Nan 会映射为此属性包含的值。这在转换具有缺省值的浮点数为整数时就显得非常重要了。...默认情况下，对于包含浮点值的变量在存储时 _FillValue 为 Nan。

6.4K2 2

Stata中的治疗效果：RA：回归调整、 IPW：逆概率加权、 IPWRA、 AIPW|附代码数据

p=10148 最近我们被客户要求撰写关于Stata中的治疗效果的研究报告，包括一些图形和统计输出。治疗效果估算器根据观察数据估算治疗对结果的因果关系。...我们在第一组括号中指定结果模型，并带有结果变量及其后的协变量。...在此示例中，结果变量为bweight，唯一的协变量为mage。我们在第二组括号中指定处理模型（仅是处理变量）。在此示例中，我们仅指定处理变量mbsmoke。我们将在下一节中讨论协变量。...IPWRA使用IPW权重来估计校正后的回归系数，随后将其用于执行回归调整。结局模型和治疗模型中的协变量不必相同，它们常常不是因为影响受试者选择治疗组的变量通常不同于与结果相关的变量。...因此，偏差校正项使AIPW估计器具有与IPWRA估计器相同的双重鲁棒性。 AIPW估计器的语法和输出与IPWRA估计器的语法和输出几乎相同。

4470 0

C#3.0新增功能07 查询表达式

查询是什么及其作用是什么查询是一组指令，描述要从给定数据源（或源）检索的数据以及返回的数据应具有的形状和组织。查询与它生成的结果不同。通常情况下，源数据按逻辑方式组织为相同类型的元素的序列。...具有最大或最小值的元素。与某个条件匹配的第一个元素，或指定元素集中特定值的总和。...还可以使用 into 关键字，使 join 或 group 子句的结果可以充当相同查询表达式中的其他查询子句的源。查询变量在 LINQ 中，查询变量是存储查询而不是查询结果的任何变量。...而是通过迭代变量 testScore 返回。 scoreQuery 变量可以在另一个 foreach 循环中进行循环访问。只要既没有修改它，也没有修改数据源，便会生成相同结果。...在源序列中的每个元素本身是集合或包含集合时，可使用其他 from 子句。例如，假设具有 Country 对象的集合，其中每个对象都包含名为 Cities 的 City 对象集合。

2.1K1 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭