前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >中国工业企业数据库 | 特殊样本统计

中国工业企业数据库 | 特殊样本统计

原创
作者头像
kemosabe
修改于 2021-11-03 01:54:11
修改于 2021-11-03 01:54:11
1.5K0
举报

在对中国工业企业数据库进行数据清洗之后,一个伴随而来的问题是:数据清洗本身会否影响估计结果?

之所以进行数据清洗,绝不仅仅是为了逼近所谓的“研究范式”,更多在于使得估计结果更能反映“平均水准”,或者确保参与回归的样本的固有特征不存在系统性偏差(这里有点类似于PSM),比如为了排除极端值的干扰,一般都会对连续型变量进行缩尾/截尾处理;比如为了保证所有样本企业的资产负债指标处在一个正常水准,将直接剔除资产负债率大于1或小于0的样本。

数据清洗的本意是为了规避问题,但数据清洗本身可能带来新的不可忽视的问题。

比如,原始数据集中某企业存续期为1998年-2013年,且存续年份不中断(不包括2010年,下同),但是数据清洗之后观察发现该企业样本存续期变为2003-2011年,且2005年-2008年的数据缺省。这样存在的问题是,如果造成数据缺省的原因是异常值,比如在这些缺省年份企业的资产负债率大于1或者小于0,从而导致这些样本在数据清洗时被剔除,那么在参与回归时使用这样的观测值将可能导致样本选择偏误(注意这里不是自选择偏误!)。

为什么会导致样本选择偏误?在数据清洗时,最终决定样本是否参与回归的因素是一个确定的因素,比如上例中的资产负债率,如果资产负债率同时影响回归模型中的核心xy,将造成估计偏误。换句话说,基于一个特定的变量对数据进行清洗,这样的一种选择过程将导致参与回归的样本与被剔除的样本在某些方面存在系统性偏差,即对样本的选择不再随机。

再比如,在将四位数行业分类代码统一至GB2002年版之后,观察发现某企业所属行业在四位数层面发生变动,即同一家企业在不同年份发生了跨行业转移。排除行业分类代码统一错误的可能,使用这样的跨行转移样本来进行估计可能导致样本选择偏误。

为什么会导致样本选择偏误?事实上,数据清洗本身并不是造成自选择偏误根本所在,是样本主体的有意识有方向的决策行为造成了自选择偏误,数据清洗不过是将这一问题暴露出来。比如上文的跨行转移样本,企业基于自身状况与外部环境的研判,自主选择是否进行行业转移。如果这部分企业在行业转移之后产生明显的跨行转移效果,如产值、负债、主营收入等发生突变,并且转移前与行业不变的企业相比差距不大,但转移后差距突变,将造成估计偏误。换句话说,跨行转移企业与未跨行转移企业在某些方面可能存在系统性偏差,即对样本的选择不再随机。特别是,当我们想评估一项政策的政策效果时,并且该项政策以特定行业为实施对象,如果存在以上情况,那么我们就很难判断最终的结果究竟是因为这一项政策带来的,还是企业跨行转移带来的。

以上只是工企数据库进行数据清洗后可能出现的两点比较突出的问题,除此之外还存在单期观测企业、在位企业、持续在位企业与其他企业是否存在系统性差异的问题。解决这些问题的一个常见思路是剔除这些特殊样本进行回归,并将回归结果与基准回归结果进行比较,如果结果差异不大,说明在考虑这些问题之后基准结果依然是稳健可信的(陈登科,2020)

1 陈登科. 贸易壁垒下降与环境污染改善——来自中国企业污染数据的新证据J. 经济研究, 2020, 55(12): 98-114.

剔除这部分特殊样本的前提是识别出这些样本,下面的代码是可供参考的识别方案。

代码语言:txt
AI代码解释
复制
*- 单期观测样本
preserve
	bys idcode: gen c = _N
	duplicates drop idcode, force
	tab c
restore  // 存续年份分别为1,2,3,...,15年的企业个数
preserve
	bys idcode: keep if _N == 1
	tab year
restore  // 分年度统计单期观测样本数目

*- 跨行业转移样本(四位数行业)
preserve
	egen            a = nvals(indcode), by(idcode)
	gen             b = (!1.a)
	drop if         !1.b
	duplicates drop idcode, force
	count
restore  // 1998-2013年间跨行业转移企业个数
preserve
	drop if         year >= 2007
	egen            a = nvals(indcode), by(idcode)
	gen             b = (!1.a)
	drop if         !1.b
	duplicates drop idcode, force
	count
restore  // 1998-2007年间跨行业转移企业个数

*- 2007年前后均有观测值(但年份不一定持续)的样本(在位企业)
** 与之相反的是进入退出企业
** 进入企业:2007年以前不存在而2007年或以后存在(但不一定持续存在)的企业
** 退出企业:2007年或以前存在而2007年以后不存在(但不一定持续存在)的企业
preserve
	replace  year = year - 1 if year > 2010
	bys      idcode: egen min = min(year)
	bys      idcode: egen max = max(year)
	gen      a = (min < 2007 & max > 2007)
	count if 1.a
restore

*- 存续年份不中断的样本
** 存续年份不中断,如1998,1999,2000,2001
** 存续年份  中断,如1998,1999,     2001
preserve
	replace  year = year - 1 if year > 2010
	bys      idcode: egen min = min(year)
	bys      idcode: egen max = max(year)
	bys      idcode:  gen N = _N
	gen      b = (max - min == N)
	count if 1.b
restore

*- 存续年份不中断的在位企业样本(持续在位企业)
** 指存续年份不中断且至少包括2007年前后各一期(即2006与2008年)的企业
preserve
	replace  year = year - 1 if year > 2010
	bys      idcode: egen min = min(year)
	bys      idcode: egen max = max(year)
	bys      idcode:  gen N = _N
	gen      c = (min < 2007 & max > 2007 & max - min == N)
	count if 1.c
restore

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Stata | 识别企业样本期行业是否发生变化
在一份非平衡面板数据中,生成虚拟变量changed,表示企业(code)在样本期间行业类型(indcd)是否发生变化。若发生变化取值为 1 ,否则为 0 。如下图所示,
PyStaData
2021/10/08
6.4K1
一些数据处理的方法
这期推文其实在上期之后就一直在构思,只是在实际落地的时候有一些小问题需要解决,然后这段时间又在忙其他事情,所以就一直拖到了现在……
kemosabe
2021/09/08
2.5K0
一些数据处理的方法
计量模型 | 时间固定效应与时间趋势项
这期推送将比较时间固定效应和时间趋势项的区别,并使用两种方法对模型中可能存在的trend进行识别。
kemosabe
2021/10/06
3.8K0
计量模型  |  时间固定效应与时间趋势项
稳健性检验!稳健性检验!
稳健性检验考察的是评价方法和指标解释能力的强壮性,也就是当改变某些参数时,评价方法和指标是否仍然对评价结果保持一个比较一致、稳定的解释。
连享会
2022/05/12
3.2K0
稳健性检验!稳健性检验!
史上最全!234个财务数据分析数据指标归纳总结
存货周转天数=360/存货周转率=[360*(期初存货+期末存货)/2]/产品销售成本
肉眼品世界
2022/06/15
3.2K0
史上最全!234个财务数据分析数据指标归纳总结
Python实战项目——用户消费行为数据分析(三)
今天我们要对用户消费行为进行分析,用户消费行为数据分析项目旨在利用大量用户消费数据,通过数据挖掘和分析技术,深入了解用户在产品或服务上的消费行为模式和习惯。通过对数据的挖掘和分析,该项目可以帮助企业更好地了解其用户,优化产品或服务,提高用户满意度,增加用户忠诚度,并在竞争激烈的市场中获得优势
老虎也淘气
2024/01/30
1.4K0
Python实战项目——用户消费行为数据分析(三)
【揭秘】中国四大银行的大数据应用已到了哪个阶段?
对于大数据给企业带来的价值,已经毋庸置疑。在国内,银行业应该是IT建设更为领先的行业之一。特别中、农、工、建四大银行,更是走在整个银行业的前面。那么,他们对于大数据是如何看待的?在这四大银行,大数据的
IT阅读排行榜
2018/08/17
7950
R语言股票市场指数:ARMA-GARCH模型和对数收益率数据探索性分析|附代码数据
最近我们被客户要求撰写关于ARMA-GARCH的研究报告,包括一些图形和统计输出。
拓端
2023/02/21
1.1K0
分享一个能够写在简历里的企业级数据挖掘实战项目
使用工具: python、pandas、numpy、matplotlib、seaborn、sklearn库
数据STUDIO
2021/09/23
1.6K0
分享一个能够写在简历里的企业级数据挖掘实战项目
争相上市、抢夺本土市场,未来三五年数据库将迎来大洗牌 | 解读数据库的2022
作者 | 李冬梅 编辑 | 蔡芳芳 本文是“2022 InfoQ 年度技术盘点与展望”系列文章之一,由 InfoQ 编辑部制作呈现,重点聚焦数据库领域在 2022 年的重要进展、动态,希望能帮助你准确把握 2022 年数据库领域的核心发展脉络,在行业内始终保持足够的技术敏锐度。 “InfoQ 年度 技术盘点与展望”是 InfoQ 全年最重要的内容选题之一,将涵盖操作系统、数据库、AI、大数据、云原生、架构、大前端、编程语言、开源安全、数字化十大方向,后续将聚合延展成专题、迷你书、直播周、合集页面,在 In
深度学习与Python
2023/03/29
5060
争相上市、抢夺本土市场,未来三五年数据库将迎来大洗牌 | 解读数据库的2022
计量模型 | 固定效应与交互固定效应
在LSDV法下,FE本质就是控制变量,所以在经济含义上,FE(包括交互FE)与一般意义上的控制变量并无二致。
kemosabe
2021/10/12
2.6K0
十四年后重返中国,SIGMOD 背后的数据库技术变迁
在当前,随着新一轮技术浪潮的兴起,以传统计算机技术为基础的信息时代正逐步过渡到由人工智能、云计算等关键技术驱动,各领域趋向融合的信息新时代。在这一背景下,数据库技术也正朝着崭新的方向不断发展。前不久刚结束的 ACM SIGMOD 2021 大会上,就涌现出很多值得关注的前沿技术热点。 为了让更多的数据库从业者能了解数据库领域的最新研究成果,熟悉行业前沿发展趋势,近日,腾讯云数据库联合深圳计算机学会数据科学与工程(DSE)专委会,举办了一场围绕 SIGMOD 2021 与数据库前沿研究热点的线上研讨会分享
腾讯云数据库 TencentDB
2021/07/26
8340
从小白到年薪10万+,优秀的数据分析能力如何速成?
广泛被应用的数据分析 谷歌的数据分析可以预测一个地区即将爆发的流感,从而进行针对性的预防;淘宝可以根据你浏览和消费的数据进行分析,为你精准推荐商品;口碑极好的网易云音乐,通过其相似性算法,为不同的人量身定制每日歌单…… 数据正在变得越来越常见,小到我们每个人的社交网络、消费信息、运动轨迹……,大到企业的销售、运营数据,产品的生产数据,交通网络数据…… 如何从海量数据中获得别人看不见的知识,如何利用数据来武装营销工作、优化产品、用户调研、支撑决策,数据分析可以将数据的价值最大化。 数据分析人才热度也是高居
机器学习AI算法工程
2018/03/09
1.3K0
从小白到年薪10万+,优秀的数据分析能力如何速成?
关于Python数据分析,这里有一条高效的学习路径
广泛被应用的数据分析 谷歌的数据分析可以预测一个地区即将爆发的流感,从而进行针对性的预防;淘宝可以根据你浏览和消费的数据进行分析,为你精准推荐商品;口碑极好的网易云音乐,通过其相似性算法,为不同的人量身定制每日歌单…… 数据正在变得越来越常见,小到我们每个人的社交网络、消费信息、运动轨迹……,大到企业的销售、运营数据,产品的生产数据,交通网络数据…… 如何从海量数据中获得别人看不见的知识,如何利用数据来武装营销工作、优化产品、用户调研、支撑决策,数据分析可以将数据的价值最大化。 数据分析人才热度也是高居
Crossin先生
2018/04/17
1.8K0
关于Python数据分析,这里有一条高效的学习路径
R语言混合效应模型(mixed model)案例研究|附代码数据
在本文中,我们描述了灵活的竞争风险回归模型。回归模型被指定为转移概率,也就是竞争性风险设置中的累积发生率
拓端
2022/11/17
1.4K0
腾讯云智能体开发平台×DeepSeek:股票分析低代码应用实践
在金融科技快速发展的今天,股票分析作为投资决策的核心环节,正面临数据量激增和复杂性提升的挑战。传统股票分析依赖人工处理,效率低下且成本高昂,而人工智能(AI)的引入为这一领域带来了革命性变革。腾讯云智能体开发平台(Large Model Knowledge Engine, LKE)结合DeepSeek的强大语言模型能力,为开发者提供了一个高效的低代码平台,助力构建智能化的股票分析应用。
数字扫地僧
2025/03/20
4530
腾讯云智能体开发平台×DeepSeek:股票分析低代码应用实践
一文看懂风控模型所有
在当代,金融机构在风险管理的每个环节都尽可能地引入计量分析方法,依托大数据进行后台的分析回顾,不断的优化调整,使得金融机构在风险与收益的博弈过程中更快达到平衡,实现局部甚至更多空间的利润最大化。
全栈程序员站长
2022/09/06
7.3K0
一文看懂风控模型所有
深度报告 | 中国宏观经济数据分析入门
有奖转发活动 回复“抽奖”参与《2015年数据分析/数据挖掘工具大调查》有奖活动。 论坛君 本文为光大证券首席经济学家,中国首席经济学家论坛徐高理事对中国宏观经济数据分析的深度报告。数据作为经济分析的基础,即使有严格的经济理论和预测判断,也需要详实合理的数据做支撑。宏观经济涉及多层面庞杂的数据,系统全面的掌握宏观数据体系,以及阅读、处理、分析、判断经济数据对宏观研究至关重要。 前言 数据是经济分析的基础。严格的经济理论和预测判断均需要以详实合理的数据做支撑。认识理解经济数据是进行经济研究所需的基本素质。宏观
小莹莹
2018/04/23
4.2K0
深度报告 | 中国宏观经济数据分析入门
基于R语言混合效应模型(mixed model)案例研究|附代码数据
在本文中,我们描述了灵活的竞争风险回归模型。回归模型被指定为转移概率,也就是竞争性风险设置中的累积发生率
拓端
2023/02/10
1.4K0
大模型训练中的数据偏见消解:从样本清洗到动态权重平衡的工程化实践
数据偏见简单来说,就是数据集中存在的系统性偏差。比如说,我们要训练一个图像识别模型来识别动物,但是数据集中猫的图片有 1000 张,而狗的图片只有 100 张,这就导致了数据在类别数量上的不平衡,也就是一种数据偏见。又或者,在训练一个语言模型时,数据集中男性相关的词汇出现频率远远高于女性相关词汇,这也是数据偏见的表现。数据偏见的存在形式多种多样,可能是数据量的不均衡、样本的错误标注,甚至是数据来源的局限性导致某些群体或特征被过度或不足代表。
小白的大数据之旅
2025/03/31
2750
大模型训练中的数据偏见消解:从样本清洗到动态权重平衡的工程化实践
推荐阅读
相关推荐
Stata | 识别企业样本期行业是否发生变化
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档