关于数据管理的七个雕虫小技
(一)数据的合并
可能有一些读者并不理解这个数据合并有什么用处。当然对于忠实的CGSS用户来说可能不会涉及到,但是现在越来越多的类似于CFPS、CHARLS等数据在社区、家庭、个人等层面都收集数据,这就涉及到合并的问题,最可怕的是CHARLS,他的数据分为还几个模块提供给使用者,如果不会合并基本无法使用。
[雕虫小技4]merge
merge命令是stata中常用的数据横向合并命令。举个例子,merge合并的原理基本类似于我们在excel里增加“列”,而下面介绍的append是增加“行”属于纵向合并。
数据的横向合并基本要使用如下命令
merge 1:m ID using XXX.dta
codebook _merge
keep if _merge==3
drop _merge
这里面需要注意的是第一行命令,如果被合并进来的数据与原数据数量是对等的,也就是说两个数据行数完全一样且id完全匹配,那么1:m就应该改为1:1;如果是后合并进来的数据行数多,那么就使用1:m;反之就是m:1。
[雕虫小技5]append
append主要是用于纵向数据合并,这个命令使用起来非常简单直接就
append xxx.dta
(二)stata14.0的汉字乱码转换
[雕虫小技6]stata14.0的汉字乱码转换
*数据所在位置
cd /file/*直到存储数据的最后一个文件夹;并且需要注意,此时Stata必须保正没有打开任何数据*/
*数据名称
unicode analyze xxx.dta
unicode encoding set GB18030
unicode translate xxx.dta,transutf8
这组命令能够解决绝大部分数据乱码问题,但是又一些还解决不了,例如CFPS2014,CHFS等数据。
(三)变量生成
[雕虫小技7]手动生成分类变量,防止软件无法识别
在社会科学分类变量的地位毋庸置疑,所以我们也需要对其格外关照,一般情况下软件可以自动识别,1分类的而分类变量,而其他的分类及本都会默认为连续变量。我们有两个办法防止软件误以为是连续变量
(1)生成一个新变量(比较麻烦):tab x,gen(xd)
(2)直接在原变量前加i.例如i.x
[雕虫小技8]分类变量参照组设置
分类变量在回归中的参照组设置软件默认将作为参照组,或者是第一个或最后一个分类,当然我们有的时候可能会想让其他类别作为参照,其中一个办法就是重新编码,但是比较麻烦,我们可以不转换,直接用命令ib.将ib后面的数字作为参照值,例如:
logistic gxy ib3.edu
就表示把edu这个变量的第三个分类当作参照组
[雕虫小技9]年份的提取
“林子大了什么鸟都有”,数据看多了什么乱码七糟的格式都会有,例如CGSS2006的数据中出生年这个关键变量的报告方式是“年月日”这就让人很头疼了,当然这种方式让我们获得了更多的信息比如星座,如果想在这样的数据格式中提取年份变量可以使用下面这个命令:
gen year=year(x)
[雕虫小技10]回归表的输出
使用stata分析完数据的最后一步当然是要将结果输出出来,使用下面这组命令可以直接输出出一般论文要求的回归分析表格式:
ologit y x1 x2 x3/*任意回归模型*/
est sto m1/*将上面这个模型保存为m1,当然也可以叫别的*/
esttab m1.rtf,se r2 mtitle star(+ 0.1 * 0.05 ** 0.01)/*把m1输出出来,输出包括标准误,r平方,和显著性水平*/
这种方法输出的最后文件格式是.rtf(多信息文本格式),应该保存在执行stata时cd的文件夹中。下图是使用这一命令直接输出的表:
至此,我主要为大家介绍了关于ststa中的10个雕虫小技,这些小技巧可能并不会被我们每个人所经常用到,但是一旦需要使用则是非常奏效的,希望能给大家带来一定的帮助。我也为大家把这些命令整理成了do文件,方便大家存在电脑里以备不时之需。
新年将至,祝大家在新的一年里p
欢迎大家踊跃投稿,内容有关人文社会科学的即可,可以是学术前沿思想介绍、学术论文写作与发表、各种定量研究技术和方法介绍、无论是有关统计学、大数据、R、stata、Python、GIS可视化等等,还是有关数据分析与处理,我们都欢迎哦!有偿征稿!!有偿征稿!!
投稿要求:
1、务必原创、禁止抄袭;
2、务必准确、详细,有例子,有数据,有截图;
注意事项:
1、所有投稿都会经过本公众号运营团队成员的审核,审核通过才可录用,一经录用,我们会在推文里注明作者署名,并有稿酬提供;
2、邮件请注明投稿,邮件名为“投稿+推文名称+作者+联系方式”;
以人文之情怀
以学术为志业
···········
再次期待,并热烈欢迎各位对人文社会学科感兴趣的朋友们,无论是关于学术前沿思想介绍、还是有关人文社科定量研究方法和技术、无论是有关统计学、大数据、R、stata、Python、GIS可视化等等,都可以积极给我们投稿,我们是有偿征稿呦!!
2018年,无锡群学教育科技有限公司携人文社科新方法,祝大家新年快乐!学习进步!事业有成!我们将在新的一年里,为大家带来更多的干货分享,敬请关注!
领取专属 10元无门槛券
私享最新 技术干货