前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Stata | 下载和整理上市公司行业分类结果

Stata | 下载和整理上市公司行业分类结果

作者头像
PyStaData
发布于 2020-07-21 02:57:07
发布于 2020-07-21 02:57:07
2.7K10
代码可运行
举报
文章被收录于专栏:PyStaDataPyStaData
运行总次数:0
代码可运行

提出问题

证监会网站会公布每季度上市公司行业分类结果[1],但提供的是 PDF 版本,难以直接用作数据匹配。刚需要用到这份数据,懒得手动下载和转换,所以用 Stata 写了下获取和整理数据。

思路分析

  1. 使用 Stata16 调用 Python 完成文件的下载、PDF 转换成 Excel 文件。
  2. 使用 Stata 进行数据整理,涉及观测值去重、填充和利用正则表达式生成新变量等内容。

实现过程

调用 Python 下载和提取文件

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
python:
import requests
import pdfplumber
from openpyxl import Workbook

# 下载 PDF 文件
pdf_2019q4 = 'http://www.csrc.gov.cn/pub/newsite/scb/ssgshyfljg/202001/W020200110325952653089.pdf'
r = requests.get(pdf_2019q4, stream=True)
with open("证监会2019年4季度上市公司行业分类结果.pdf", "wb") as pdf:
    for content in r:
            pdf.write(content)

# 提取并写入 Excel
wb = Workbook()
ws = wb.active
with pdfplumber.open("证监会2019年4季度上市公司行业分类结果.pdf") as pdf:
    for page in pdf.pages:
        for table in page.extract_tables():
            for row in table:
                ws.append(row)
wb.save("证监会2019年4季度上市公司行业分类结果.xlsx")
end

整理数据

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
import excel using "证监会2019年4季度上市公司行业分类结果.xlsx", clear
duplicates drop

* ssc install nrow, replace
* ssc install carryforward, replace
nrow
carryforward _all,replace
gen 行业门类与大类 = ustrregexs(0) + 行业大类代码 if ustrregexm(门类名称及代码,"[A-Z]") == 1
save "2019q4上市公司行业分类.dta", replace

最终结果

参考资料

[1]

上市公司最新行业分类结果: http://www.csrc.gov.cn/pub/newsite/scb/ssgshyfljg/

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-04-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 PyStaData 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
1 条评论
热度
最新
感谢博主!太厉害啦
感谢博主!太厉害啦
回复回复点赞举报
推荐阅读
编辑精选文章
换一批
Stata | 自动生成中南财大2019拟录取硕士研究生分析报告
又是一年考研季,今天有朋友问我去年的学校录取情况。作为一只“菜狗”,这那是我该操心的事,但我还是去官网找了下去年的结果。然而官网上拟录取名单是 PDF 格式,不方便拿来做统计分析,所以就用 Stata 顺手做了一些简单的分析工作,觉得这也为需要提供重复性报告的工作提供一种思路。具体来说,主要包括如下技术要点:
PyStaData
2020/07/21
1K0
Stata | 自动生成中南财大2019拟录取硕士研究生分析报告
Python工具 | pdf转excel的python方法
最近不知道写什么了,正好昨天整理了几学期的年级排名,需要pdf转excel,所以百度学习了一下python的pdfplumber库
Justlovesmile
2021/12/14
2.3K0
如何用PowerBI自定义函数批量爬取财务报表
近期,学习了马老师的商业智能财务分析(PowerBI)课程后,不免手痒,教学中的案例数据不过瘾,于是在PowerBI学友的启发下,自己找现实数据玩了起来。那么今天的文章主要内容是怎样从PBI批量爬取在线的财务报表数据。直接进入正题。
公众号PowerBI大师
2019/10/28
3.4K0
如何用PowerBI自定义函数批量爬取财务报表
三大神器助力Python提取pdf文档信息
今天这篇文章是今年最后一篇文章了,因此也是一篇非常有用的技术文章,你可以现在只了解一下并进行收藏,等你需要用到的时候再拿出来看一看,这样就好了。
啃饼思录
2019/02/26
20.9K0
基于ERNIELayout&pdfplumber-UIE的多方案学术论文信息抽取
本项目链接:https://aistudio.baidu.com/aistudio/projectdetail/5196032?contributionType=1 基于ERNIELayout&pdf
汀丶人工智能
2023/01/05
1.2K0
用PowerBI分析上市公司财务数据(二)
笔者认为要具备以下条件:一是理解业务数据,知道主要分析的指标及潜在的报表分析需求;二是对DAX表达计算逻辑、特性有一定的了解。
公众号PowerBI大师
2019/10/28
5.2K0
用PowerBI分析上市公司财务数据(二)
【RAG实战】基于TextIn打造上市公司财务报表智能问答系统
在当今竞争激烈的市场环境中,企业和投资者对财务信息的获取与分析要求越来越高。上市公司财务报表作为评估公司财务健康和未来发展的重要依据,提供了大量关键信息。
TechLead
2024/07/26
3970
【RAG实战】基于TextIn打造上市公司财务报表智能问答系统
对标零售行业上市公司2019年营收, 1Q2020营收同减 20%
突然的疫情迫使已经忙碌的上班族在家中"自我隔离",并且使许多计划"入门者"的公司不得不暂时告别传统的办公方式。
庄帅
2020/07/10
2930
对标零售行业上市公司2019年营收, 1Q2020营收同减 20%
使用Python批量下载Wind数据库中的PDF报告
最近小编出于工作需要,准备在Wind金融数据终端批量下载上市公司2019年第一季度业绩预告。通过相关的条件检索,发现其相关数据有近百条。由于Wind金融数据终端目前并不支持批量下载公司公告(只能逐个点击链接后下载pdf格式的公告)。因此,如果手动点击鼠标逐条下载公告的话,花费几个小时是非常耗时的,特别是如果检索的公告有上千条的话,那小编是绝对会拒绝点击鼠标的。
1480
2019/05/21
7.7K1
5行Python就能爬取 3000+ 上市公司的信息?
入门爬虫很容易,几行代码就可以,可以说是学习 Python 最简单的途径。 刚开始动手写爬虫,你只需要关注最核心的部分,也就是先成功抓到数据,其他的诸如:下载速度、存储方式、代码条理性等先不管,这样的代码简短易懂、容易上手,能够增强信心。
Python知识大全
2020/09/18
1.4K0
用Python爬取东方财富网上市公司财务报表
摘要: 现在很多网页都采取JavaScript进行动态渲染,其中包括Ajax技术。有的网页虽然也用Ajax技术,但接口参数可能是加密的无法直接获得,比如淘宝;有的动态网页也采用JavaScript,但不是Ajax技术,比如Echarts官网。所以,当遇到这两类网页时,需要新的采取新的方法,这其中包括干脆、直接、好用的的Selenium大法。东方财富网的财务报表网页也是通过JavaScript动态加载的,本文利用Selenium方法爬取该网站上市公司的财务报表数据。
Python中文社区
2018/10/25
14.7K1
用Python爬取东方财富网上市公司财务报表
金融领域:产业链知识图谱包括上市公司、行业和产品共3类实体,构建并形成了一个节点10w+,关系边16w的十万级别产业链图谱
包括上市公司所属行业关系、行业上级关系、产品上游原材料关系、产品下游产品关系、公司主营产品、产品小类共6大类。 上市公司4,654家,行业511个,产品95,559条、上游材料56,824条,上级行业480条,下游产品390条,产品小类52,937条,所属行业3,946条。
汀丶人工智能
2023/07/25
9261
金融领域:产业链知识图谱包括上市公司、行业和产品共3类实体,构建并形成了一个节点10w+,关系边16w的十万级别产业链图谱
10行代码爬取全国所有A股/港股/新三板上市公司信息
摘要: 我们平常在浏览网页中会遇到一些表格型的数据信息,除了表格本身体现的内容以外,可能还想透过表格背后再挖掘些有意思或者有价值的信息。这时,可用python爬虫来实现。本文采用pandas库中的read_html方法来快速准确地抓取网页中的表格数据。
Python数据科学
2018/12/06
3.3K1
最贵新股没破发,此前弃购7.8个亿,背靠华为的这家半导体公司这么香?
4月22日,苏州纳芯微电子股份有限公司(以下简称“纳芯微”,股票代码:688052)成功于上交所科创板上市,纳芯微本次发行价为230元/股,创造了2022年以来A股新股发行最高价格,也成为A股半导体行业新股发行价历史最高价,公司实际募得资金58.11亿元,超募6.75倍。
数据猿
2022/05/19
3880
最贵新股没破发,此前弃购7.8个亿,背靠华为的这家半导体公司这么香?
2021年券商行业发展研究报告
证券行业指专门从事有价证券买卖的法人企业。分为证券经营公司和证券登记公司。狭义的证券公司是指证券经营公司,是经主管机关批准并到有关工商行政管理局领取营业执照后专门经营证券业务的机构。它具有证券交易所的会员资格,可以承销发行、自营买卖或自营兼代理买卖证券。普通投资人的证券投资都要通过证券商来进行。
资产信息网
2022/04/15
5560
2021年券商行业发展研究报告
2022年财务顾问FA行业研究报告
财务顾问(Financial Advisor, FA)又称融资顾问,这里主要是指帮助创业公司提供投融资服务的机构。FA本质上其实是介于创业者与投资机构之间的第三方,面向双方提供投融资的撮合服务,当然不仅限于私募融资服务,包括合并收购、战略重组、IPO、定向增发等方面不同机构都各有涉猎。在早期项目中,FA机构的佣金通常是融资金额的3%-5%,后期的项目融资金额较大,佣金比例也会适当调低。
资产信息网
2022/03/25
8240
2022年财务顾问FA行业研究报告
2017机器人行业报告全解析(龙头上市公司)
随着中国人口红利消失,机器人不仅在制造业上正在替代工人,还将在军事、服务、娱乐等领域取代人类,“钢铁侠”已不仅仅存在于美国科幻电影中,而正走入我们的生活。 本篇报告对机器人行业及龙头上市公司进行分析,对比日本、美国、德国机器人行业技术路线、发展路径、下游市场分布,对国内机器人行业发展方向和空间进行预测,挖掘中国股市的tenbager。 (一)服务机器人是机器人家族中的一个年轻成员,其定位就是服务。当前世界服务机器人市场化程度仍处于起步阶段,但受简单劳动力不足及老龄化等刚性驱动和科技发展促进的影响增长很快,根
机器人网
2018/04/24
1.6K0
2017机器人行业报告全解析(龙头上市公司)
原始数据哪里找?这些网站要用好!|200个国内外经济/金融/行研/咨询数据网站大全
资料搜集是个相当繁琐与累的工作,也是投资入门的基本,良好的信息资料搜集能力有利于我们快速了解投资主体的基本情况,为后续的调研及一手资料的获得打下较好的基础。
IT阅读排行榜
2018/08/15
7.4K0
万字总结,行业分析到底应该怎么做!
今天给大家分享一篇关于行业研究的干货,从行研基本内容、数据来源、分析框架到常见误区,总结的非常系统,值得一看~ 一、行业研究的基本内容 1、行业研究的目的 咨询、研究机构、券商/投行以及企业都会做行业研究。 很多新手分析师在拿到一个新的行业后,往往第一反应都是一脸懵逼。面对陌生的行业,不知道如何切入。 其实,切入的关键并不在于了解行业,而是要了解行业研究的目的。 咨询公司的行业研究报告一般都目的很明确,无非是向潜在客户宣传:“我很懂XX行业,你们赶紧来找我买数据/做项目吧!” 所以,咨询公司的研究报告大多是
张俊红
2022/09/06
7520
万字总结,行业分析到底应该怎么做!
2022年不良资产和资产管理公司行业研究报告
不良资产(Non-performing Assets)是一个比较宽泛的概念,它是针对会计科目里的坏账科目而言,包括但不限于银行的不良资产、政府的不良资产,以及证券、保险、基金、信托等的不良资产,企业的不良资产等等。金融企业尤其是银行作为风险行业,是不良资产的主要源头之一。
资产信息网
2022/03/23
2.2K0
2022年不良资产和资产管理公司行业研究报告
推荐阅读
相关推荐
Stata | 自动生成中南财大2019拟录取硕士研究生分析报告
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验