Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >批量从pdf中提取基金年报观点

批量从pdf中提取基金年报观点

作者头像
量化小白
发布于 2023-04-03 12:32:11
发布于 2023-04-03 12:32:11
67400
代码可运行
举报
运行总次数:0
代码可运行

上篇,我们已经爬下来了所有的基金年报。这篇我们来说明怎么通过python批量获取全部基金经理的观点,用到的数据就是所有的基金年报,还没爬或者还不知道怎么爬的可以看看上一篇。

我这里只把所有的混合型和股票型基金的年报爬下来了,不嫌慢的话,也可以考虑把其他债券、货币、ETF等等类型的都搞下来。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# 保留股票型和混合型
allpdf['ifstock'] = allpdf.announcementTitle.map(lambda x:'股票型' in x or '混合型' in x)
allpdf1 = allpdf.loc[allpdf.ifstock].reset_index(drop = True)
getFundReportpdf(allpdf1,fpath)

爬下来大概需要一小时吧,1425份,还是挺快的。

先说下我们要干啥,免得有的童鞋云里雾里。

基金年报里有一大章是管理人报告,我们主要针对里面的两小节:管理人对报告期内基金的投资策略和业绩表现的说明、管理人对宏观经济、证券市场及走势的简要展望。

这两节里,前一节基金经理会对过去这一整年的投资逻辑和业绩情况给一个说明,分析赚钱或者赔钱的原因。后一节里投资者会对未来的市场做一个展望。有的基金经理很懒,每年都是复制粘贴上一年的话不变,有的很勤奋,洋洋洒洒写个一两页。总之关注这两节,有助于我们快速了解基金经理的投资逻辑,对基金风格有一个整体的了解。随便贴一个基金的样例。

这次我们做的事情就是把前面爬的1425份报告所有的这两小节都提出来到excel里,方便查看,毕竟只看一两份可能有偏,看得多了才能慢慢有一些自己的体会。

截止目前所有公募基金的年报都已经公布完了,感兴趣可以自己把全部的都爬下来,我这个是前两天爬的,肯定是不全的。最后整理出来到EXCEL里大概是下面这个样子,总共3列,第一列是基金名称,后面两列见下,需要EXCEL和python代码的可以在后台回复“年报观点”获取。1425份年报观点都已经整理到位。

下面来说怎么获取,简单来说,就是先读到python里,然后根据标题去切割,只保留对应部分的内容。基金年报最好的一点就是每一节标题都是一模一样一字不差的标准格式。也就不需要正则表达式之类的复杂操作。

我们需要的是4.4节管理人对报告期内基金的投资策略和业绩表现的说明下面的内容,以及4.6管理人内部有关本基金的监察稽核工作情况上面的内容。所以些代码的时候就直接判断获取到的文字里是不是包含这两部分就可以了,不包含的都踢掉。

唯一需要处理下的就是,目录里有这两段,后面正文里也有这两段,因此第一次出现的时候不要做任何处理,第二次出现的时候再操作。

用python读pdf,因为基金年报都是文本没有图片,直接用pdfplumber就可以了。这部分代码如下

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
res = []
for fname in tqdm(allf):

    with pdfplumber.open(fpath + fname) as pdf:
        page_count = len(pdf.pages)
        alltext = ''
        n = 0
        for page in pdf.pages:
            
            texts = page.extract_text()
            if '管理人对报告期内基金的投资策略和业绩表现的说明' in texts:
                n += 1
            if n==2:
                alltext += texts
                if '管理人内部有关本基金的监察稽核工作情况' in texts:
                    res.append([fname,alltext])
                    break
                
res = pd.DataFrame(res,columns =['fname','text'])

这部分因为要解析pdf,比较慢,用了两小时。

这部分搞完之后就已经是比较清晰的文本了。

text里是两部分文本合在一起,用函数分开就可以了。另外text里有一些特殊字符,空格之类的,一起删掉。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
def getstrategy(x):
    res = re.split('管理人对报告期内基金的投资策略和业绩表现的说明|管理人对宏观经济、证券市场及行业走势的简要展望|管理人内部有关本基金的监察稽核工作情况',x)
    return res[1]

def getmacrodes(x):
    res = re.split('管理人对报告期内基金的投资策略和业绩表现的说明|管理人对宏观经济、证券市场及行业走势的简要展望|管理人内部有关本基金的监察稽核工作情况',x)
    return res[-2]

res['text'] = res.text.map(lambda x:re.sub('[\n ]','',x))

res['管理人对报告期内基金的投资策略和业绩表现的说明'] = res.text.map(getstrategy)
res['管理人对宏观经济、证券市场及行业走势的简要展望'] = res.text.map(getmacrodes)
res = res.drop(['text'],axis = 1)

这部分处理完就是我们上面看到的样子了。

直接存excel就完事。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-04-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 量化小白躺平记 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
用python批量获取公募基金季报pdf
最近公募基金扎堆发四季度报告,截至今天,所有公募基金四季报已经全部公布完了。基金的季度报告里可以查看基金的各种信息,如果想购买一个基金,最好的办法可能是先看看他过去几年的报告,了解一下投资风格。
量化小白
2023/04/03
5831
用python批量获取公募基金季报pdf
如何用Python获取基金行情并分析年度表现优异基金,解锁赚钱秘密?
若需要本文所有源代码文件及数据可视化结果文件,请关注『数人之道』公众号,回复 2021基金 获取。
数人之道
2022/01/06
1.4K1
【重磅发布】2018中国量化投资年度盘点
公众号尽量从多个维度去进行编写,同时也参考了各大数据平台,确保数据的准确性。我们希望让国内量化爱好者尽可能多的去了解这个行业的发展现状。公众号创办3年来,也一直致力于为国内量化事业贡献一份自己的力量。
量化投资与机器学习微信公众号
2019/02/26
1.3K0
2022年公募基金研究报告
公募基金是指以公开方式向社会公众投资者募集资金并以证券为主要投资对象的证券投资基金。公募基金是以大众传播手段招募,发起人集合公众资金设立投资基金,进行证券投资。
资产信息网
2022/04/13
4670
2022年公募基金研究报告
2022年私募基金行业研究报告
私募投资基金(以下简称私募基金),是指在中华人民共和国境内,以非公开方式向投资者募集资金设立的投资基金。私募基金财产的投资包括买卖股票、股权、债券、期货、期权、基金份额及投资合同约定的其他投资标的。
资产信息网
2022/04/25
1.3K0
2022年私募基金行业研究报告
Python爬取全市场基金持仓,扒一扒基金经理们的调仓选股思路
虽然距离基金二季报公布的DDL已过去近1个月,但我们还是赶(bu)个(shi)晚(tuo)集(yan),分享一下基于python爬取天天基金网基金持仓数据的方法,最新及历史持仓数据均可爬。感兴趣的小伙伴可以拿去玩一下,等到10月份三季报披露节点,又会是及时抄作业的真香小工具啦。
量化小白
2023/04/03
1.7K1
Python爬取全市场基金持仓,扒一扒基金经理们的调仓选股思路
量化投资:深入浅出量化对冲Alpha基金的操作
1.量化 对于一般投资者,甚至是部分金融从业者来说,量化投资都是一门高大上的技术,充斥着模型代码和算法假设,门槛非常高。其实,生活中的量化思想无处不在。 例如,某魔都金融民工,每日上班路线是这样的:乘地铁或者公交至陆家嘴,随后步行或者乘华宝兴业免费接驳车至公司楼下。哪条路线最近呢? 此人先罗列了所有可行的路线,随后花了一个月时间,逐条路线进行多次试验,最终成功找出不出意外情况下最近的线路,完美!这就是最简单的量化思想,利用大量数据,找出大概率的最优策略,并照此执行。 海外的量化投资发展已经超过三十年
小莹莹
2018/04/20
1.4K0
量化投资:深入浅出量化对冲Alpha基金的操作
2022年指数与指数公司行业研究报告
指数是根据资产价格报告期和基期的比较值计算出来,用以反映资产价格变动方向和水平的统计指标。在金融投资市场,根据投资范围和资产类别的不同,指数的种类也十分繁多,包括股票类指数、固定收益类指数、基金类指数、商品类指数、定制类指数,海外指数等。其中,股票类指数是最常见的一类指数。
资产信息网
2022/03/25
3880
2022年指数与指数公司行业研究报告
「灾难级」年报后,英特尔降薪砍福利!CEO少领30万美元,员工奖金暂停
---- 新智元报道   编辑:David 【新智元导读】「史上最惨」财报发布后,英特尔宣布,将大幅削减员工福利和高管薪酬,CEO基本工资降低25%,约31.2万美元。员工季度奖金也将暂停。 在交出了一份堪称史上最惨淡的财报后,英特尔给出的应对与其他公司没什么区别。 降薪、裁员。 降薪,主要针对高管,裁员,主要针对基层员工。 英特尔周三表示,在糟糕的第四季度收益报告出炉后几天,将对公司从CEO Gelsinger以下,到中层管理人员的基本工资进行降薪,另外还将削减价值数千万美元的低层员工福利。 据悉,
新智元
2023/02/24
3980
「灾难级」年报后,英特尔降薪砍福利!CEO少领30万美元,员工奖金暂停
2022年财务顾问FA行业研究报告
财务顾问(Financial Advisor, FA)又称融资顾问,这里主要是指帮助创业公司提供投融资服务的机构。FA本质上其实是介于创业者与投资机构之间的第三方,面向双方提供投融资的撮合服务,当然不仅限于私募融资服务,包括合并收购、战略重组、IPO、定向增发等方面不同机构都各有涉猎。在早期项目中,FA机构的佣金通常是融资金额的3%-5%,后期的项目融资金额较大,佣金比例也会适当调低。
资产信息网
2022/03/25
8160
2022年财务顾问FA行业研究报告
2021年券商行业发展研究报告
证券行业指专门从事有价证券买卖的法人企业。分为证券经营公司和证券登记公司。狭义的证券公司是指证券经营公司,是经主管机关批准并到有关工商行政管理局领取营业执照后专门经营证券业务的机构。它具有证券交易所的会员资格,可以承销发行、自营买卖或自营兼代理买卖证券。普通投资人的证券投资都要通过证券商来进行。
资产信息网
2022/04/15
5520
2021年券商行业发展研究报告
【工具】社交数据与行为金融学如何实现超越大盘、绝对收益量
一、互联网让大数据就在身边   互联网作为改变人类历史的产物,近年来得到了飞速的发展,随着互联网的日益普及,其正在逐渐改变人们的生活习惯。商场的购物份额正在被足不出户的网络购物所侵蚀;新闻媒介受到铺天盖地的网络资讯冲击,纸媒生存空间日益狭隘;人与人之间的联系不再局限于写信、电话,微博、网络电话等互联网工具日新月异;旅行社的预定功能难以抗衡网络预定宾馆、机票的透明度;就医、就餐无需再早早敢去排队,网络预约极大的提高了便利性;更为典型的是,具备搜索功能的互联网,正在逐步替代字典、地图乃至百科全书等一系列具备查询
小莹莹
2018/04/19
1.3K0
【工具】社交数据与行为金融学如何实现超越大盘、绝对收益量
很可以!JPM因子投资特刊
量化投资与机器学习微信公众号,是业内垂直于量化投资、对冲基金、Fintech、人工智能、大数据等领域的主流自媒体。公众号拥有来自公募、私募、券商、期货、银行、保险、高校等行业30W+关注者,连续2年被腾讯云+社区评选为“年度最佳作者”。 Journal of Portfolio Management在2022年的开年给大家送出了因子投资特刊。本期特刊也是因子投资的第七本特刊,总共包括了14篇关于因子投资文章,其中有8篇来自业界,5篇由业界和学术界共著,还有1篇来自学术界。 The Future of Fac
量化投资与机器学习微信公众号
2022/03/03
8480
原始数据哪里找?这些网站要用好!|200个国内外经济/金融/行研/咨询数据网站大全
资料搜集是个相当繁琐与累的工作,也是投资入门的基本,良好的信息资料搜集能力有利于我们快速了解投资主体的基本情况,为后续的调研及一手资料的获得打下较好的基础。
IT阅读排行榜
2018/08/15
7.4K0
就问你怕不怕?世界头号私募桥水基金正式入华割韭菜(附投资策略详解)
根据基金业协会消息,世界头号对冲基金桥水已经完成备案登记,正式成为境内私募管理人。按照私募基金管理人登记备案的相关规定,最迟6个月后,桥水基金的境内私募产品将发行。桥水基金(Bridgewater)目前是iShares MSCI新兴市场ETF最大的机构投资者,桥水基金已成为超越索罗斯,绝对规模盈利最多的基金。
量化投资与机器学习微信公众号
2018/08/02
7840
就问你怕不怕?世界头号私募桥水基金正式入华割韭菜(附投资策略详解)
终极篇!因子投资的十个事实与误解
因子投资已经存在很长时间了,学术界和实践中都有大量的文献致力于研究它。然而,关于它的许多困惑仍然存在。我们已经讨论过价值、动量、低风险和规模等风格因子投资的事实和误解(Fact and Fiction),这篇文章将结束本系列文章,回顾关于一般因子和多因子投资方法的事实和误解。
量化投资与机器学习微信公众号
2023/01/03
9490
终极篇!因子投资的十个事实与误解
好书:相见恨晚的金融学或经济学书籍
编者按: 经济和金融是当今社会非常重要的学科,也是大部分人或多或少都了解一些的两门功课,但想要学好这两门学科,阅读优质的图书是必不可少的。因此小编在整理了知乎上大家关于优质书籍的推荐后,根据知乎上经管之家的推荐顺序,按照金融学入门及进阶图书、经济学入门及进阶图书以及其他的一些推荐书籍选取了一些图书来和大家分享。其中部分的书评整理自豆瓣。
连享会
2022/05/11
2.3K0
【正经说】尽职调查的2万字深度解析(含图文和模板)
尽职调查简称尽调,又称谨慎性调查(Due Diligence ResponsibleInvestigation),是指投资人在与目标企业达成初步合作意向后,经协商一致,投资人对目标企业的历史数据和文档、管理人员的背景、市场风险、管理风险、技术风险和资金风险做一个全面深入的审核,通常需要花费3-6个月时间。
辉哥
2018/08/10
17.4K1
【正经说】尽职调查的2万字深度解析(含图文和模板)
自然语言处理在金融实时事件监测和财务快讯中的应用
疫情之下,全球金融市场进入大波动时代,各国金融调控政策、突发事件层出不穷,例如美联储无限量QE、欧央行7500亿复苏基金、中美关闭使领馆、阿塞拜疆和亚美尼亚爆发空战...如何24*7小时全天候自动、智能监控全球新闻事件,从而最快速地做出反应、最大可能地规避风险?
zenRRan
2020/08/11
3.6K0
自然语言处理在金融实时事件监测和财务快讯中的应用
腾讯业绩会要点:最近游戏业务复兴、电视剧成功,都源于多年前的投资
腾讯科技讯 本周三(8月14日),腾讯控股有限公司公布了截至二零二四年六月三十日止第二季未经审核综合业绩。【业绩详情】
小腾资讯君
2024/08/15
1950
推荐阅读
相关推荐
用python批量获取公募基金季报pdf
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验