首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

确率高达60%?模型与财务报表的双向奔赴

量化投资与机器学习微信公众号,是业内垂直于量化投资、对冲基金、Fintech、人工智能、大数据等领域的主流自媒体。...LLM在分析数字数据时表现出色,而人类分析师在需要更广泛背景信息的情况下更有价值。...方法论和数据 1、数据收集:研究者从Compustat数据库收集了1968年至2021年的年度财务数据。 2、数据标准化:为了确保模型能够一致地处理数据,研究者将收集到的财务数据标准化。...3、数据匿名化:为了防止模型通过识别特定公司或年份来产生预测偏差,研究者从财务报表中去除了所有可能识别公司身份的信息,包括公司名称和具体的年份。...LLM的预测能力来源 作者想论证,LLM的预测能力是否来自其记忆(例如,通过识别公司基于数据)或其生成有关公司财务状况和未来表现的叙述洞察的能力。

24210
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    AKShare-股票数据-技术-险资举牌

    -技术-险资举牌 限量: 单次返回所有数据 输入参数 名称 类型 描述 - - - 输出参数 名称 类型 描述 序号 int64 - 举牌公告日 object - 股票代码 object - 股票简称...object - 现价 float64 注意单位: 元 涨跌幅 float64 注意单位: % 举牌方 object - 增持数量 object 注意单位: 交易均价 float64 注意单位:...元 增持数量占总股本比例 float64 注意单位: % 变动后持股总数 object 注意单位: 变动后持股比例 float64 注意单位: % 接口示例 import akshare as ak...stock_rank_xzjp_ths_df = ak.stock_rank_xzjp_ths() print(stock_rank_xzjp_ths_df) 数据示例 序号 举牌公告日...2021-07-20 600173 卧龙地产 ... 4.58 0.92 9759.53万 13.92 28 29 2021-07-14 600288 恒科技

    57230

    数据教你如何用小区生态指数到心仪的住宅

    除一些投机性行为催升房价外,房价背后的因素房子的区域位置、房子所在小区内部环境、房子的紧俏程度等都会成为影响房价高低的因素。...为了从数据层面去佐证小区的差异性及其特色,中国电信灯塔大数据和云房数据结合各自的技术优势,提出了小区生态概念。...由于每个小区差异性非常,并且存在理解层面的偏差,我们通过多个维度去刻画小区生态,并尝试进行综合评价,得出的综合评价结果仅供参考,不做过多解读,更多的是通过数据本身描述每个小区的特色。...来源:中国电信灯塔大数据、云房数据 备注:上述指标是在小区总户数基础上,进行相应计算,存在一定的数据偏差。...需要说明的是,本次发布的指数,样本数量有限,更多的是一种指数方法论探讨或研究;另外数据主要是来源于网络途径,经过数据清洗和数据质量的审核后,可能仍存在数据层面的误差,因此得出的数据分析结果仅供参考。

    56110

    数据教你如何用小区生态指数到心仪的住宅

    除一些投机性行为催升房价外,房价背后的因素房子的区域位置、房子所在小区内部环境、房子的紧俏程度等都会成为影响房价高低的因素。...为了从数据层面去佐证小区的差异性及其特色,中国电信灯塔大数据和云房数据结合各自的技术优势,提出了小区生态概念。...由于每个小区差异性非常,并且存在理解层面的偏差,我们通过多个维度去刻画小区生态,并尝试进行综合评价,得出的综合评价结果仅供参考,不做过多解读,更多的是通过数据本身描述每个小区的特色。...来源:中国电信灯塔大数据、云房数据 备注:上述指标是在小区总户数基础上,进行相应计算,存在一定的数据偏差。...需要说明的是,本次发布的指数,样本数量有限,更多的是一种指数方法论探讨或研究;另外数据主要是来源于网络途径,经过数据清洗和数据质量的审核后,可能仍存在数据层面的误差,因此得出的数据分析结果仅供参考。

    1.1K60

    论文证明GPT-4准确率高达60%,人类股票分析师要下岗?AI大牛质疑数据污染

    新智元报道 编辑:编辑部 【新智元导读】GPT-4在为人类时,表现竟然超越了大部分人类分析师,和针对金融训练的专业模型?...在没有任何上下文的情况下,它们直接就成功分析了财务报表,这一发现让许多业内咖震惊了。然而好景不长,有AI大牛指出研究中的bug:之所以会这样,很可能是训练数据被污染了。...最近,各位业内咖都被芝的一篇论文震惊了。 研究者发现,由GPT-4帮忙选择的股票,直接击败了人类!同时也pk掉了许多其他针对金融训练的机器学习模型。...尤其是在时,人类分析师会面临一些难以应对的场景,导致预测结果存在偏见、效率低下,这时LLM就表现出了巨大的优势。...具体来说,金融分析师在分析中会识别财务报表中显著的趋势,计算关键财务比率(经营效率、流动性和杠杆比率),综合这些信息,并形成对未来收益的预期。

    10410

    数据防泄密产品如何?看看企业是怎么做的

    现如今,数据泄密已经到了人人可畏的地步,数据安全防护工作成为不容忽视的存在。 如何防止敏感数据的泄密?如何建立健全数据安全保障体系,并使之面对日新月异的威胁,能长久的保持有效性?...要实现这些,企业就需要选择专业的数据防泄密产品来保护数据,今天我们讲一下大型企业如何选择数据防泄密产品。...企业在购买数据防泄漏产品前可先向供应商提交一段时间的试用申请,一般而言供应商会提供几周到几个月不等的产品试用。 4、成本评估。...2、兼容性 兼容性也是企业选择数据防泄漏产品的重要标准,因为企业员工计算机软硬件环境复杂,而且会连接各种外接设备,因此防泄密产品要做到优秀的兼容性,确保在复杂的环境中也会对企业数据进行安全保护。...所以开头提到的,一定要全局规划。 还是那句话,想进一步了解防泄密产品选型的话,可以下载《企业数据防泄密产品选型指南》,满满干货,一定会给你带来不一样的思路!

    1.5K10

    这10行业的痛点,如何用数据解决

    近来,数据泄露也使安全性成为大数据项目需要解决的重要问题。...4、已经使用大数据解决方案重新定位现有的服务和产品以利用大数据; 5、已经使用大数据解决方案; 考虑到这一点,了解大数据的全景及其在不同行业的应用,将有助于更好地了解你的角色和未来不同行业的发展。...金融市场的零售商,银行,对冲基金和其他所谓的“男孩”使用大数据进行高频交易,交易前决策支持分析,情绪测量,预测分析等方面的交易分析。...在自然资源行业,通过大数据可以利用地理空间数据,图形数据,文本和时间数据中摄取和整合大量数据建立预测模型,帮助做出决策,应用的领域包括: 地震解释和油藏表征。...来自客户忠诚度数据,POS,商店库存,本地人口统计数据的大数据将继续由零售和批发商店收集。

    2.1K90

    R语言逻辑回归Logistic因素模型交易策略及沪深300指数实证|附代码数据

    研究思路 本文以多因素模型在股票交易中的应用为背景,帮助客户针对Logistic模型的理论基础以及模型原理方面分析Logistic模型的可行性与稳定性。...为保证模型的可靠和稳定,使用过去五年的历史数据来检测模型。 Logistic模型在股票交易中的策略 结合以上多因素模型与Logistic回归分析的知识可以得到基于Logistic模型。...如此即为Logistic模型的交易策略。 实证结果分析 #读取数据 file=list.files("."...,并利用历史数据经行回测,验证模型的有效性,并根据实验数据得到结果证明Logistic模型可以在大部分情况下为投资者选出一个收益率能够超过基准收益的投资组合。...在实验中所用到的数据可能由于现实中信息披露的可靠性、稳定性、时效性等问题导致实验结果不是完全的可靠。 本文中忽略了如果使用Logistic模型经行交易对市场的影响。

    15420

    【涨姿势】如何用数据思维勾搭到胸萌妹纸

    好吧,废话说了这么多,你要问了:说好的大数据呢?说好的勾搭萌妹子呢?其实你要去百度一下大数据的真正含义,大数据其实是种思维,就是对全部的数据进行有甄别处理。...万事开头难,又要胸又要萌妹,还必须有联系方式,不能简单去看内衣店的数据,着手点很重要。   戴神问我:“二次元胸萌妹,这要怎么找啊?”   我说:“容易,最近二次元什么最火?”   ...于是在首页我和戴神看到了很多家店子,那么问题又来了:学挖掘机到底……额,不对,是大数据到底哪家强呢?   戴神说:“这家,这家,这家最贵,买的肯定都是白富美。”   ...我白了戴神一眼:“我问你,大数据最关键的是什么?是!”   ...于是我们点开评论,勾有图的,大概只剩下几百个有图的评论了。戴神开始根据他的身高体重要求从淘宝选人,大概就是筛选掉那些不符合数据要求,再去掉评论里说了什么男友很满意之类的已经有主的。

    1.7K60

    何用代码控制浏览器下载知乎v的粉丝数据

    回到本文,群友问:如何在浏览器简便地爬取数据,并下载成 json 格式的文件到本地电脑。...本文以下载知乎v的粉丝数据为例,介绍4个知识点,爬虫相关的 html 获取与解析,模拟鼠标点击,缓存数据至本地,自动下载文件至本地。...接下来我们一步步来: 1 选定目标页面 爬取知乎 v 的粉丝数据,比如拿李开复老师的知乎开刀: https://www.zhihu.com/people/kaifulee/followers 2 编写爬取函数...JSON.stringify(res)); document.querySelector(‘.PaginationButton-next’).click(); }; 3 开始自动获取数据..._t=setInterval(getFollows,1600); 4 保存数据至本地文件 等待爬取完成后,再输入: window.clearInterval(window.

    57630

    Python量化 | 10年翻400倍的炒股策略(视频讲解)

    今天,邢老师给大家分享一个策略,一个在过去10年可以让你的本金翻400倍的策略。 条件 这个策略非常简单,简单到只用了一个条件。但是这个条件在众多其他条件中,却是最强的一个。...至少我个人寻寻觅觅这么多年,回过头来发现,还是没有一个单独的条件比它更强。 这个条件就是:市值。 市值的意思就是,在市场上买下这个股票所有的股份,总共需要花多少钱。...不说这个策略2009年到现在收益惊人,仅仅看去年2016年,通过这个条件选出来的股票就涨了90%左右。试问有多少人可以跑赢呢?...当然,现在小市值已经越来越成为行业公开的“秘密”,很多看上去高大上实际上呵呵哒的量化基金,它们背后的逻辑本质上就是小市值,可能就和我们刚刚分享的策略一样简单。...python代码 让我们用数据说话,看看如何用python和历史数据去验证这个策略。 下图是用到的数据

    6.1K92

    可视化工具不知道怎么?深度评测5Python数据可视化工具

    图表截屏 建议阅读 10分钟 相信很多读者学习Python就是希望作出各种酷炫的可视化图表,当然你一定会听说过Matplotlib、Pyecharts、Seaborn、Plotly、Bokeh这五工具...数据说明 本文使用的数据为Pyecharts中的faker数据 from pyecharts.faker import Faker x = Faker.choose() y1 = Faker.values...x为一列品牌名称,y1/y2为一列相同长度的无意义数据,接下来让我们使用不同的库对这组数据进行可视化!...01 Pyecharts Echarts是一个由百度开源的数据可视化,凭借着良好的交互性,精巧的图表设计,得到了众多开发者的认可。而Python是一门富有表达力的语言,很适合用于数据处理。...当数据分析遇上数据可视化时,pyecharts 诞生了,支持30+种图表。

    3.4K20

    从李彦宏去证监会演讲,看A和互联网的几个关系

    这是证监会邀请李彦宏讲课的背景。...李彦宏给证监会分享的主题主要有几点:1、百度在人工智能、大数据等前沿技术上所取得的进展,如何用这些技术去互联网+到不同行业的。...这并非个例,A许多“科技概念科大讯飞、乐视网都表现强劲。一些传统企业如果沾上了“互联网+”“大数据””电子商务““智能硬件”这些概念同样都会有卓越的表现,恒生电子、美的集团、宜通世纪等等。...这款工具还提供“智能”告诉投资者异常波动的个股、聚合所关注股票相关的公开消息。...本人目前参考雪球财经、百度股市通和朋友推荐。本文仅限于技术交流,不推荐股票不推荐投资产品不推荐炒股工具。投资有风险,入市需谨慎,切记切记。

    65270

    因子的有效性分析基于7种机器学习算法【系列54】

    Adaboost 最稳定,朴素贝叶斯收益最高 全市场,市值中性等权加权,行业中性等权加权五种情况下, AdaBoost 年化波动率基本在 5%左右,表现非常稳定。...如果假设的Nbayes条件相互独立性成立,那朴素贝叶斯比其他辨别模型逻辑回归要快,你只需要较少的训练数据即可。并且即使假设条件不成立,朴素贝叶斯分类器在实际使用中也通常有较好的效果。...在 20090105 到 20171231 期间,我们分别进行了全市场,市值中性,行业中性,五种情况表现如下: 相关说明: 1) 所用因子:全市场训练得到的个股未来相对强势值。...从以上结果可以看出, 在收益年化 10%以上的算法中, 在全市场,市值中性等权加权,行业中性等权加权五种情况下, AdaBoost 与 knn 算法年化波动率基本在 5%左右,表现非常稳定;...所以 Adaboost 与 knn 分类得到的结果比较稳定, 在收益年化 10%以上的算法中,在全市场,市值中性等权加权,行业中性等权加权五种情况下, AdaBoost 与 knn 算法年化波动率基本在

    1.9K80

    Backtrader 来了!

    如果你想在本地通过 Python 尽可能“随心所欲”的进行策略回测和交易,它!它!它!就它!...Backtrader 进行回测 。...本文省去了过程,直接提供最终的结果,然后对结果做回测,具体的回测条件如下: ? 数据说明 测试用到 2 个数据集,一个是日度历史行情数据,另一个是最终的结果数据集 。...测试用的数据集 trade_info.csv 就是最终的结果,共包含 3 个字段:trade_date 调仓期(每月最后一个交易日)、sec_code 持仓成分代码、weight 持仓权重...pass # 构建交易函数: 策略交易的主体部分 def next(self): '''必选,在这里根据交易信号进行买卖下单操作''' pass 具体到策略

    6.3K105

    量化投资:深入浅出量化对冲Alpha基金的操作

    第一步,量化——精选股票组合,获取超额收益。...9、量化对冲范围都是哪些?大概选择多少支股票呢?   目前国内的量化对冲产品范围主要在A内。...股票的数量取决于量化对冲基金中对的量化要求,达标即入池,但是大多数量化对冲基金都达上百只。 10、量化的具体方法是什么?如何判断量化模型选出来的股票就是能赚钱的股票?   ...16、量化的具体方法是什么?如何判断量化模型选出来的股票就是能赚钱的股票?   量化的具体方法:量化投资一般会选出几百支股票进行投资分析来分散风险,适合风险偏好低,追求稳定收入的投资者。...3、量化对冲是需要写程序的,我们怎么知道程序是否比较优质呢,并且能为客户赚到正收益呢?

    1.3K31

    GPTs数据泄露语言模型安全刻不容缓,如何用AI Agent提升LLM应用安全系数?

    语言模型数据泄露堪忧,超自动化Agent成解决之道数据泄露成LLM应用最大障碍,如何用RPA Agent智能体破解谜题?...从RPA Agent智能体安全机制,看AI Agent如何破解LLM应用安全谜题GPTs数据泄露语言模型安全刻不容缓,如何用AI Agent提升LLM应用安全系数?...这一漏洞的发现引发了一序列号狂潮,进一步影响与警示了广大组织对于数据安全的思考。...从已经发生的实践案例来看,造成ChatGPT等LLM数据泄露的主要原因,大概有以下几点:1、用户隐私泄露:在使用ChatGPT进行客户服务时,企业通常需要获取用户的个人信息,姓名、地址、电话等。...TARS大型语言模型上基于充分细致的语料收集和清洗、数据处理及标注,超千亿Tokens的预训练语料和超百万条指令微调数据,实在智能独立完整复现模型构建的预训练、指令微调和RLHF三阶段,使模型具备完整能力

    86730

    金融数据挖掘之朴素贝叶斯

    二、贝叶斯定理 如果想判断未知样本的类别,即,已知它的三个属性X1、X2、X3,判断它是属于第一类(C=1)还是第二类(C=2),前面有介绍过如何用Knn邻均值和决策树来判断分类,本文介绍用这种新的思路...它发源于贝叶斯定理,有着坚实的数学基础和稳定的分类效率,但受制于一些假定的不准确性(类条件独立),以及缺乏可用的概率数据,该算法的准确率可能没有理论表现的那么美好。... 复旦大学的钱颖能、胡运发用朴素贝叶斯分类法进行,在给定上海证券交易所中所有交易的股票的基本会计和价格信息的情况下,他们试图用朴素贝叶斯法来辨别那些超过市场指数而可望获得额外汇报的股票。...短期内发生资金收付行为,长期闲置的账户不明原因突然启用等。 (2) 交易流向、交易来源的异常。...PYTHON 如果现在有已知数据data: ?

    1.3K100

    基于三图谱网络和HIST模型的A策略研究

    图谱网络概述 早期系列文章中,我们利用ChinaScope的三另类数据(产业链数据、供应链数据、新闻舆情数据)分别构建了三图谱网络:产业链关系网络、供应链关系网络、新闻共现关系网络,三图谱网络刻画的关系分别对应公司经营业务...三图谱构建步骤和部分效果图如下所示: 产业链关系网络构建步骤: 1、对 A 上市公司,基于ChinaScope产业链数据中的原始分项表和产品字典表,将下属层级的产品收入统一映射到数库二级产品上,从而构建公司在数库二级产品收入上的分布向量...HIST 模型的一特色是从概念中提取共有信息时会考虑概念的不完备性和动态可变性,将预定义概念(行业,主营业务,业务范围和其他概念)输入到 HIST 模型中,模型还会进一步动态的学习预定义概念中未包含的隐含概念...图3:all_relation 预定义概念的部分数据结构 预测结果分析 可以将 HIST 输出的收益预测值 y 作为合成后的单因子,对其进行 IC 分析、分组收益分析、板块分析等一系列单因子测试,考察预测值的能力...从收益预测值和策略表现看,相比公司主营产品或行业分类等传统概念,从图谱网络中聚类得到的集群属性确实包含了有价值的增量信息。

    76150
    领券