首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

【R语言】因子在临床分组中的应用

前面给大家简单介绍了 ☞【R语言】R中的因子(factor) 今天我们来结合具体的例子给大家讲解一下因子在临床分组中的应用。 我们还是以TCGA数据中的CHOL(胆管癌)这套数据为例。...*","stage I/II",stage) #转换成因子 stage=factor(stage) stage 可以得到下面这个两分组的因子 方法二、直接使用factor函数 #删除组织病理学分期末尾的...接下来我们试着把组织病理分期从四个组合并成三个组,并转换成因子 方法一、使用gsub函数 #删除组织病理学分期末尾的A,B或者C等字母,例如Stage IIIA,Stage IIIB stage=...*","stage III/IV",stage) #转换成因子 stage=factor(stage) stage 可以得到如下因子 方法二、直接使用factor函数 #删除组织病理学分期末尾的A,...参考资料: ☞【R语言】R中的因子(factor) ☞如何从TCGA数据库下载RNAseq数据以及临床信息(一) ☞【R语言】卡方检验和Fisher精确检验,复现临床paper ☞R生成临床信息统计表

3.3K21

基于情绪因子的CTA截面策略

从2010年到2020年,一个基于高与低情绪变化的加权和月度再平衡的多空投资组合每年产生7.2%且统计显著的平均回报。...计算每条推文的情绪时基于词性的统计,s(w)表示词语w的情绪值: 某日d,商品i的情绪值使用以下公式计算: 即先统计每条推文所有词语的情绪和,再计算当天所有与该商品相关的推文的情绪之和,最后除以相关推文的数量...我们对情绪因子与商品超额收益率做面板回归: 表2所示的结果表明,情绪因子的回归系数都显著,说明使用Twitter的商品情绪包含了商品基本面因子之外的额外信息。...此外,情绪是基于高关注还是低关注的推文来衡量,在统计上并没有差异。总的来说,这些发现表明情绪的预测能力取决于群体的集体智慧,而不是特定的用户群体。...下面给出了结果,与其他替代方法相比,金融特定词典在股票定价方面表现良好,词典的选择在捕获大宗商品期货中情绪诱发的错误定价方面至关重要。 总结 总之,基于Twitter的情绪因子的计算是很容易实现的。

1.4K20
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    基于Python的多因子分析

    --MORE--> 因子分析 作为多元统计分析里的降维方法之一,因子分析可以应用于多个场景,如调研、数据建模等场景之中。...基于这个想法,发现很多相关性很高的因素背后有共同的因子驱动,从而定义了**因子分析,这便是因子分析的由来。...在这个因子的作用下,偏理科的成绩才会那么高。 到底什么是因子分析?就是假设现有全部自变量x的出现是因为某个潜在变量的作用,这个潜在的变量就是我们说的因子。在这个因子的作用下,x能够被观察到。...因子分析就是将存在某些相关性的变量提炼为较少的几个因子,用这几个因子去表示原本的变量,也可以根据因子对变量进行分类。 因子分子本质上也是降维的过程,和主成分分析(PCA)算法比较类似。...(新特征) [008i3skNgy1gw5g2salwvj30pm0oe41a.jpg] 至此,我们完成了如下的工作: 原数据的相关性检测 因子个数的探索 因子分析的建模过程 隐藏变量的可视化 转成基于

    2.3K00

    基于遗传规划的行业因子挖掘

    03 遗传规划下的行业量价因子挖掘 本文使用中信一级行业指数进行行业因子挖掘,基于gplearn,需要完成的内容包括: 运算符(function set)定义 主要参考下表 自定义运算符部分代码如下...按照第一个因子的定义计算因子后,算因子的累计IC曲线如下: 可以看出,样本内(2014年4月以前),因子IC比较稳定,2016年之前也比较稳定,但是2016年以后,IC非常不稳定,说明过拟合了或者后来因子失效了...尝试了多个种子后发现这个现象是普遍存在的,但也会有少数因子在样本外仍然有一定作用,所以需要大量的实验来寻找好的因子,或者想别的办法避免过拟合。...06 参考文献 [1]20190610-华泰证券-华泰证券华泰人工智能系列之二十一:基于遗传规划的选股因子挖掘 [2]20190807-华泰证券-华泰证券人工智能系列之二十三:再探基于遗传规划的选股因子挖掘...[3]20200220-天风证券-天风证券金工专题报告:基于基因表达式规划的价量因子挖掘 [4]A_Field_Guide_to_Genetic_Programming

    2.3K10

    基于Django的双因子认证实现

    双因子简介 对于网络信息系统来说,能否识别使用者的身份,是能否确保安全的基础和关键。在实际应用中,许多网络信息系统都会要求使用者在使用系统之前,提供一些相关信息用以实现对使用者的身份认证。...双因子身份认证技术弥补了传统密码认证方法的很多弊端。 可用于认证的因子可有三种:第一种因子最常见的就是口令等知识,第二种因子比如说是IC卡、令牌,USB Key等实物,第三种因子是指人的生物特征。...所谓双因子认证就是必须使用上述三种认证因子的任意两者的组合才能通过认证的认证方法。 双因子认证(2FA)是指结合密码以及实物(信用卡、SMS手机、令牌或指纹等生物标志)两种条件对用户进行认证的方法。...这里使用OTP作为django的双因子认证。 双因子的django实现 ① 引入django的双因子模块。...此处的逻辑(这里使用了django的登陆模块)是在用户登录时,需要将用户名和otp的口令连接在一起使用。

    2.1K100

    Invesco:基于宏观周期的因子轮动策略

    核心观点 1、基于价值、动量、质量、规模及低波动等量化因子的组合在历史上,相对于基准,长期来看取得了较好的表现。但也周期性的受到市场环境变化的影响,导致在一定的时期内表现不佳。...3、基于因子对宏观因子的敏感性,根据市场的宏观环境变动,构建动态因子策略。该策略相对静态的因子策略带来更好的风险调整收益,无论是发达市场还是新兴市场。...正文 基于价值、动量、质量、规模及低波动等量化因子的组合在历史上,在很长一段时间内带来了优异的表现,但它们也经历了长期表现不佳的阶段,其表现受到宏观环境、估值和市场周期的影响。...我们认为,这些差异提供了一个强有力的经济原理,可以通过基于规则的投资过程加以利用,以制定因子轮换策略,旨在使投资组合倾向于在每个宏观环境中配置预期表现优于市场的因子,同时减少对预计落后于市场的因子的敞口...值得注意的是,动量因子与其他因子截然不同,其基本特征不那么持久,与其基于价格的定义的暂时性相一致。

    58131

    基于 RNN、LSTM 的股票多因子预测模型

    比如 f=0 时,表示 的所有信息都会被遗 忘,f=1 时表示 的信息都会被保存。 让我们回头看看语义预测的例子中来基于已经看到的词去预测下一个词。...这些作为整体保存在新的 cell 中。 再接着,就是输出信息。这个输出将会基于我们的细胞状态,但是也是一个过滤后的版本。...训练结果 数据预处理:仿照多因子的流程,对截面因子进行去极值、标准化的处理,同时, 为了剔除行业的效果, 截面单因子对行业矩阵回归,取残差作为最终输入的因子 数据。...样本内训练 经过100次迭代,已经能够观察到训练收敛的结果。 ? ? 基于上图的基本的两层 RNN 网络结构,得到的损失率如下图: ?...因此,激活值实际上 反映了模型对个股未来收益的预测概率。 基于此,我们重新构建三类股票组合,每一期,选择激活值最大的 30%的股票最 为对应组合: ?

    8.5K83

    【Python量化投资】基于单因子的Alpha预测

    AlphaHorizon介绍 - 以非流动性因子ILLIQ为例 名称解释:AlphaHorizon是优矿团队实现的基于单因子的Alpha研究和实现一种过程和方法。...AlphaHorizon可以对研究得到的alpha因子做一个比较完整的分析报告,包括alpha因子的回测、IC和换手率等等。...;计算方式为当期因子值与下期股票收益率之间的秩相关系数;信息系数越接近于1,说明因子的预测效果越好。...,2014年11月和12月IC出现显著为绿色的情况,是因为这一段时间小盘股表现明显弱于大盘股,而ILLIQ有小盘股暴露 4)换手率分析计算因子换手率可以展示出因子的时间序列稳定性,侧面反映出使用该因子做策略时候的调仓成本等...;直方图中不同的颜色代表不同的调仓周期 总结性表格对不同调仓周期,以因子值为权重构建多空组合,得到的策略回测结果的统计 本次因子的分析借助优矿量化平台实现。

    2.8K60

    基于基因集的样品队列分组之PCA

    那么,对于大样品队列的转录组,很多时候是没有已知的合理的分组, 这个时候会人为的去分组后看队列异质性,比如根据免疫高低进行分组。...那么这个根据免疫高低进行分组就有多种实现方式,我们这里简单的演示一下PCA和热图的层次聚类以及gsea或者gsva这样的打分的分组,看看是否有区别。...首先看看目标基因集的PCA分组 需要载入 step1-output.Rdata 这个文件里面的表达量矩阵哦,如果你不知道 step1-output.Rdata 如果得到,看文末的代码。...) pca_gl = group_list # 其中 hclust_gl 来自于前面的教程哦 table(pca_gl,hclust_gl) 可以看到前面的层次聚类的样品分组跟现在的PCA的PC1的分组...: 两个分组的差异 肉眼基本上看不出来差异,区别应该是横坐标为0附近的那些样品吧!

    1.2K40

    alphalens教程2--基于return的因子分析

    今天我们主要基于return来分析,也就是说,是因子收益率分析。...当然,我们也可以不分组。...,可以是分组后的,也可以没有分组的,一般建议不分组或者按照行业分组     by_group : bool         如果mean_ ret的数据是安按照group分组的,那么这里也需要设置为...4.各层因子累计收益率图 对于一个因子,我们希望好的分层和差的分层的收益率有很大的差别,也就是说,因子的区分度越好,我们越觉得因子有效。下面这个函数能够计算出不同分层下的投资累计收益回报。...5.cash-netural 方法 还有一种因子测试方法,就是以因子值为权重,做多高收益率的因子层股票,最空低收益率的因子层股票,获得相对收益。

    4.4K31

    另类Alpha:基于供应链数据的量化因子挖掘

    随着技术的发展,获取大数据的成本不断降低,但历史价格等传统数据已完全无法满足投资者需求,可挖掘Alpha已基本消失。...随着中国金融市场的进一步开放及交易规则的逐步成熟,越来越多的海外量化投资机构已开始着手将海外市场中的另类数据策略复制到中国市场,而A股不断增量纳入MSCI及FTSE指数的趋势也加速了这一进程。...同时本土头部金融机构对于使用另类数据形成有效交易因子并整合入现有量化策略这一趋势也已形成高度共识,另类数据的应用增长趋势正在形成。...作为一家专注于数据智能领域超过十年的公司,数库在另类数据领域拥有深厚的积累。...由于数库对外提供的数据流服务均由自研DAS数据自动化生产平台产生,该平台拥有非常严格的质检体系及数据标准化能力,进而保障了数据流的稳定性及连贯性,确保了数据流在量化领域中的可应用性。

    1.8K10

    公式化价值投资:要想当股神,还得擦亮眼!

    传统价值投资的市场表现和收益来源 作者首先使用Fama-French的HML因子分析价值因子的表现。这一因子基于账面市值比和市值构建的多空组合。...通过HML因子分析价值因子 作者在每个市值分组内,构建高价值的多头和低价值的空头组合后,分别给予50%权重,如该表达式所示:HML =1/2 (H / BIG - L / BIG) - 1/2 (H /...可以看到,除了低E/P的分组外,对于各个指标,随着时间的推移不同分组指标都向着一个方向靠拢。这一现象说明,价值指标的偏离会逐渐被“纠正”。...对于B/M构建的价值分组,高/中分组差异尤为明显。这些高B/M组的公司账面价值被高估,其后的资产减值使其B/M指标发生均值回归。 收益变动指标反映,高价值组合的收益在接下来的一年通常会下降。...最终反映在策略上的表现就是投资组合的风险大幅度下降,并转亏为盈。 神奇公式在A股 除了动量外,质量也是价值因子很好的搭档,大名鼎鼎的“神奇公式”策略正是基于这一逻辑。

    56910

    Lerna+webpack+juction来拆分组件库为多个单独的npm包

    , 就是Lerna登场的时候了, 用来方便开发和管理多个package~ 但是自己实践的过程当中遇到一些问题和还有踩过一些坑, 所以在这里记录, 不过在开始之前, 先提一下vc-popup的更新 12-...lerna 初始化一个demo 在日常使用输入命令的时候常用&&加快效率, 自己输入的次数多了, 才发现命令行相比于界面的优点在于可以串联多个简单的任务, 这个学期开始学习操作系统, 发现有个类似的名词单道批处理系统和...CMD批处理脚本, 所以不言而喻咯~ 摁{enter}键的时候想想还有什么命令可以提前敲进去的 还有一个优点是, 命令是基于字符组合的确定, 而非界面位置, 所以界面需要层叠, 命名不需要, 字符组合容量大...通过某种手段让这个更新同步自动化了 那么基于猜测可以进行验证咯~ 先看手册, 查查这个类似的操作是什么~ ?...之前重装系统多了, 会通过mklink把C盘的Users Juction 到D盘去, 之后每次恢复系统的时候一些程序的配置也就不用重新设置的了, 具体可以参考网上的教程, 需要装系统的时候操作的(文件解压出来

    1.1K30

    【原创精品】随机森林在因子选择上的应用基于Matlab

    600篇)- 第2、3、4部分 2016年全年所有券商金融工程研究报告(共600篇)- 第5、6、7、8、9部分 基于随机森林算法的位点检测模型 随机森林算法模型 (1)随机森林算法定义 随机森林在运算量没有显著提高的前提下提高了预测精度...(2)随机森林算法优点 随机森林算法被大量使用,基于它有很多的优点: (a)在数据集上表现良好,两个随机性的引入,使得随机森林不容易陷入过拟合; (b)两个随机性的引入,使得随机森林具有很好的抗噪声能力...随机森林(randomforest)是一种利用多个分类树对数据进行判别与分类的方法,它在对数据进行分类的同时,还可以给出各个变量(因子)的重要性评分,评估各个变量在分类中所起的作用。...其实质是对决策树算法的一种改进,将多个决策树合并在一起,每棵树的建立依赖于一个独立抽取的样本,森林中的每棵树具有相同的分布,分类误差取决于每一棵树的分类能力和它们之间的相关性。...基于随机森林的因子选择方法 基于随机森林的因子筛选求解流程图 随机森林算法因子重要性检测结果 本题提供了2014年和2015年两年的数据,由于上市公司年报数据在第二年4月30号之前出来,所以2014年的数据选择区间为

    3.2K70

    基于基因集的样品队列分组之层次聚类

    那么,对于大样品队列的转录组,很多时候是没有已知的合理的分组, 这个时候会人为的去分组后看队列异质性,比如根据免疫高低进行分组。...那么这个根据免疫高低进行分组就有多种实现方式,我们这里简单的演示一下PCA和热图的层次聚类以及gsea或者gsva这样的打分的分组,看看是否有区别。...可以看到, 1和2在热图的左右两边,而3,4,5在中间,其中5个分组里面居然就一个样品。...所以我们需要把暴力分组调整为合理的免疫基因高低分组,代码如下所示: group_list=ifelse(hc <3 ,'low','high') table(group_list) ac=data.frame...: 层次聚类合理分组 不过,这样的分组,数量并不是均等的哦!

    1.1K20

    基于基因集的样品队列分组之gsea等打分

    那么,对于大样品队列的转录组,很多时候是没有已知的合理的分组, 这个时候会人为的去分组后看队列异质性,比如根据免疫高低进行分组。...那么这个根据免疫高低进行分组就有多种实现方式,我们这里简单的演示一下PCA和热图的层次聚类以及gsea或者gsva这样的打分的分组,看看是否有区别。...gsea等打分后对样品队列的高低分组 前面我们已经分享了:基于基因集的样品队列分组之层次聚类,以及 基于基因集的样品队列分组之PCA,还剩下看gsea等打分后对样品队列的高低分组。...addEllipses = T, legend.title = "Groups" ) 基本上也是类似的: 主成分 也可以自行去和已经分享了:基于基因集的样品队列分组之层次聚类...,以及 基于基因集的样品队列分组之PCA,对比看看,加深你的理解哦。

    2.1K20

    量价特征因子:基于HMM的多空策略(附代码)

    我们的观测数据就是的市场特征,隐藏状态是市场的行为。 我们的目标是解释建模后的隐藏状态,并基于此建立交易策略。 特征工程与模型构建 先导入有关的包: ? 数据来自quandl: ?...这是理解隐藏状态的第一个关键。我们把这个值画成每个状态的累加和。 ? ? 正如我们看到的,状态#0有下降的趋势。状态#1没有一个明确的趋势。最后一个状态#2有强烈的上行趋势。...有趣的是,状态#0的last_return和ma_ratio的值都很低。也许,状态#0对应的是当前的条件(目前)。状态#2的情况是滞后的。...如果市场目前的状态是#2,那么在当前的情况下,我们主要处于上升的市场状态,而这种趋势将会继续。...3、建立具有不同隐藏状态数的模型。 4、对策略中的隐藏状态和使用规则做出新的解释。 5、添加简单的交易规则,如止损等。

    2.3K42

    Lerna+webpack+juction来拆分组件库为多个单独的npm包

    , 比如一个包更新了, 需要在另一个手动更新, 为了解决这个不便, 就是Lerna登场的时候了, 用来方便开发和管理多个package~ 但是自己实践的过程当中遇到一些问题和还有踩过一些坑, 所以在这里记录...&&加快效率, 自己输入的次数多了, 才发现命令行相比于界面的优点在于可以串联多个简单的任务, 这个学期开始学习操作系统, 发现有个类似的名词单道批处理系统和CMD批处理脚本, 所以不言而喻咯~ 摁{enter...}键的时候想想还有什么命令可以提前敲进去的 还有一个优点是, 命令是基于字符组合的确定, 而非界面位置, 所以界面需要层叠, 命名不需要, 字符组合容量大 > mkdir lerna-demo && cd...通过某种手段让这个更新同步自动化了 那么基于猜测可以进行验证咯~ 先看手册, 查查这个类似的操作是什么~ ?...之前重装系统多了, 会通过mklink把C盘的Users Juction 到D盘去, 之后每次恢复系统的时候一些程序的配置也就不用重新设置的了, 具体可以参考网上的教程, 需要装系统的时候操作的(文件解压出来

    3.6K101

    【独家推送】GoogLeNet构建技术分析因子的模式识别基于TensorFlow

    本帖使用这个NiN结构的复合滤波器对 HS300ETF 进行技术分析因子预测。并通过叠加不同指数,尝试寻找‘指数轮动’可能存在的相关关系。 1.1 LeNet-5 一种典型的卷积网络是。...第三部分 HS300技术分析指标数据图像表示 处理技术分析指标,生成时间序列的多因子数据,使用前56天数据预测后14天涨跌。...CNN一般用来设计机器视觉,简单说就是专门处理图像和视频的,下图为按照CV观点来看输入的多因子数据。 因为前面技术分析因子进行标准化(归一化处理),这里对因子数据进行缩放和偏置。...技术分析因子数值波动 多种技术分析因子数值在Y轴并列之后使用颜色表示因子数值大小 使用上证指数、中证500、创业板指 叠加 HS300 在做技术分析的时候,通常行情和单只股票走势,采用叠加噪音的方式探索是否几个指数存在可量化的关系...天技术分析因子作为训练数据,使用CNN网络卷积进行提取特征,下面两幅图片就是从CV角度看到的我们输入的多因子数据。

    86250

    基于单细胞测序的转录因子调控网络预测数据库

    由于每个转录因子都有自己的固定的识别序列,所以基于特定的识别序列,我们就可以了解每个转录因子都可能调控哪些基因。随着测序数据的发展,我们也可以通过cihp-seq来准确的了解转录因子的结合区域。...同时可以通过RNA-seq来分析转录因子和结合基因之间是否存在共表达关系。之前的转录因子预测的数据库其实都是基于上面的原理来进行构建的。...同时基于普通的RNA-seq。作者也把经典的TCGA以及GTE这两个数据库纳入了进来。...数据库使用场景 之前我们用到的很多数据库都是基于基本的测序数据而言的,这个和之前不一样的地方还是在于使用了scRNA-seq的数据来进行分析。...对于SCENIC算法而言,计算量比较大,不是一般的电脑能运行下来的,所以如果想要现成的基于SCENIC算法的结果,倒是也可以使用一下这个数据库。

    88210
    领券