TCGA和GTEx的泛癌数据分析也是生信数据挖掘的必备技能,目前最好用的泛癌数据肯定是XENA网站上整理好的啦。我们直接下载用即可。而且XENA的数据估计短时间不会更新的,所以基本上是一次整理永久使用!
前段时间爆发的利用永恒之蓝进行勒索及xshell等事件,各大厂家都站在不同的角度分析了相应的事件及程序,对于对逆向不了解看着的确很吃力。上段时间看到宫总及袁哥都在讲DNS对于分析这种攻击的可行性。 永
本系列将带来FPGA的系统性学习,从最基本的数字电路基础开始,最详细操作步骤,最直白的言语描述,手把手的“傻瓜式”讲解,让电子、信息、通信类专业学生、初入职场小白及打算进阶提升的职业开发者都可以有系统性学习的机会。
最近在研究 yii2 如何搭建 restful api,将心得写下,欢迎一起讨论 使用yii2.0.13 advanced 版,将 frontend 整个作为 api 接口项目,除了接口的路由规则可以认证通过外,其他的路由规则都返回请求错误的格式
对于我这种记忆力不好的人来说, 是需要一个工具来记录 已完成 和 待完成 的事情的. 比如一个记事本就行, 但我没法一眼就能找到还有哪些事情未做(都一个色儿). 那么就需要一个工具来帮我了.
TCGAbiolinks不仅是数据下载,它能访问、下载全部的TCGA数据(除了受限制的),用它下载的数据是最新最全的!这和直接去GDC官网,使用网页下载的方式是一样的。
但是RNA-seq的分析肯定远不止那些啦,拿到基于基因的表达矩阵固然可以根据转录组经典表达量矩阵下游分析大全 里面的R包和代码进行统计可视化,但是表达矩阵并不是凭空产生,上游分析也需要我们有一定的认知,本次我们介绍的流程就会涵盖这些知识点。(很多朋友会下意识的认为RNA-seq数据的上游分析必然是基于Linux,其实也是可以使用bioconductor的全部R包来完成的哦!)
Seurat使用基于graph的聚类方法,该方法使用K最近邻(KNN)图(默认情况下)将细胞嵌入到图结构中,在具有相似基因表达模式的细胞之间绘制边缘。然后,它试图将该图划分为高度互连的‘quasi-cliques’或 ‘communities’[ Seurat - Guided Clustering Tutorial(https://satijalab.org/seurat/v3.1/pbmc3k_tutorial.html)]。
rownames(a) #查看行名,默认值的行名就是行号,1.2.3.4...dim(a)#几行几列
每个癌症都去找各自的肿瘤突变maf文件很麻烦,所以我们才会选择 PanCanAtlas Publications Scalable Open Science Approach for Mutation Calling of Tumor Exomes Using Multiple Genomic Pipelines ,详见:https://gdc.cancer.gov/about-data/publications/mc3-2017 :它提供如下所示的文件:
(7)别只复制代码,要理解其中的命令、函数的意思。函数或者命令不会用时,除了百度/谷歌搜索以外,用这个命令查看帮助:?read.table,调出对应的帮助文档,翻到example部分研究一下。
函数与参数 形式参数与实际参数 形式参数99%可以删除 图片 命名新的函数 > jimmy <- function(a,b,m = 2){ + (a+b)^m + }。#命名jimmy这个函数,自己设置 m=2是默认值 > jimmy(a = 1,b = 2) [1] 9 > jimmy(1,2) #省略写法 [1] 9 > jimmy(3,6) [1] 81 > jimmy(3,6,-2) #更改m的值 有2改为-2 [1] 0.01234568 图片 复习:绘图函数plot() par(mfrow
一般情况下我们需要分析的数据都是存储在文件中,那么利用 R 分析数据的第一步就是将输入读入 R 语言。如果分析的数据是记录在纸质载体上,还需要将数据手动录入,然后保存为一个文件。在 R 中分析文件一般是文件文件,通常是以逗号分隔的 csv 文件,如果数据本身包含逗号,就需要使用制表符 tab 分隔的文件。有些情况下还有需要处理其他统计软件生成的文件,例如 Excel 生成的 xlsx 格式文件等。R 可以很方便地读写多种格式文件。
4) R语言读取(表格文件读入到R语言里时,就得到了一个数据框,对数据框的修改不会同步到表格文件。
#当遇到文件中有缺失的数据不在同一列时,read.table函数只识别一个空格,会导致数据错乱
最近在这个教程下面看到了一下留言,说下载SingleR 的数据库失败。我帮忙看了看, 注意到 Revised: June 14th, 2020的时候SingleR 1.4.1 ,里面使用了下面的代码获取参考数据库:
DECoN是一款CNV检测工具,适用于exon-based的panel测序,可以识别single exon CNV, 文章链接如下
数据框函数- 排序arrange()和desc参数、distinct()去重复、mutate()数据框新增列
最近想研究一下IMvigor210 cohort,生信技能树已经把指南写得很清楚了IMvigor210CoreBiologies包安装指北,但是今天发现了一个bug,花了我几个小时时间,总算找出答案~~~~我把整个过程写下来,研究之后发现,R包的安装有时候真是一把辛酸泪。
之前写了一个脚本,可以让大家1行代码提取6种类型的表达矩阵以及对应的临床信息。但是很多人完全看不见注意事项或者根本看不懂,所以我决定改动一下。
使用socket中的struck来实现客户端发送 服务端: 客户端: # -*- coding: UTF-8 -*- import socket, time, socketserver, struct, os, _thread host = '127.0.0.1' port = 12307 s = socket.socket(socket.AF_INET, socket.SOCK_STREAM) # 定义socket类型 s.bind((host, port)) # 绑定需要监听的Ip和端口号,tu
注:文件读取是R语言里数据框的来源之一;表格文件读到R语言之后得到一个数据框,对数据框的操作和修改是不会同步到表格文件的;
我们最先要了解的是我们的工作目录,当文件在当前目录下时我们输入文件名即可, 没有在当前目录我们就要输入数据文件的绝对路径。
推荐使用read.table函数读入txt文件,read.csv函数读入csv文件
之前的2行代码提取表达矩阵由于大家的R语言水平参差不齐,导致很多新手会报错,于是我把前面的代码打包为一个脚本,1行代码就可以了!
read.table() #从文件中读取数据,sep表示文件中的分隔符,header表示第一行是否为标题行
如果是现在才看到这个系列的小伙伴建议自己去先读一下CELL杂志的文章:Therapy-Induced Evolution of Human Lung Cancer Revealed by Single-Cell RNA Sequencing ,因为作者提供了全套代码,在:https://github.com/czbiohub/scell_lung_adenocarcinoma ,研究者们共收集到30位患者的49份活检样本(biopsy),分为三种类型:治疗前(TKI naive [TN]),靶向治疗后肿瘤消退或稳定(RD, residual disease state)以及靶向治疗后肿瘤仍然增长(PD, upon subsequent progressive disease),这样单细胞转录组数据就非常丰富!
Suspense 是 React 提出的一种同步的代码来实现异步操作的方案。Suspense 让组件‘等待’异步操作,异步请求结束后在进行组件的渲染,即异步渲染。
前面给大家介绍了 过滤线粒体基因表达过高的细胞 基础版。今天给大家分享下进一步优化的代码(文中示例数据可在基础版推文找到)。
新手的小本本: (1)R的赋值符号不是等号,而是<- (2)在Console 控制台输入命令,相当于Linux的命令行 (3)R的代码都是带括号的,括号必须是英文的。 (4)显示工作路径 getw
注册数据页面相关信息 注册数据页面相关信息 注册数据页面相关信息 一个页面用一个槽位 一个页面用一个槽位 一个页面用一个槽位 一个槽位对一个registered_buffer 一个槽位对一个registered_buffer 一个槽位对一个registered_buffer
新版TCGAbiolinks包学习:表达矩阵提取(mRNA/lncRNA/counts/tpm/fpkm)
这张图的每一个点都是一个细胞,同一个颜色的点被认为时一类细胞,那末到底是什么细胞呢,可以通过marker基因进行分析。
上几周,生信技能树的元老级人物果子发了一篇重量级文章数据库一网打尽:不会编程又怎样,还不照样拿课题发文章! 阅读量逼近4000,还超过了Jimmy的署名文一个全基因组重测序分析实战, 为Jimmy心疼
ex2 <- read.csv("ex2.csv",row.names = 1,check.names = F) #check.name=F不允许检查行名,可以保留其特殊字符
save(a,file="test.RData")这句代码如果报错object a not found,是为什么,应该怎么解决?
文件读写 .csv 文件 打开方式,excel,记事本,sublime,vscode(适合大文本打开) 图片 .csv 逗号分隔文件 .tsv 制表符分隔文件 图片 文件的读取 读取txt文件 #1.读取ex1.txt ex1 <- read.table("ex1.txt") #列名不能正确表示,并且内容中的数值变为了字符串 ex1 <- read.table("ex1.txt",header = T) #通常读取txt格式文件,header参数表示将文件的第一行作为列名,默认为F 图片 图片 读取c
rownames(a)#查看行名,如果不命名使用默认值的话,行号就是行名,即1,2,3,4,5,......
1.GO富集分析 rm(list = ls()) load(file = 'step4output.Rdata') library(clusterProfiler) library(ggthemes) library(org.Hs.eg.db) library(dplyr) library(ggplot2) library(stringr) library(enrichplot) 1)输入数据 gene_up = deg$ENTREZID[deg$change == 'up'] gene_down
确实网速老慢,下载的花花老师分享的文件。应该先清空列表台,再解压,忘了就顺序换了一下。要注意一个问题,要在工作目录条件下。
领取专属 10元无门槛券
手把手带您无忧上云