咱们《生信技能树》的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程!
在经过基因组组装或转录组差异基因表达量分析之后,对其结果进行注释是比较重要的一步,如何注释以及如何得到精确的注释结果?
在微生物测序分析中,常常需要对未知的核酸或蛋白序列进行物种,功能或类别注释。注释方法种类较多,其中最常用的是与一些标准数据库进行相似性搜索,也就是序列比对。因此,数据库的优劣对注释结果至关重要。本期小编为大家带来的是NCBI上的三个重要的数据库—NR/NT,Taxonomy和RefSeq。 NR/NT 数据库 NR(Non-Redundant Protein Sequence Database)非冗余蛋白库,所有GenBank+EMBL+DDBJ+PDB中的非冗余蛋白序列,对于所有已知的或可能的编码序列
NCBI 的分类数据库,包括大于 7 万余个物种的名字和种系,这些物种都至少在遗传数据库中有一条核酸或蛋白序列。其目的是为序列数据库建立一个一致的种系发生分类学。截止到目前,各个物种的统计结果见下表。
#!/bin/bash #ocpyang@126.com ########脚本说明 #1.默认读取当前目录下database.txt文件,备份部分数据库 #2.如果database.txt为空,则执行全备或备份指定的个别数据库 #set parameter mydumper=/usr/local/bin/mydumper #根据自己的实际情况设置 dir_backup=/backup #根据自己的实际情况设置 mysql_host=localhost #根据自己的实
前面我提前了我的基因组测序数据里面的未成功比对到人类基因组上面的那些fastq序列,也用了软件把它们组装成fasta序列,这些序列的功能是未知的,可以通过比对到NCBI的NT/NR库来给他们注释一下。 NR库是Non-redundant protein sequences from GenPept, Swissprot, PIR, PDF, PDB, and NCBI RefSeq,得去ftp://ftp.ncbi.nih.gov/blast/db/ 下载所有gz结尾的文件,并且解压到同一个目录即可。 最终
当拿到一条未知序列时,可以直接与 ncbi nt 库或者 nr 库进行 blast 比对,鉴定未知序列。
一般来说,大家拿到了感兴趣的基因集后,通常是做超几何分布检验看看富集到了什么生物学功能数据库,比如KEGG或者GO数据库,或者走gsea/gsva这样的富集分析,也是注释生物学功能数据库。大家读我的表达芯片的公共数据库挖掘系列推文应该是够多了:
16S rRNA 基因的高通量测序已被广泛用于研究各种海洋,地表和宿主相关环境中微生物群落的组成和结构。但许多生物学问题更需要我们研究其功能变化,而不仅仅是微生物分类组成。近年来,有不少研究团队开发了几款预测工具,例如 PICRUSt,Tax4Fun,Piphillin,Faprotax 和 paprica。尽管这些工具并不能替代宏基因组测序,但它们仍在一定程度上为我们提供了独特见解。
宏基因组数据可以不经组装,直接将测序获得的reads比对到公共数据库中,利用比对到的数据库序列的物种归属信息对reads进行物种分类,从而快速获得群落的物种组成信息。
网址:https://blast.ncbi.nlm.nih.gov/Blast.cgi 运行方式:本地或web
#!/bin/bash# ubuntu20 shell 脚本自动编译web安装网站环境 nginx199 php7/8 mariadb1011 以 systemd 方式设置开机启动# mysql 重置 root 密码,创建 或删除 mysql 子库和子用户downdir="/datadisk/eisc/download" ; sudo mkdir -p $downdir ; sudo chmod 777 -R $downdirinstalldir="/datadisk/eisc/server" ;
#!/bin/bash # mysql 破解重置root密码 read -p " Hello, welcome to continuous integration eisc.cn mysql 同时破解远程和localhost数据库密码 请输入用户名:" setuser read -p "请自定义密码:" setpasswd mycnf="/etc/my.cnf" NR=`cat -n $mycnf | grep "\[mysqld\]" | awk -F" " '{print $1}'` ; echo $N
blast+:ftp://ftp.ncbi.nlm.nih.gov/blast/executables/LATEST
实现Python连接Mysqln以及应用
该程序明确地设计为,利用具有大内存容量和许多内核的现代计算机体系结构。那么为什么它那么快呢,因为它使用了种子和延伸方法。额外的算法成分是使用缩小的字母,间隔种子和双索引。算法简单了解一下就可以了,具体的算法的内容比较难懂就不深入讨论了。
每对基因基序的得分可以用不同的参数来进行。因此,我们提供多个数据库(motif-rankings),根据以下几种可能性:
最近有粉丝求助,说自己已经耗费十多天了还没有把一个NT数据库下载下来,不得已充值会员费希望可以加速,但是效果也很惨淡,如下图:
#!/bin/bash # 数据库管理脚本: 安装mysql8数据库创,建用户并创建测试表,修改密码, InputRead(){ echo " 懒得输入信息,我已经在脚本内配置登录信息,请一直回车确认" read -p "请输入管理员用户:" rootuser read -p "请输入管理员密码:" rootuserpasswd read -p "指定用户名:" user read -p "指定用户密码:" passwd read -p "指定用户数据库:" database sleep 3; # roo
当我们对Oracle进行安装部署时,需要按照相关要求修改OS内核参数,下面对Oracle按照部署时需要修改的相关内核参数进行简单介绍。
useradd -m -d /home/eisc -s /bin/bash eisc; passwd eisc
#!/bin/bash # 小绿叶技术博客扫段攻击拦截系统 #抓包监控tcp攻击ip进行拦截。 systemctl enable firewalld ; systemctl start firewalld # 将firewalld 防火墙加入开机启动 folder="/anfang/ip" mkdir -p $folder # 抓包等待30s 杀掉进程,符号 & 并列执行 zdyljs=600 timetcp=3480 tcpdump -nn port 80 or port 443 > $folder/
系统连接状态篇: 1.查看TCP连接状态 netstat -nat|awk'{print$6}'|sort|uniq-c|sort-rnnetstat-n|awk'/^tcp/{print$NF}'|sort|uniq-c|sort-rnnetstat-ant|awk'{print$NF}'|grep-v'[a-z]'|sort|uniq-c 2.查找请求数请20个IP(常用于查找攻来源): netstat -anlp|grep80|greptcp|awk'{print$5}'|awk-F:'{print$1}'|sort|uniq-c|sort-nr|head-n20 netstat -ant|awk'/:80/{split($5,ip,":");++A[ip[1]]}END{for(iinA)printA[i],i}'|sort-rn|head-n20 3.用tcpdump嗅探80端口的访问看看谁最高 tcpdump -ieth0-tnndstport80-c1000|awk-F"."'{print$1"."$2"."$3"."$4}'|sort|uniq-c|sort-nr|head-20 6.根据端口列进程 netstat -ntlp|grep 80|awk'{print$7}'|cut-d/-f1 网站日志分析篇1(Apache): 1.获得访问前10位的ip地址 cat access.log|awk'{print$1}'|sort|uniq-c|sort-nr|head-10 cat access.log|awk'{counts[$(11)]+=1};END{for(urlincounts)printcounts[url],url}' 2.访问次数最多的文件或页面,取前20 cat access.log|awk'{print$11}'|sort|uniq-c|sort-nr|head-20 3.列出传输最大的几个exe文件(分析下载站的时候常用) cat access.log|awk'($7~/\.exe/){print$10""$1""$4""$7}'|sort-nr|head-20 4.列出输出大于200000byte(约200kb)的exe文件以及对应文件发生次数 cat access.log|awk'($10>200000&&$7~/\.exe/){print$7}'|sort-n|uniq-c|sort-nr|head-100 7.列出传输时间超过30秒的文件 cat access.log|awk'($NF>30){print$7}'|sort-n|uniq-c|sort-nr|head-20 8.统计网站流量(G) cat access.log|awk'{sum+=$10}END{printsum/1024/1024/1024}' 9.统计404的连接 awk'($9~/404/)'access.log|awk'{print$9,$7}'|sort 网站日分析2(Squid篇) 2.按域统计流量 zcat squid_access.log.tar.gz|awk'{print$10,$7}'|awk'BEGIN{FS="[/]"}{trfc[$4]+=$1}END{for(domainintrfc){printf"%s\t%d\n",domain,trfc[domain]}}' 数据库篇 1.查看数据库执行的sql /usr/sbin/tcpdump-ieth0-s0-l-w-dstport3306|strings|egrep-i'SELECT|UPDATE|DELETE|INSERT|SET|COMMIT|ROLLBACK|CREATE|DROP|ALTER|CALL'
16S rRNA 扩增子测序是研究微生物群落多样性和动态变化的重要方法。然而,目前公共 16S rRNA 参考数据库中仍缺乏许多环境微生物的高同一性参考序列,也缺乏针对大多数未培养微生物的系统分类注释。
oncoPredict:一个用于预测体内或癌症患者药物反应和细胞系筛查数据的生物标志物的R包
关于Linux系统的HugePages与Oracle数据库优化,可以参考熊爷之前的文章,相关概念介绍的非常清晰:
转自张sir的博客:http://freeze.blog.51cto.com/1846439/829728
在 Linux 中大页分为两种: Huge pages (标准大页) 和 Transparent Huge pages(透明大页)。
前面我们全面介绍了在akka-cluster环境下实现的CQRS写端write-side。简单来说就是把发生事件描述作为对象严格按发生时间顺序写入数据库。这些事件对象一般是按照二进制binary方式如blob存入数据库的。cassandra-plugin的表结构如下:
最近的alert日志中碰到了ORA-27090的错误信息,其错误提示为Unable to reserve kernel resources for asynchronous disk I/O。根据这个提示来看是跟异步I/O相关的内核参数问题。下面是这个问题的描述与解决。
当研究一条DNA或蛋白质序列时,主要关注的是其包含的遗传信息;当研究两条或多条DNA或蛋白质序列时,则主要关注不同序列之间的差别与联系。在生物信息学中,对生物大分子的序列比对是非常基本的工作。
我取了其中的name age nr,做成array,只要所取数据存在str型,那么取出的数据,全部转化为str型,也就是array阵列的元素全是str,不管数据库定义的是不是int型。
对于Oracle的Flashback来说,在11g里面有了一个很细微的变化,可以说是一个很不错的福利,那就是开启闪回不需要重启数据库至mount状态下,归档模式下open状态就可以开启,关闭。 但是有一点自己也记不太清楚了,那就是有时候数据库开启/关闭很容易,有的时候却需要额外花点功夫。今天索性花了点时间理了理。 查看是否开启闪回数据库,可以简单使用下面的方式。 SQL> select database_role,flashback_on from v$database; DATABASE
在升级了pySCENIC后,发现转录因子数据库更新了。因此本文基于更新后的转录因子数据库,再次记录了从软件部署到pySCENIC的运行,最后进行可视化的详细笔记,希望对大家有所帮助,少走弯路。
为了分析不同类型、组织起源肿瘤的共性、差异以及新课题。TCGA于2012年10月26日-27日在圣克鲁兹,加州举行的会议中发起了泛癌计划。参考:https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6000284/ 为此我也录制了系列视频教程在:TCGA知识图谱视频教程(B站和YouTube直达)
适合尝尝鲜,目前有1W+ star, 上正式线我觉得等version 6会稳定些,
4.域名--->CDN--->负载均衡--->云服务器ECS+数据库RDS(主从)+缓存Redis
背景 预测得到一个物种的全部基因之后,接下来自然而然的问题就出现了。这些基因都有哪些功能呢?这就需要进行基因功能注释。基因功能注释就是将待查基因与已知数据库进行比对,如果比对上则认为二者
美国的国家生物技术信息中心(National Center forBiotechnology Information,NCBI,https://www.ncbi.nlm.nih.gov/)是1988年美国国家健康研究所(National Institutesof Health,NIH)和国家医学图书馆(United StatesNational Library of Medicine,NLM)联合发起成立的分子生物学、生物化学、遗传学知识储备和文献整理平台,并逐步演变为大规模生物医药数据存储、分类与管理,生物分子序列、结构与功能分析,分子生物软件开发、发布与维护,生物医学文献收集与整理,全球范围数据提交与专家注释于一体的世界生物医学信息与技术资源数据库。NCBI采用著名的Entrez搜索和信息检索系统,可以进行在线资源检索,同时构建FTP数据资源下载平台(https://www.ncbi.nlm.nih.gov/guide/all/#downloads),方便用户批量下载数据。
stat命令一般用于查看文件的状态信息。stat命令的输出信息比ls命令的输出信息要更详 细。
前两期周更我们通过一篇文章的复现整理了mRNA和lncRNA分析基本流程,但并没有涉及新lncRNA的鉴定,本周的推文本质上是我个人学习鉴定lncRNA的全套流程笔记,整合了我们公众号往期的资源,对代码进行了勘误更新,内容非常详实。
打开一看是个众测平台,注册的时候提示需要邀请码,而邀请码的获得方式有两种,一种是老用户邀请,另一种则需要通过平台提供的一个小游戏获取flag,然而我们也不认识老用户,没办法那只能去找flag了。
组织内细胞异质性的基础是细胞转录状态的差异,转录状态的特异性又是由转录因子主导的基因调控网络(GRNs)决定并维持稳定的。因此分析单细胞的GRNs有助于深入挖掘细胞异质性背后的生物学意义,并为疾病的诊断、治疗以及发育分化的研究提供有价值的线索。然而单细胞转录组数据具有背景噪音高、基因检出率低和表达矩阵稀疏性的特点,给传统统计学和生物信息学方法推断高质量的GRNs带来了挑战。Single-cell regulatory network inference and clustering (SCENIC)是一种专为单细胞数据开发的GRNs算法,它的创新之处在于引入了转录因子motif序列验证统计学方法推断的基因共表达网络,从而识别高可靠性的由转录因子主导的GRNs。SCENIC相关的文章2017年首先发表于nature methods,2020年又将流程整理后发表于nature protocls。需要深入了解分析原理和流程的朋友可以参考这两篇文章:
最近看了一篇关于面部表情特征学习的文章,感觉整体框架和构思特别好,就总结了下,和大家分享。希望得到大家的支持和认可,后期大家互相讨论,互相学习!谢谢!O(∩_∩)O谢谢! AU-inspired Deep Networks for Facial Expression Feature Learning 受AU启发的深层网络面部表情特征学习 文章的主要贡献如下: 受AU启发,将表情分解成多个面部动作单元,构建特征学习框架去提取特有的特征; 构建不同的感受野构造和子网络学习方案。 文章简单介绍: 现存大多数面
近期,发现一个 MySQL 从节点提示同步异常。执行 show replica status 都被挂起。
HugePages是Linux内核2.6+集成的一个功能,可以允许管理大于4KB的页。
(1)在Data Pump中引入了新的TRANSFORM的选项DISABLE_ARCHIVE_LOGGING,这对于表和索引在导入期间提供了关闭Redo日志生成的灵活性。当为TRANSFORM选项指定了DISABLE_ARCHIVE_LOGGING:Y值,那么在整个导入期间,表和索引的Redo日志就会处于关闭状态,仅生成少量的日志。这一功能在导入大型表时缓解了压力,并且减少了过度的Redo产生,从而加快了导入。这一属性对表和索引都适用。不管是在非归档还是归档情况下使用DISABLE_ARCHIVE_LOGGING都会减小导入时间,减少归档量。但是需要注意的是,如果数据库处于FORCE LOGGING模式,那么DISABLE_ARCHIVE_LOGGING参数会无效。
还是使用CCDS记录文件吧,CCDS 数据库旨在确定一组核心的人类和小鼠蛋白质编码区域,这些区域具有一致的注释和高质量。人类数据更新到了2018 年 ,包括了 33397 个 CCDS IDs,共 19033 个 Gene 。
领取专属 10元无门槛券
手把手带您无忧上云