今天给大家介绍斯坦福大学Jure Leskovec教授团队在Nature Communications上发表的一篇文章“Identification of disease treatment mechanisms through the multiscale interactome”。在这项工作中,作者构建了一个多尺度相互作用网络,该网络整合了疾病扰动蛋白、药物靶标和生物功能。基于该网络,作者开发了一种随机游走方法,捕获药物作用如何在蛋白质相互作用和生物功能的层次结构中传播。实验结果表明,多尺度相互作用网络可以预测药物疾病的治疗,鉴定与治疗有关的蛋白质和生物学功能,并预测可改变治疗功效和不良反应的基因。另外,仅通过蛋白质之间的相互作用不能对治疗机制进行解释,因为许多药物通过影响被疾病破坏的生物功能来治疗疾病,而不是直接作用于疾病蛋白。
Metagenomics is the study of genetic material recovered directly from environmental samples. The broad field may also be referred to as environmental genomics, ecogenomics or community genomic。
一、介绍1、分子功能(Molecular Function,MF )2、细胞组分(Cellular Component ,CC)3、生物过程(Biological Process ,BP)二、GO术语的构成1、基本要素2、可选要素三、基因本体论中的关系1、关系的描述2、节点的连接3、GO的主要关系四、GO 图(有向无环图)五、GO的动态更新
今天给大家介绍国防科技大学计算机学院王伟博士、吴诚堃副研究员等人发表于BMC Bioinformatics的一项研究工作“CGINet: graph convolutional network‐based model for identifying chemical‐gene interaction in an integrated multi‐relational graph”。在这项研究中,作者利用多个已有的生物医学关系知识库,构建了一个大规模药物信息网络,并提出一种化合物-基因相互作用预测模型。
今天给大家介绍拉什大学的Shinya Tasaki 等人在Nature Machine Intelligence上发表的文章“Deep learning decodes the principles of differential gene expression”。作者在文章中提出了一个系统生物学模型DEcode来预测差异表达,并挖掘影响预测基因表达的因素的生物学基础,以了解其如何产生。作者在模型中使用了深度卷积神经网络,根据RNA和启动子上的全基因组结合位点预测差异表达。此外,作者通过预测组织间的差异表达、差异转录的效用和衰老的驱动因素等实验,展示了DEcode在产生生物学见解方面的广泛潜在应用。
今天为大家介绍的是来自Peter R. Girguis团队的一篇论文。解读基因与其基因组环境之间的关系是理解和工程生物系统的基础。机器学习在从大规模蛋白质序列数据集中学习隐藏的序列-结构-功能范式关系方面显示出潜力。然而,迄今为止,利用更高阶的基因组环境信息的尝试还很有限。进化过程决定了基因在不同系统发育距离中所处的基因组环境的特异性,这些新出现的基因组模式可以用来揭示基因产物之间的功能关系。在这里,作者训练了一个基因组语言模型(gLM),通过数百万的宏基因组来学习基因之间潜在的功能和调控关系。
今天给大家介绍华中科技大学人工智能与自动化学院Xueming Liu课题组、哈佛医学院Joseph Loscalzo团队和伦斯勒理工学院Jianxi Gao课题组合作发表在 Nature Communication上的一篇文章“Robustness and lethality in multilayer biological molecular networks”。作者构建了人体多层生物分子网络模型并提出了一个框架来理解基因、蛋白质和代谢物之间的相互作用如何决定一个异质生物网络的鲁棒性。
基因本体论定义与基因功能有关的概念('GO术语'),以及这些功能如何相互关联。随着生物学知识的积累,它不断修改和扩展。GO描述了三个方面的功能:分子功能(基因产物执行的分子水平活动),细胞组分(相对于基因产物执行功能的细胞结构的位置)和生物过程(更大的过程,或通过多种分子活动完成的“生物学课程”)。
GWAS(Genome-wide association studies) 是 20 世纪最后 25 年由假设驱动的候选基因关联研究(CGAS)演变而来的。随着技术的发展,无偏见的全基因组搜索成为可能。随着技术的发展,无偏见的全基因组成为可能。然而,与候选基因关联研究一样,这些研究最初也是为了产生两类有价值的知识:首先,研究人员希望发现疾病起源的潜在分子机制,特别是确定所有相关基因和基因变异(即疾病因果关系)。
昨日,来自法国图卢兹大学和英国剑桥大学的研究人员在Science发表题为Plant evolution driven by interactions with symbiotic and pathogenic microbes的重磅综述,提出共生关系始终是在保护机制和一般细胞生物学原理的共同作用下产生的。探索和利用非开花植物-微生物相互作用中分子机制的多样性,可以扩大工程化共生优势作物和病原菌抗逆性作物的可能性。
面向单细胞的技术革命,让我们得以进入新的研究层面,但也对传统的分析方法提出了一系列的挑战。单细胞技术正在弥补分子生物学和组织生物学之间的鸿沟,进入高通量时代以来,这项技术所揭示的不是单一元素的信息,而是在单细胞层面揭示某种系统关系:DNA,RNA,ATAC等。我们知道,在系统中,关键要素除了来自元素本身(基因,转录本等生物小分子)之外,还来自元素之间的关系。虽然作为领域起源的社会网络分析可以追溯到20世纪30年代,图论可以上溯几个世纪,但网络科学的迅速崛起与普及只是近几十年的事情。目前,基因调控网络,生物代谢与信号转导网络,蛋白质互作网络作为基本的生物分子网络(Biological molecular network )已经在生物信息分析中得到广泛的应用。
大家好!今天给大家介绍一篇2022年6月发表在Journal of Translational Medicine(IF:8.440)上的一篇文章。本研究作者全面分析了胶质瘤患者的小胶质细胞的作用并基于相应亚通路构建预后模型。
我们经常在科研文章中看到功能富集分析,包括GO和KEGG富集分析。前面我们也给大家分享过一些GO和KEGG富集分析相关的一些文章
生物信息学(bioinformatics):综合计算机科学、信息技术和数学的理论和方法来研究生物信息的交叉学科。包括生物学数据的研究、存档、显示、处理和模拟,基因遗传和物理图谱的处理,核苷酸和氨基酸序列分析,新基因的发现和蛋白质结构的预测等。
大家好,我是架构君,一个会写代码吟诗的架构师。今天说一说基因调控网络 (Gene Regulatory Network) 01,希望能够帮助大家进步!!!
近日,由中国科学院北京基因组研究所(国家生物信息中心)国家基因组科学数据中心开发的人类长非编码RNA(long non-coding RNA, lncRNA)表达数据库正式上线。该研究成果以`LncExpDB: an expression database of human long non-coding RNAs`为题在国际学术期刊《核酸研究》(`Nucleic Acids Research`)在线发表。 `LncRNA`通过复杂多样的分子机制发挥重要调控功能,在多个生物学过程以及疾病发生发展中均发挥重要作用。目前,人类基因组中已鉴定出十万多个lncRNA基因,但有功能研究的仅有数千条,因此全面注释lncRNA功能是人类基因组研究的重要内容和巨大挑战。近年来,高通量测序技术的迅速发展促进了正常组织、疾病、胚胎发育、器官分化、病毒侵染、亚细胞区室等多种生物学场景的研究,积累了丰富的组学数据,尤其是转录组测序数据,为从多角度发现和研究lncRNA的生物学功能提供了重要的数据基础与研究思路。 LncExpDB数据库致力于提供多生物学场景的lncRNA表达谱,鉴定具有潜在功能的lncRNA,促进lncRNA的功能实验研究。在LncBook数据库构建的人类lncRNA数据集基础上,研究人员整合CHESS、RefLnc、FANTOM等10余个专业数据库鉴定的lncRNA,基于严格审编标准,获得全面的高质量人类lncRNA参考数据集,包含101,293个基因/33,1244个转录本。LncExpDB数据库进一步整合9种重要生物学场景(正常组织/细胞系、器官发育、植入前胚胎发育、细胞分化、亚细胞定位、外泌体、癌症细胞系、病毒侵染、昼夜节律)的1,977个样本的转录组数据,通过标准化的转录组数据分析流程,系统分析并鉴定每种生物学场景的特征基因(管家基因/组织特异性基因、差异表达基因、节律基因、动态表达基因、亚细胞区室富集基因)集合,共计25,191个特征lncRNA基因和28,443,865对相关的lncRNA-mRNA共表达关系。此外,LncExpDB鉴定了具有表达证据支持的92,016个lncRNA基因,评估了lncRNA的表达水平与表达潜力。
2022年5月10日,四川大学计算机学院的章乐等人在Signal Transduction and Targeted Therapy杂志发表文章,整理和分析了人工智能在癌症靶点识别和药物发现中的应用进展。本文重点介绍其中靶点识别相关的内容。
概念:基因调控网络 (Gene Regulatory Network, GRN),简称调控网络,指细胞内或一个基因组内基因和基因之间的相互作用关系形成的网络,特指基因调控 (gene regulation) 导致基因之间的作用。 GRN是生物体内控制基因表达的机制,基因表达的主要过程是转录+翻译
R语言提供了许多内置的数据集,这些数据集可以在学习和练习时使用,帮助你熟悉R的数据分析和可视化操作。以下是一些常用的内置数据集及其简要介绍:
本文总结了目前关于芳香族化合物环羟基化加氧酶基因的数据库,介绍了微生物降解芳香族化合物(苯系物、萘及其它多环芳烃)过程中发挥重要作用的各类功能基因,总结了环境检测中使用的分子引物,并综述了它们在各类复杂环境样本中的检测应用,此外对使用宏基因组技术来研究微生物在环境中降解芳香族化合物的能力进行了总结与展望.
今天为大家介绍的是美国国立卫生研究院陆致用教授团队的一篇论文。PubTator 3.0是一款结合了最先进人工智能技术的生物医学文献搜索工具,它专注于蛋白质、遗传变异、疾病和化学物质等关键生物医学概念的语义及关联性搜索。该平台已累积提供超过十亿个实体和关系的注释,覆盖约3,600万篇PubMed摘要和600万篇PMC开放获取的全文文章,每周获取最新的相关信息。作者通过一系列实体对比查询展示了PubTator 3.0在文章检索方面的卓越性能,其检索量和前20条结果的精确度均优于PubMed和Google Scholar。此外,整合ChatGPT(GPT-4)的PubTator API显著提升了查询结果的事实性和可验证性。
Development and Validation of an Individualized Immune Prognostic Signature in Early-Stage Nonsquamous Non–Small Cell Lung Cancer
今天为大家介绍的是来自Zhiyong Lu团队的一篇论文。生物医学研究产生了大量信息,其中许多信息只能通过文献获取。因此,文献搜索对于医疗保健和生物医学至关重要。最近在人工智能(AI)方面的进步已经扩展了该功能,不再局限于关键词搜索,但这些进步可能对临床医生和研究人员来说不太熟悉。
清华大学自动化系生命基础模型实验室和电子系/AIR 合作开展研究,构建了拥有 1 亿参数的 scFoundation 细胞大模型。
共表达网络是一种基于组学数据,通过一定的算法来计算并大规模预测基因功能的方法。通过对构建的网络进行注释,可以挖掘出一些与生物体生长发育等相关的重要的基因或功能模块。小编这里以物种A为例,介绍一种用PCC和MR算法构建共表达网络的方法。
这篇文章上次发出后,有朋友留言说到底要测几个重复?其实也没有定论,有钱多多益善。只是需要知道
Picrust作为扩增子测序功能预测的工具已经被广泛使用了。但是它会与真实情况存在较大的偏差,详见前文对Picrust局限性的介绍:
小编为大家爆肝整理了近百个数据库!共分10大类。今天第二期小编为大家分享后5类。 在整理的过程中,小编发现一些虽然是以前经常被大家推荐的数据库,但却已经不再维护了,早已不能正常使用了,这种数据库小编也已经贴心的帮大家过滤掉了。那就快来看看有没有你需要的吧!
The known and the unknown in soil microbial ecology
今天给大家介绍密歇根州立大学Arjun Krishnan教授等人发表在Nucleic Acids Research上的一篇文章 “A flexible, interpretable, and accurate approach for imputing the expression of unmeasured genes”。虽然生物学领域中有超过200万个公开可用的人类微阵列基因表达谱,但这些谱是通过各种平台进行测量的,每个平台都覆盖一组预先定义的、有限的基因。因此,重新分析和整合这一海量数据收集的关键是通过插补未测量基因的表达,在部分测量的微阵列样品中重组整个转录组的方法。目前最先进的插补方法是针对特定平台的样本进行定制的,并依赖于基因-基因关系,不考虑目标样本的生物学背景。本文表明,为每个新的目标样本实时构建的捕获样本-样本关系 (称为样本弹性) 的稀疏回归模型,优于基于固定基因关系的模型。基于三种机器学习算法 (LASSO、k近邻和深度神经网络)、两个基因子集 (GPL96-570和LINCS) 和多个插补任务 (微阵列/RNA-seq数据集内和跨数据集) 的广泛评估表明SampleLASSO是最精确的模型。此外,本文证明了该方法的生物学可解释性:为了插补来自特定组织的一个目标样本,SampleLASSO自动利用了来自同一组织的训练样本。因此,SampleLASSO是一种简单,但强大而灵活的协调大规模基因表达数据的方法。
今天为大家介绍的是来自Kamila Naxerova和Su-In Lee团队的一篇关于药物协同预测的论文。机器学习可能通过解释药物协同作用的分子基础来辅助选择最佳的抗癌药物组合。通过准确的可解释的模型,机器学习有望加速基于数据的癌症药理学研究。然而,由于转录组数据具有高度相关性和高维度的特点,简单地将当前可解释的机器学习策略应用于大型转录组数据集会导致次优的结果。在这里,作者利用特征归因方法展示了通过利用可解释的机器学习模型集合可以提高解释质量的可能性。
2021年12月7日,Recursion宣布与罗氏和基因泰克开展变革性合作。根据协议条款,罗氏和基因泰克可能启动多达40个项目,Recursion将获得1.5亿美元的预付款,并有资格获得基于进展的额外里程碑付款,合作总潜在价值124亿美元。
表示蛋白质氨基酸序列的简单字母串包含惊人的丰富信息,通过将生物信息学工具应用于基因组和蛋白质序列数据,可以解锁这些信息。
今天给大家带来的是2020年3月发表在Biomed Research International(IF=2.276)杂志上的文章“Investigation of Potential Genetic Biomarkers and Molecular Mechanism of Ulcerative Colitis Utilizing Bioinformatics Analysis”。这篇文章通过DEGs筛选、加权基因共表达网络分析(WGCNA)、GO分析、KEGG分析,鉴定hub基因并进行数据验证以确保可靠性,揭示溃疡性结肠炎的分子机制,为溃疡性结肠炎基因治疗提供潜在的生物标志物。
The multi-kingdom microbiome of the goat gastrointestinal tract
在ncount_RNA 和nFeature_RNA辅助过滤中,使用小提琴图对所有细胞中检测到的分子总数(ncount_RNA )以及基因数量(nFeature_RNA)进行可视化,帮助我们判断细胞在哪些位置的密度高,从而推断一个过滤的阈值
但是,一般的差异分析(GO和Pathway)往往侧重于比较两组间的基因表达差异,集中关注少数几个显著上调或下调的基因,这容易遗漏部分差异表达不显著却有重要生物学意义的基因,忽略一些基因的生物特性、基因调控网络之间的关系及基因功能和意义等有价值的信息。而GSEA不需要指定明确的差异基因阈值,算法会根据实际数据的整体趋势, 为研究者们提供了一种合理地解决目前芯片分析瓶颈问题的方法,即使在没有先验经验存在的情况下也能在表达谱整体层次上对数条基因进行分析,从而从数理统计上把表达谱芯片数据与生物学意义很好地衔接起来,使得研究者们能够更轻松、更合理地解读芯片结果。
https://www.nature.com/articles/nrmicro1643#Sec1
被称为20世纪人类三大科学计划之一的人类基因组计划拉开了深度解析生命奥秘的序幕。由于生命过程的多维度、高动态特点,传统实验研究手段难以系统精准地破解基因密码的底层共性规律。当前,以大模型为核心的人工智能技术在计算机视觉和自然语言处理等领域引发了新一轮科技革命,已展示出对复杂数据和知识的深入理解能力,运用人工智能强大能力实现基因组学的数据表征与知识发现,必将在生命科学研究领域带来革命性突破。
3月23日,Nature Medicine(IF:30.6)杂志发表了一篇多数据库的GWAS基于多基因风险评分/polygenic risk scores (PRSs)的队列研究。
最近梳理了之前学习的架构设计相关的一些课程学习总结,将其整理成了一个大纲脑图,以每篇5分钟系列展现出来,希望对你有所帮助。
Link: https://academic.oup.com/gigascience/article/doi/10.1093/gigascience/giab090/6505123
今天给大家带来的是篇非肿瘤纯生信文章,2022年发表在Front Immunnol上。文章思路清晰,整体上就是基于差异表达分析、WGCNA 和 Lasso 回归挖掘疾病相关的hub基因,然后对差异基因进行GO、KEGG 和GSEA分析。然后ssGSEA分析表达谱中 28 个免疫细胞的浸润水平及其与中枢基因标记的关系。最后使用ROC曲线评估了hub基因在疾病中的诊断价值。一气呵成,确定了参与疾病进展的关键生物标志物和免疫相关途径及其与免疫细胞浸润的关系。看完直呼我也能做!
了解 RNA 提取和 RNA-seq 文库制备实验过程中的步骤,有助于设计 RNA-seq 实验,但有一些特殊的注意事项需要明确:
探索疾病之间的潜在关系一直是一个活跃的研究领域。2022年《Briefings in Bioinformatics》发表了一篇综述文章,为当前的疾病关联研究提供了一个系统的概述:总结了用于评估疾病相关性的可用生物医学数据和数据库、计算方法、软件工具/平台等,以促进疾病关联计算方法和工具/平台的开发和应用。
今天介绍一篇美国加州大学戴维斯分校研究团队在nature communications发表的一篇论文“Knowledge integration and decision support for accelerated discovery of antibiotic resistance genes”。本文提出了一个知识集成和决策支持的框架(KIDS),通过知识图谱的构建、数据不一致性的消除和迭代链接的预测来实现自动化的知识发现。本文综合10个公开数据源的知识,构建了一个大肠杆菌抗生素耐药性知识图谱,包含来自23种三元组类型的651,758个关联关系。作者对图进行迭代链接预测,并对生成的假设进行湿式验证,发现了15个抗生素耐药的大肠杆菌基因,其中6个基因从未被报道与微生物的抗生素耐药性有关。阳性结果的概率与实验验证的结果高度相关。此外,在肠道沙门氏菌(Salmonella enterica)中发现了5个同源物,它们都被验证对抗生素有抗性。这项工作展示了证据驱动的决策能以更高的置信度和更快的速度实现自动化的知识发现,从而取代传统的耗时且昂贵的方法。
今天给大家介绍纪念斯隆凯特琳癌症中心的斯隆凯特琳研究所的Dana Pe’er教授等人发表在Cell上的一篇文章 “Recovering Gene Interactions from Single-Cell Data Using Data Diffusion” 。单细胞RNA测序技术受到许多技术噪音的困扰,包括mRNA分子采样不足等,造成的噪声被称为“dropout”,其可能严重模糊重要的基因-基因关系。为了解决这个问题,本文开发了MAGIC (基于马尔可夫亲和力的细胞图插补法) ,这是一种通过数据扩散在相似的细胞之间共享信息以消除细胞计数矩阵的噪声并填补“dropout”的方法。本文在几个生物系统上验证MAGIC,发现它在恢复基因-基因关系和附加结构方面是有效的。
Drug hunters are moving into the clinic with human-first ‘no-hypothesis’ target discovery, applying the full force of machine learning to massive collections of human omics data.
一、什么是进化树二、进化树的构成1. 根 (Root)2. 结点 (Node)3. 进化支 (Branch)4. 外群5. 进化分支长度6. 距离标尺7. Bootstrap value三、进化树评估1. Bootstrap检验2. 重复取样值3. Bootstrap value 阈值4. Bootstrap value 与分支四、几种进化树图1.经典树图(Traditional)Rectangle Tree2.圈图(Circle Tree)3.辐射树(Radiation Tree)
领取专属 10元无门槛券
手把手带您无忧上云