Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >[ICIR | 论文简读] 重新审视基因发现:通过学习嵌入的结构化解码提高鲁棒性

[ICIR | 论文简读] 重新审视基因发现:通过学习嵌入的结构化解码提高鲁棒性

作者头像
智能生信
发布于 2022-12-29 09:28:48
发布于 2022-12-29 09:28:48
2320
举报
文章被收录于专栏:智能生信智能生信

简读分享 | 赵晏浠 编辑 | 王宇哲

论文题目

Gene finding revisited: improved robustness through structured decoding from learning embeddings

论文摘要

基因发现是在基因组中包含的大量遗传密码中确定编码序列的位置的任务。随着原始基因组序列数量的不断增加,基因搜索是了解(新)生物体遗传信息的重要途径,也是学习不同进化物种之间共享模式的重要途径。目前的技术水平是图形模型,通常是按生物体进行训练,并需要手工策划的数据集。然而,这些模型缺乏灵活性,无法纳入近年来在蛋白质序列分析中具有变革意义的深度学习表征学习技术,而这些技术有可能帮助基因发现者利用越来越多的测序基因组来扩大跨多种生物体的性能。在这里,作者提出了一种新的方法,将原始基因序列的学习嵌入与精确的 使用一个潜在的条件随机场进行解码。作者表明,该模型实现了与当前技术水平相匹配的性能,同时提高了训练的鲁棒性,并消除了对手动拟合长度分布的需要。随着DNA语言模型的改进,这为更高性能的跨生物体基因搜索器铺平了道路。

论文链接

https://openreview.net/forum?id=Rn50hCOX9XX

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-11-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 智能生信 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Nat. Commun. | CodonTransformer:使用上下文感知神经网络的多物种密码子优化器
今天为大家介绍的是来自法国索邦大学Amir Pandi与Ariel B. Lindner团队的一篇论文。遗传密码具有简并性,这意味着多种不同的DNA序列可以编码同一种蛋白质。然而,为特定生物体优化密码子(codon)使用时,可能的组合数量庞大,使得这一任务极具挑战性。幸运的是,自然界中经过进化优化的序列为机器学习算法提供了宝贵的学习资源。作者提出了CodonTransformer,这是一个多物种深度学习模型,它通过分析来自164个涵盖生命所有领域生物体的超过100万对DNA-蛋白质序列进行训练。借助Transformer架构和创新的序列表示方法(结合了生物体、氨基酸和密码子编码),该模型展现出优秀的上下文理解能力。CodonTransformer能够生成针对特定宿主的DNA序列,这些序列不仅具有接近自然的密码子分布特征,还最大限度地减少了不良的顺式调控元件。研究团队还提出了共享Token表示和编码与对齐多重掩码(STREAM)策略,并开发了一个可定制的开源模型和用户友好的Google Colab界面,使研究人员能够轻松进行密码子优化,为基因设计和合成生物学提供了实用工具。
DrugAI
2025/05/08
370
Nat. Commun. | CodonTransformer:使用上下文感知神经网络的多物种密码子优化器
英伟达GPU化身造物主?从原子开始3D模拟活细胞,含500个基因,模拟只需20分钟
最近,来自伊利诺伊大学厄巴纳·香槟分校(University of Illinois at Urbana-Champaign)的研究人员成功在原子粒度上模拟了一个最小的活细胞(living minimal cell),使用到的加速设备为Nvidia Titan V和Tesla Volta V100显卡,成功将模拟时间压缩到20分钟内。
新智元
2022/02/24
4070
英伟达GPU化身造物主?从原子开始3D模拟活细胞,含500个基因,模拟只需20分钟
Nat Biotechnol | 杨弋团队报道RNA光遗传学工具,可时空精确操纵活细胞RNA代谢与功能
生物遗传中心法则是指遗传信息从DNA传递给RNA,再从RNA传递给蛋白质,即完成遗传信息的转录和翻译的过程。然而在过去的几十年里,生命科学的舞台一直被 DNA 和蛋白质霸占。DNA 负责遗传信息存储,蛋白质负责基因指令执行,而 RNA只是承担中间环节遗传信息传递者的配角。随着人类基因组信息的解析,人们发现只有2%的人类基因组编码蛋白质,更有约98%的基因组意义不明,甚至被认为是“垃圾”DNA。随着生命科学的不断发展,这些看似“垃圾”的DNA却能产生大量的非编码RNA,而这些RNA发挥着至关重要的生物学功能,几乎参与所有重要的细胞生命过程,与多种重大疾病的发生和发展密切相关。
生信宝典
2022/01/19
3480
Nat Biotechnol | 杨弋团队报道RNA光遗传学工具,可时空精确操纵活细胞RNA代谢与功能
【Briefings in Bioinformatics】四篇好文简读-专题20
DeepDISOBind: accurate prediction of RNA-, DNA- and protein-binding intrinsically disordered residues with deep multi-task learning 论文摘要:
智能生信
2022/02/11
3540
【Briefings in Bioinformatics】四篇好文简读-专题20
[Genome Biology | 论文简读] 通过解释深度学习模型识别癌症的常见转录组特征
Identifying common transcriptome signatures of cancer by interpreting deep learning models
智能生信
2022/12/29
2420
[Genome Biology | 论文简读] 通过解释深度学习模型识别癌症的常见转录组特征
使用Python实现基因组数据分析:探索生命的奥秘
基因组数据分析是现代生物学研究中的重要领域,通过对基因组数据的分析,我们可以了解生物的遗传信息、揭示疾病的遗传机制,甚至可以进行个性化的医疗治疗。Python作为一种高效且易用的编程语言,为基因组数据分析提供了丰富的库和工具。本文将详细介绍如何使用Python实现基因组数据分析,涵盖环境配置、依赖安装、数据处理、序列比对、特征提取与分类和实际应用案例等内容。
Echo_Wish
2025/01/01
1540
包含400亿个参数!迄今最大开源生物学AI模型Evo 2发布,可设计涵盖生命所有领域的遗传密码
在生命科学领域,人工智能(AI)正逐渐展现出巨大的潜力,为科研带来前所未有的突破。近日,美国Arc研究所与NVIDIA公司、斯坦福大学和加州大学伯克利分校等机构合作,发布了迄今为止最大的公开可用生物学AI模型Evo 2,有望彻底改变人们对生命遗传信息的理解和应用。
DrugAI
2025/03/10
2550
包含400亿个参数!迄今最大开源生物学AI模型Evo 2发布,可设计涵盖生命所有领域的遗传密码
【Briefings in Bioinformatics】四篇好文简读-专题19
Distant metastasis identification based on optimized graph representation of gene interaction patterns 论文摘要:
智能生信
2022/01/05
4570
【Briefings in Bioinformatics】四篇好文简读-专题19
[ICLR | 论文简读] OntoProtein:用基因本体论嵌入的蛋白质预训练
OntoProtein: Protein Pretraining With Gene Ontology Embedding
智能生信
2022/12/29
3620
[ICLR | 论文简读] OntoProtein:用基因本体论嵌入的蛋白质预训练
MIT设计深度学习框架登Nature封面,预测非编码区DNA突变
选自MIT News 作者:Raleigh McElvery 机器之心编译 编辑:小舟、张倩 来自 MIT 和哈佛大学博德研究所等机构的一项研究刚刚登上了 Nature 封面。他们创建了一个数学框架来预测基因组中非编码序列的突变及其对基因表达的影响。研究人员将能够利用这些模型来设计细胞、研发新药、寻找包括癌症和自身免疫性疾病在内的疾病新疗法。 尽管每个人类细胞都包含大量基因,但所谓的「编码」DNA 序列仅占人类整个基因组的 1%。剩下的 99% 由「非编码」DNA 组成,非编码 DNA 不携带构建蛋白质的
机器之心
2022/03/18
3550
从0编写基因组!史上最大生物学模型Evo-2全面开源:硅基生命能创造细胞?
基因组(Genome)包含了生物体所有基因以及非编码的DNA序列,承载了生物体发育、生长、繁殖和适应环境所需的全部遗传信息,近年来基因组相关的测序、合成和编辑工具已经彻底改变了生物学研究。
新智元
2025/03/31
630
从0编写基因组!史上最大生物学模型Evo-2全面开源:硅基生命能创造细胞?
Nature Genetics | 基于人工智能神经网络的基因组解读系统Nvwa并揭示细胞命运决定共性规律
本文介绍由浙江大学基础医学院的郭国骥、韩晓平和良渚实验室的王晶晶共同通讯发表在 Nature Genetics 的研究成果:目前研究人员在生成和分析基因组方面做了大量努力,但大多数物种仍缺乏预测基因调控和细胞命运决定的遗传模型。在该研究中,作者利用自主构建的高通量单细胞测序平台Microwell-seq绘制了斑马鱼、果蝇和蚯蚓的全身单细胞转录组图谱,并探究了八种代表性的后生动物细胞类型的跨物种可比性,揭示了脊椎动物细胞类型保守的调控程序。作者开发了一种基于深度学习的模型Nvwa,用于在单细胞分辨率下预测基因表达和识别调控序列。作者还系统地比较了细胞类型特异性转录因子,以揭示脊椎动物和无脊椎动物细胞类型的保守遗传调控。该工作有助于为研究不同生物系统的调控语法提供宝贵的资源和新的策略。
DrugAI
2022/11/28
1.5K0
Nature Genetics | 基于人工智能神经网络的基因组解读系统Nvwa并揭示细胞命运决定共性规律
阿里联手中科大与港科大发布长上下文基因组基础模型GENERator
在基因组学领域,随着DNA测序技术的飞速发展,我们已经能够以前所未有的速度和精度解析生物的基因组序列。然而,如何准确预测和解读这些序列的功能,依然是一个巨大的挑战。
实验盒
2025/02/18
1920
阿里联手中科大与港科大发布长上下文基因组基础模型GENERator
7 Papers | CoRL 2022最佳论文;语言模型生成自然界没有的蛋白质
机器之心 & ArXiv Weekly  参与:杜伟、楚航、罗若天 本周论文包括 FAIR 公布的最新研究,发现 ESM2 语言模型通过学习深层语法,就能生成天然蛋白质以外的新蛋白质,并可以编程生成复杂和模块化的蛋白质结构;机器人顶会 CoRL 2022 奖项公布。 目录 Language models generalize beyond natural proteins A high-level programming language for generative protein design DOC:
机器之心
2023/03/29
4250
7 Papers | CoRL 2022最佳论文;语言模型生成自然界没有的蛋白质
DNA 预测进入新时代!DeepMind 发布新模型Enformer,一次可编码20万个碱基对
DNA 一直是生物中最神秘的存在,为了测量DNA 序列,1988年美国国家科学院的一个特别委员提出人类基因组计划(Human Genome Projec, HGP),它是一项规模高,跨国跨学科的科学探索巨型工程。
新智元
2021/10/12
8890
[机器学习|理论&实践] 机器学习在生物信息学中的探索
机器学习是我一直深入研究和应用的领域,其在生物信息学中的应用尤为引人注目。通过让计算机从数据中学习模式,机器学习为处理生物信息学中的复杂问题提供了新的思路。我理解监督学习、无监督学习和强化学习等方法的区别和适用场景,这些方法在生物信息学中有着广泛的应用。
数字扫地僧
2023/12/20
5050
前瞻 | MorPhiC:描述每个人类基因的分子和细胞功能,人类基因的功能性表征
- 图片说明- 点图显示了基于PubMed搜索的每种人类基因的出版物总数。统计包括在摘要或正文文本中出现基因符号的已发表文章。该图的代码由M. Hirshey提供。
生信菜鸟团
2025/02/20
1280
前瞻 | MorPhiC:描述每个人类基因的分子和细胞功能,人类基因的功能性表征
[Nature Communications | 论文简读] 通过多视图图协同学习从空间分辨的转录组学数据中阐明肿瘤异质性
Elucidating tumor heterogeneity from spatially resolved transcriptomics data by multi-view graph collaborative learning
智能生信
2022/12/29
5470
[Nature Communications | 论文简读] 通过多视图图协同学习从空间分辨的转录组学数据中阐明肿瘤异质性
深度学习 + 基因组学:破译人类 30 亿碱基对
新智元专栏 作者:岳天溦 【新智元导读】基因技术被认为是改变未来的技术之一。根据麦肯锡的报告,预计到2025年,全球将会累计产生 10 亿人次的全基因组数据。基因组学所需的数据量如此巨大,用深度学习技术去探索人类基因组密码便成为了趋势与未来。本专栏将结合最新的一篇来自于卡耐基梅龙大学的综述论文,回顾与展望这一交叉学科的发展。 自从2013年变分自动编码器(VAEs)被提出,2014年Goodfellow提出生成对抗网络(GANs)起,生成式模型(generative models)深得深度学习研
新智元
2018/04/18
1.5K0
深度学习 + 基因组学:破译人类 30 亿碱基对
谷歌推出开源工具DeepVariant,用深度学习识别基因变异
Root 李林 编译整理 量子位 出品 | 公众号 QbitAI Google今天推出了一个名叫DeepVariant的开源工具,用深度神经网络来从DNA测序数据中快速精确识别碱基变异位点。 学科研究的革命性进展,特别是基因学上,需要依赖于新技术的出现。比如桑格发明了测序法之后,才实现了人类基因组的测序。 再比如DNA(微阵列)芯片技术的诞生,使得大规模的基因测序成为可能。这些技术让我们能够获得大量遗传信息,可以更广泛地应用于健康、农业和生态上。 基因测序领域里,最革命性的技术当属2000年初首次商用的高通
量子位
2018/03/22
1.5K0
谷歌推出开源工具DeepVariant,用深度学习识别基因变异
推荐阅读
Nat. Commun. | CodonTransformer:使用上下文感知神经网络的多物种密码子优化器
370
英伟达GPU化身造物主?从原子开始3D模拟活细胞,含500个基因,模拟只需20分钟
4070
Nat Biotechnol | 杨弋团队报道RNA光遗传学工具,可时空精确操纵活细胞RNA代谢与功能
3480
【Briefings in Bioinformatics】四篇好文简读-专题20
3540
[Genome Biology | 论文简读] 通过解释深度学习模型识别癌症的常见转录组特征
2420
使用Python实现基因组数据分析:探索生命的奥秘
1540
包含400亿个参数!迄今最大开源生物学AI模型Evo 2发布,可设计涵盖生命所有领域的遗传密码
2550
【Briefings in Bioinformatics】四篇好文简读-专题19
4570
[ICLR | 论文简读] OntoProtein:用基因本体论嵌入的蛋白质预训练
3620
MIT设计深度学习框架登Nature封面,预测非编码区DNA突变
3550
从0编写基因组!史上最大生物学模型Evo-2全面开源:硅基生命能创造细胞?
630
Nature Genetics | 基于人工智能神经网络的基因组解读系统Nvwa并揭示细胞命运决定共性规律
1.5K0
阿里联手中科大与港科大发布长上下文基因组基础模型GENERator
1920
7 Papers | CoRL 2022最佳论文;语言模型生成自然界没有的蛋白质
4250
DNA 预测进入新时代!DeepMind 发布新模型Enformer,一次可编码20万个碱基对
8890
[机器学习|理论&实践] 机器学习在生物信息学中的探索
5050
前瞻 | MorPhiC:描述每个人类基因的分子和细胞功能,人类基因的功能性表征
1280
[Nature Communications | 论文简读] 通过多视图图协同学习从空间分辨的转录组学数据中阐明肿瘤异质性
5470
深度学习 + 基因组学:破译人类 30 亿碱基对
1.5K0
谷歌推出开源工具DeepVariant,用深度学习识别基因变异
1.5K0
相关推荐
Nat. Commun. | CodonTransformer:使用上下文感知神经网络的多物种密码子优化器
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档