简读分享 | 赵晏浠 编辑 | 王宇哲
论文题目
Gene finding revisited: improved robustness through structured decoding from learning embeddings
论文摘要
基因发现是在基因组中包含的大量遗传密码中确定编码序列的位置的任务。随着原始基因组序列数量的不断增加,基因搜索是了解(新)生物体遗传信息的重要途径,也是学习不同进化物种之间共享模式的重要途径。目前的技术水平是图形模型,通常是按生物体进行训练,并需要手工策划的数据集。然而,这些模型缺乏灵活性,无法纳入近年来在蛋白质序列分析中具有变革意义的深度学习表征学习技术,而这些技术有可能帮助基因发现者利用越来越多的测序基因组来扩大跨多种生物体的性能。在这里,作者提出了一种新的方法,将原始基因序列的学习嵌入与精确的 使用一个潜在的条件随机场进行解码。作者表明,该模型实现了与当前技术水平相匹配的性能,同时提高了训练的鲁棒性,并消除了对手动拟合长度分布的需要。随着DNA语言模型的改进,这为更高性能的跨生物体基因搜索器铺平了道路。
论文链接
https://openreview.net/forum?id=Rn50hCOX9XX