前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Day7-学习笔记(2023年2月4日)测序

Day7-学习笔记(2023年2月4日)测序

原创
作者头像
用户10954357
修改于 2024-02-04 14:38:27
修改于 2024-02-04 14:38:27
4370
举报

今日学习解决问题

1、怎么区分一二三代测序

2、二代测序大体流程

3、NGS组学都包括哪些分类(粗略)

illuminate二代测序 原理及大体流程

原理介绍视频:https://share.weiyun.com/5qojuBY 密码: 密码:bxsry4

文章《测序的世界》:https://www.jianshu.com/p/101c14c3a1d2

技术原理:可逆终止的、荧光标记的dNTP,边合成边测序

流程(4步):样本准备,簇生成,测序,数据分析

一、样本准备(Sample Prep)/文库构建

DNA文库:

定义:其实就是许多 DNA 片段,在两头接上了特定的DNA接头,形成的DNA混合物。

特点:中间插入的 DNA 序列是各不相同的;而两头的接头序列是已知的,且是人工特地加上去的。

制作方法:先将DNA片段化,即把基因组 DNA 用超声波打断,打断之后在两端用酶补平,再用 Klenow 酶在 3’ 端加上一个A碱基,再用连接酶把特定接头(adapter)连上去,连好接头的这堆DNA混合物,我们称之为“文库”(library)。

接头(adapter):

样本准备方法有很多种,不过所有的制备方法都会在 DNA 片段的末端加接头(adapter),以便它们能够和测序流程中所需的引物和平台兼容。

接头是一系列特定的寡核苷酸序列,它们在测序的不同阶段发挥关键作用,通常包含以下内容:

①P5 和 P7 适配器序列:这些是 Illumina 平台上使用的两种常见适配器。P5 适配器位于测序读取的一端,而 P7 适配器位于另一端。在测序时,flowcell oligo 会与 DNA 片段上的 P5 和 P7 适配器序列结合,使 DNA 片段固定在 flowcell上,从而允许进行测序反应。

②DNA barcode 或 index 序列:DNA barcode 也称为 index(复数为 indices),是一个独特的短序列,用于将不同样本标识,允许在同一测序流程中混合多个样本。这对于高通量测序非常有用,因为它允许同时处理多个样本,而不需要单独测序。

③PCR 引物结合序列:接头还包含用于引物结合的序列。PCR 引物是在扩增步骤中使用的特定 DNA 序列,有助于将 DNA 片段进行增加复制,使其在测序过程中变得更加丰富。

二、簇生成

簇生成就是每个DNA片段被扩增的过程。

为什么要扩增?

其实就是为了增强信号!单个DNA文库序列释放的荧光信号会很微弱,不容易被检测到,扩增后使得荧光信号被放大,更易被捕捉。不然为什么要叫 cluster 呢,因为发光的是一簇嘛!我们可以理解为一个簇对应 fastq 中一条 read。

簇生成的过程就在 flowcell(如下图)上:

Flowcell(流动池):

8条通道,lane的内表面→化学修饰→2种DNA引物(它们被种在 flowcell 的表面,也就是我们前面提到的 flowcell oligo)→与待测序DNA文库的接头序列相互补→通过共价键连到flowcell上防止被液体冲掉。

桥式PCR:

把文库种到芯片上去→互补杂交(文库两头的DNA接头序列与芯片引物互补)→加入dNTP和酶→产生新链→加NaOH碱溶液→DNA双链解链→原链洗去,留下互补链(因为原始模板链没有和芯片共价键连接,所以被冲走)→加入中性液体中和碱液→DNA上的另外一端与玻璃板上的第二种引物互补杂交→加入酶和dNTP→加碱→加中和液体→重复过程进行扩增

illumina采取了“一次加一个荧光碱基,用完失效”的办法。官网给出的解释如下图:【有没有感觉和Sanger的方法很像?illumina的测序就是在Sanger基础上加上了桥式PCR,能克服Sange低通量的缺点】

三、测序

边合成边测序

把合成的双链变成可以测序的单链→化学反应→切断一个引物上的特定基团(拿掉互补链的,使得互补链被切断洗去,仅留下正向链,即模板链,也就是目的片段。)→碱溶液洗芯片剩下一个链→加中性溶液与测序引物(带荧光标记的dNTP→3'末端被一个叠氮基堵住→一个循环只能延长一个碱基,聚合酶→选择与原来位置上碱基互补的dNTP)→用水把多余的dNTP和酶冲掉→放到显微镜下进行激光扫描→根据发出来的荧光判断碱基类型(4种dNTP)

一个循环结束后,加入化学试剂切掉叠氮基团和旁边标记的荧光集团→暴露3'端羟基→再加入新的dNTP和新酶→再次延长一个碱基→继续进行延长,不断反复这个过程。

在第一次 read 读段结束后,我们就要开始进行 index 的读取。

index:

在文库的接头上做标记,样本特定接头上的特定序列标记了样本的来源

读index:碱解链read1DNA→加入中性液→加入read2测序引物(结合位点正好在index序列旁边)→进行2轮测序(一般为6到8个碱基)→了解某一个具体的一段DNA来自于原始的哪个样本

双端测序( Illumina 测序的另一个核心技术):一根DNA链正反向各读一遍,增加一倍测序的有效长度

四、数据分析

前面的过程产生了数百万个 reads,代表所有的片段。来自样本文库的序列通过在文库构建过程中引入的独特 index 进行分离。

对于每个样本,具有相似延伸的 base calls 会被聚类。正向和反向 reads 被配对生成连续序列。

这些连续序列与参考基因组进行比对,用于突变识别。

一二三代测序对比

1.基因组学(核酸序列分析)

(1)全基因组测序(WGS)

(2)全外显子组测序(WES)

(3)简化基因组测序(RRGS)

①RAD-Seq

②GBS

③2bRAD

④ddGBS(也就是ddRAD)

作用:

(1)基因组作图(遗传图谱、物理图谱、转录本图谱)

(2)核苷酸序列分析

(3)基因定位

(4)基因功能分析

其它:

以全基因组测序为目标的结构基因组学

以基因功能鉴定为目标的功能基因组学

2.转录组学(基因表达分析)

(1)mRNA-Seq

(2)IncRNA-Seq(长链非编码RNA)

(3)sRNA-Seq(主要是miRNA-Seq)

作用:

(1)获得物种或者组织的转录本信息

(2)得到转录本上基因的相关信息,如基因结构功能等

(3)发现新的基因

(4)基因结构优化

(5)发现可变剪切

(6)发现基因融合

(7)基因表达差异分析

3.蛋白质组学

(1)蛋白质组数据处理、蛋白及其修饰鉴定

(2)构建蛋白质数据库、相关软件的开发和应用

(3)蛋白质结构功能预测

(4)蛋白质连锁图

4.代谢组学

(1)代谢物指纹分析

(2)代谢轮廓分析

测序技术

DNA序列表征:

A =腺嘌呤,C =胞嘧啶 ,G =鸟嘌呤 ,T =胸腺嘧啶,U =尿嘧啶,R = GA(嘌呤) ,Y = TC(嘧啶),K = GT(酮),M = AC(氨基),S = GC,W = AT,B = GTC,D = GAT,H = ACT,V = GCA,N = AGCT(任何)

一、Fastq & Fasta

Fastq格式:一种基于文本的,保存生物序列(通常是核酸序列)和其测序质量信息的标准格式,一般都包含有4行。

第一行:由‘@’开始,后面跟着序列ID和可选的描述,序列ID是唯一的;

第二行:碱基序列;

第三行:由‘+’开始,后面是序列的描述信息;

第四行:第二行序列的质量评价(quality value)。

举例:

@HISEQ:777:HCMCVBCX2:1:1101:4712:2186 1:N:0:TACTCCAG

HISEQ:仪器 ID

777:Run ID

HCMCVBCX2:FlowCell ID

1:The lane number

1101:流通池道内的tile号码

4712:瓦片中的集群的‘x'坐标

2186:瓦片中的集群的’y'坐标

1:成对的成员,1或2(配对结束或配对读取)

N:如果读取过滤,则为Y;否则为N

0:当没有控制位开启时为0,否则为偶数

TACTCCAG:索引序列

Fasta格式:

1:以“>”为开头,fasta格式标志。

2:序列ID号,gi号,NCBI数据库的标识符,具有唯一性。

格式为:gi|gi号|来源标志|序列标志(接收号、名称等),若某项缺失可以留空,“|”保留。

3:序列描述。

4:碱基序列,序列中允许空格、换行、空行,一般一行60个。

Fastq文件→Fasta文件

Linux命令

法1:sed '/^@/!d;s//>/;N' your.fastq > your.fasta

法2:seqtk seq -A input.fastq > output.fasta

FASTX-Toolkit

•一款用于处理Short-Reads FASTA/FASTQ文件的程序,里面包含了丰富的Fasta/Fastq文件格式转换、统计等命令。

http://hannonlab.cshl.edu/fastx_toolkit/

二、GenBank & EMBL

GenBank格式

以LOCUS和一些注释行开始。

序列的开头以“ORIGIN”标记,末尾以“//”标记。

EMBL格式

以标识符行(ID)开头,后面跟着更多注释行。

序列的开头以“SQ”开头标记,序末尾以“//”标记。

表1 GenBank & EMBL数据库格式的对比
表1 GenBank & EMBL数据库格式的对比

EMBL → Fasta格式转换(在线工具):http://www.geneinfinity.org/sms/sms_embltofasta.html

另外介绍一个常见测序文件格式解析的网站:https://genome.ucsc.edu/FAQ/FAQformat.html#format1

该网站包含了各种各样的测序文件格式说明,想了解文件格式各行各列的含义直接找它即可。

测序技术原理及常用数据格式简介

DNA 测序技术的发展:第三代测序法

测序发展史:150年的风雨历程

B站【陈巍学基因】视频集学习

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
机器学习-12:MachineLN之优化算法
其实很多时候应该审视一下自己,知道自己的不足和长处,然后静下来去做一些事情,只有真正静下来才能深下去,只有深下去了才能有所突破,不要被别人的脚步带跑,无论什么时候专而精更重要,同时我也知自己的不足,有点狂、有点浮躁、坚持自己观点喜欢争论、说话有时候伤人等等,但是我的优点也正在此(下面是05年9月份写的《自己-社会-机器学习》的一篇文章,虽然有点浮躁,但是值得我再去回顾):感觉自己成长了不少,不再抱怨,不再发脾气,不再那么要强,不再看重别人的眼光,更加注重自己的评价,开始接受一些事情,棱角开始慢慢圆滑,但是我了解自己,是绝不会消失,有些东西决不能随波逐流,社会锻炼了我们,最终也会将越来越好的自己放到社会中实践,这是一个无限循环的事情,最后的结果就是社会和我们都将越来越好,这也是一个漫长的过程,也需要充足的空间给我们释放,这就要看你的程序的时间复杂度和空间复杂度,这个好了,过程就会快一点,其实想一下,很多时候,我们就是在找一个最优解,但是社会的进步估计我们永远找到的也只能是局部最优了吧,也就是说在某个时间段我们尽最大可能想到的最好决策,至于全局最优解,这个问题还真是个无人能解的问题吧,马克思列宁提的共产主义可能就是我们最想要的那个损失函数的最小值,但是怎么能找到那个最适合的权重呢,来达到全局最优,值得思考?我们可能要像梯度下降那样了,慢慢的来调节权重,达到某阶段的最优,当然大神们都有自己的方法,这点不能否认,但是弯路是要走的,不如把眼光放长远,让我们一起期待。
MachineLP
2022/05/09
4440
机器学习-12:MachineLN之优化算法
一文概览神经网络优化算法
机器学习的优化(目标),简单来说是:搜索模型的一组参数 w,它能显著地降低代价函数 J(w),该代价函数通常包括整个训练集上的性能评估(经验风险)和额外的正则化(结构风险)。与传统优化不同,它不是简单地根据数据的求解最优解,在大多数机器学习问题中,我们关注的是测试集(未知数据)上性能度量P的优化。
算法进阶
2022/06/02
1.2K0
一文概览神经网络优化算法
Adam优化算法「建议收藏」
深度学习常常需要大量的时间和计算机资源进行训练,这也是困扰深度学习算法开发的重大原因。虽然我们可以采用分布式并行训练加速模型的学习,但需要的计算资源并没有丝毫减少。而唯有需要资源更少、令模型收敛更快的最优化算法,才能从根本上加速机器的学习速度和效果,Adam算法正为此而生!
全栈程序员站长
2022/09/16
9170
最全的机器学习中的优化算法介绍
在机器学习中,有很多的问题并没有解析形式的解,或者有解析形式的解但是计算量很大(譬如,超定问题的最小二乘解),对于此类问题,通常我们会选择采用一种迭代的优化方式进行求解。
大数据技术与机器学习
2021/04/01
1.1K0
最全的机器学习中的优化算法介绍
深度学习最常用的学习算法:Adam优化算法
听说你了解深度学习最常用的学习算法:Adam优化算法?-深度学习世界。 深度学习常常需要大量的时间和机算资源进行训练,这也是困扰深度学习算法开发的重大原因。虽然我们可以采用分布式并行训练加速模型的学习,但所需的计算资源并没有丝毫减少。而唯有需要资源更少、令模型收敛更快的最优化算法,才能从根本上加速机器的学习速度和效果,Adam 算法正为此而生! Adam 优化算法是随机梯度下降算法的扩展式,近来其广泛用于深度学习应用中,尤其是计算机视觉和自然语言处理等任务。本文分为两部分,前一部分简要介绍了 Adam 优化
用户1332428
2018/03/09
10.4K0
深度学习最常用的学习算法:Adam优化算法
深度学习优化算法入门:二、动量、RMSProp、Adam
本系列的上一篇文章介绍了随机梯度下降,以及如何应对陷入局部极小值或鞍点的问题。在这篇文章中,我们将查看另一个困扰神经网络训练的问题,病态曲率。
zenRRan
2019/11/19
2.7K0
深度学习过程中的优化算法
神经网络的训练过程实质是得到最优化目标函数的过程,常见的目标函数MSE Loss、Cross Entropy Loss、NLL Loss等,网络训练过程就是最小化Loss的过程。Loss可以理解为模型预测值与真实值之间的差距。一般这些Loss函数是凸函数,可以使用最优化的相关算法最小化Loss,具体包括随机梯度下降、共轭梯度下降、牛顿法、拟牛顿法等。归功于神经网络的backward过程,使得梯度相关的搜索算法得以应用。下面简单介绍神经网络训练过程的几种优化方法。 一.基本算法 一阶优化算法 1.梯度下降 假
CodeInHand
2018/03/26
1.1K0
梯度下降优化算法概述
感谢阅读「美图数据技术团队」的第 11 篇原创文章,关注我们持续获取美图最新数据技术动态。
美图数据技术团队
2018/09/18
8290
梯度下降优化算法概述
算法金 | 再见!!!梯度下降(多图)
今天把达叔 6 脉神剑给佩奇了,上 吴恩达:机器学习的六个核心算法! ——梯度下降
算法金
2024/06/19
1130
算法金 | 再见!!!梯度下降(多图)
《deep learning》学习笔记(8)——深度模型中的优化
https://blog.csdn.net/u011239443/article/details/80046684
小爷毛毛_卓寿杰
2019/02/13
9840
《deep learning》学习笔记(8)——深度模型中的优化
机器学习中的最优化算法(全面总结)
对于几乎所有机器学习算法,无论是有监督学习、无监督学习,还是强化学习,最后一般都归结为求解最优化问题。因此,最优化方法在机器学习算法的推导与实现中占据中心地位。在这篇文章中,小编将对机器学习中所使用的优化算法做一个全面的总结,并理清它们直接的脉络关系,帮你从全局的高度来理解这一部分知识。
算法进阶
2023/08/28
7130
机器学习中的最优化算法(全面总结)
深度学习: 模型优化算法
随机梯度下降法、基于动量的随机梯度下降法 和 Nesterov型动量随机下降法 彼此性能相近; Adagrad法、Adadelta法、RMSProp法 和 Adam法 彼此性能相近。
JNingWei
2018/09/27
8370
【干货】机器学习最常用优化之一——梯度下降优化算法综述
【新智元导读】梯度下降算法是机器学习中使用非常广泛的优化算法,也是众多机器学习算法中最常用的优化方法。几乎当前每一个先进的(state-of-the-art)机器学习库或者深度学习库都会包括梯度下降算法的不同变种实现。但是,它们就像一个黑盒优化器,很难得到它们优缺点的实际解释。这篇文章旨在提供梯度下降算法中的不同变种的介绍,帮助使用者根据具体需要进行使用。 这篇文章首先介绍梯度下降算法的三种框架,然后介绍它们所存在的问题与挑战,接着介绍一些如何进行改进来解决这些问题,随后,介绍如何在并行环境中或者分布式环境
新智元
2018/03/26
1.9K0
【干货】机器学习最常用优化之一——梯度下降优化算法综述
机器学习中常用优化算法介绍
作者 | Walker 编辑 | 磐石 出品 | 磐创AI技术团队 【磐创AI导读】:本文主要介绍了常用的一些机器学习中常用的优化算法。想要学习更多的机器学习知识,欢迎大家点击上方蓝字关注我们的公众号:磐创AI。 在机器学习的世界中,通常我们会发现有很多问题并没有最优的解,或是要计算出最优的解要花费很大的计算量,面对这类问题一般的做法是利用迭代的思想尽可能的逼近问题的最优解。我们把解决此类优化问题的方法叫做优化算法,优化算法本质上是一种数学方法,常见的优化算法包括梯度下降法、牛顿法、Momentum, N
磐创AI
2018/07/20
9800
梯度下降法与优化算法
在机器学习和深度学习中,优化算法是训练模型的核心组成部分。优化算法用于调整模型的参数,以最小化损失函数,从而提高模型的预测准确性。梯度下降法(Gradient Descent)是最基本也是最常用的优化方法,但随着技术的发展,许多改进的优化算法应运而生,其中包括SGD(Stochastic Gradient Descent)、Adam等。本文将详细介绍梯度下降法及其变种,帮助你理解如何通过优化算法提升模型性能。
LucianaiB
2025/01/21
2690
各类的梯度优化
梯度下降是最流行的优化算法之一并且目前为止是优化神经网络最常见的算法。与此同时,每一个先进的深度学习库都包含各种算法实现的梯度下降(比如lasagne, caffe 和 keras的文档)。然而,这些算法经常作为黑盒优化程序使用,所以难以感受到各种算法的长处和不足。 本次分享旨在为您提供对不同梯度算法的直观感受,以期会帮助您更好地使用不同的梯度下降算法。首先,会罗列各种梯度下降算法的变种并简单地总结算法训练阶段的挑战。然后,会通过展示解决问题的动机和依据这些动机来推导更新法则,以介绍最常见的优化算法。本次也
计算机视觉研究院
2018/04/17
1.3K0
各类的梯度优化
机器学习 学习笔记(22) 深度模型中的优化
用于深度模型训练的优化算法与传统的优化算法在几个方面有所不同。机器学习通常是简接作用的,再打所述机器学习问题中,我们关注某些性能度量P,其定义于测试集上并且可能是不可解的。因此,我们只是间接地优化P,我们希望通过降低代价函数
2018/09/04
1.7K0
机器学习 学习笔记(22) 深度模型中的优化
【机器学习基础】 | 各种梯度下降优化算法回顾和总结
论文标题:An overview of gradient descent optimization algorithms 原文链接:https://arxiv.org/pdf/1609.04747.pdf Github:NLP相关Paper笔记和代码复现(https://github.com/DengBoCong/nlp-paper) 说明:阅读论文时进行相关思想、结构、优缺点,内容进行提炼和记录,论文和相关引用会标明出处,引用之处如有侵权,烦请告知删除。
统计学家
2021/10/11
1.6K0
深度|梯度下降优化算法综述
该文翻译自An overview of gradient descent optimization algorithms。 总所周知,梯度下降算法是机器学习中使用非常广泛的优化算法,也是众多机器学习算法中最常用的优化方法。几乎当前每一个先进的(state-of-the-art)机器学习库或者深度学习库都会包括梯度下降算法的不同变种实现。但是,它们就像一个黑盒优化器,很难得到它们优缺点的实际解释。 这篇文章旨在提供梯度下降算法中的不同变种的介绍,帮助使用者根据具体需要进行使用。 这篇文章首先介绍梯度下降算法的
智能算法
2018/04/02
7040
深度|梯度下降优化算法综述
机器学习中的最优化算法总结
对于几乎所有机器学习算法,无论是有监督学习、无监督学习,还是强化学习,最后一般都归结为求解最优化问题。因此,最优化方法在机器学习算法的推导与实现中占据中心地位。在这篇文章中,SIGAI将对机器学习中所使用的优化算法做一个全面的总结,并理清它们直接的脉络关系,帮你从全局的高度来理解这一部分知识。
SIGAI学习与实践平台
2018/08/24
6.6K0
机器学习中的最优化算法总结
相关推荐
机器学习-12:MachineLN之优化算法
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档