前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Day7-学习笔记(2023年2月4日)测序

Day7-学习笔记(2023年2月4日)测序

原创
作者头像
用户10954357
修改2024-02-04 22:38:27
3330
修改2024-02-04 22:38:27

今日学习解决问题

1、怎么区分一二三代测序

2、二代测序大体流程

3、NGS组学都包括哪些分类(粗略)

illuminate二代测序 原理及大体流程

原理介绍视频:https://share.weiyun.com/5qojuBY 密码: 密码:bxsry4

文章《测序的世界》:https://www.jianshu.com/p/101c14c3a1d2

技术原理:可逆终止的、荧光标记的dNTP,边合成边测序

流程(4步):样本准备,簇生成,测序,数据分析。

一、样本准备(Sample Prep)/文库构建

DNA文库:

定义:其实就是许多 DNA 片段,在两头接上了特定的DNA接头,形成的DNA混合物。

特点:中间插入的 DNA 序列是各不相同的;而两头的接头序列是已知的,且是人工特地加上去的。

制作方法:先将DNA片段化,即把基因组 DNA 用超声波打断,打断之后在两端用酶补平,再用 Klenow 酶在 3’ 端加上一个A碱基,再用连接酶把特定接头(adapter)连上去,连好接头的这堆DNA混合物,我们称之为“文库”(library)。

接头(adapter):

样本准备方法有很多种,不过所有的制备方法都会在 DNA 片段的末端加接头(adapter),以便它们能够和测序流程中所需的引物和平台兼容。

接头是一系列特定的寡核苷酸序列,它们在测序的不同阶段发挥关键作用,通常包含以下内容:

①P5 和 P7 适配器序列:这些是 Illumina 平台上使用的两种常见适配器。P5 适配器位于测序读取的一端,而 P7 适配器位于另一端。在测序时,flowcell oligo 会与 DNA 片段上的 P5 和 P7 适配器序列结合,使 DNA 片段固定在 flowcell上,从而允许进行测序反应。

②DNA barcode 或 index 序列:DNA barcode 也称为 index(复数为 indices),是一个独特的短序列,用于将不同样本标识,允许在同一测序流程中混合多个样本。这对于高通量测序非常有用,因为它允许同时处理多个样本,而不需要单独测序。

③PCR 引物结合序列:接头还包含用于引物结合的序列。PCR 引物是在扩增步骤中使用的特定 DNA 序列,有助于将 DNA 片段进行增加复制,使其在测序过程中变得更加丰富。

二、簇生成

簇生成就是每个DNA片段被扩增的过程。

为什么要扩增?

其实就是为了增强信号!单个DNA文库序列释放的荧光信号会很微弱,不容易被检测到,扩增后使得荧光信号被放大,更易被捕捉。不然为什么要叫 cluster 呢,因为发光的是一簇嘛!我们可以理解为一个簇对应 fastq 中一条 read。

簇生成的过程就在 flowcell(如下图)上:

Flowcell(流动池):

8条通道,lane的内表面→化学修饰→2种DNA引物(它们被种在 flowcell 的表面,也就是我们前面提到的 flowcell oligo)→与待测序DNA文库的接头序列相互补→通过共价键连到flowcell上防止被液体冲掉。

桥式PCR:

把文库种到芯片上去→互补杂交(文库两头的DNA接头序列与芯片引物互补)→加入dNTP和酶→产生新链→加NaOH碱溶液→DNA双链解链→原链洗去,留下互补链(因为原始模板链没有和芯片共价键连接,所以被冲走)→加入中性液体中和碱液→DNA上的另外一端与玻璃板上的第二种引物互补杂交→加入酶和dNTP→加碱→加中和液体→重复过程进行扩增

illumina采取了“一次加一个荧光碱基,用完失效”的办法。官网给出的解释如下图:【有没有感觉和Sanger的方法很像?illumina的测序就是在Sanger基础上加上了桥式PCR,能克服Sange低通量的缺点】

三、测序

边合成边测序

把合成的双链变成可以测序的单链→化学反应→切断一个引物上的特定基团(拿掉互补链的,使得互补链被切断洗去,仅留下正向链,即模板链,也就是目的片段。)→碱溶液洗芯片剩下一个链→加中性溶液与测序引物(带荧光标记的dNTP→3'末端被一个叠氮基堵住→一个循环只能延长一个碱基,聚合酶→选择与原来位置上碱基互补的dNTP)→用水把多余的dNTP和酶冲掉→放到显微镜下进行激光扫描→根据发出来的荧光判断碱基类型(4种dNTP)

一个循环结束后,加入化学试剂切掉叠氮基团和旁边标记的荧光集团→暴露3'端羟基→再加入新的dNTP和新酶→再次延长一个碱基→继续进行延长,不断反复这个过程。

在第一次 read 读段结束后,我们就要开始进行 index 的读取。

index:

在文库的接头上做标记,样本特定接头上的特定序列标记了样本的来源

读index:碱解链read1DNA→加入中性液→加入read2测序引物(结合位点正好在index序列旁边)→进行2轮测序(一般为6到8个碱基)→了解某一个具体的一段DNA来自于原始的哪个样本

双端测序( Illumina 测序的另一个核心技术):一根DNA链正反向各读一遍,增加一倍测序的有效长度

四、数据分析

前面的过程产生了数百万个 reads,代表所有的片段。来自样本文库的序列通过在文库构建过程中引入的独特 index 进行分离。

对于每个样本,具有相似延伸的 base calls 会被聚类。正向和反向 reads 被配对生成连续序列。

这些连续序列与参考基因组进行比对,用于突变识别。

一二三代测序对比

1.基因组学(核酸序列分析)

(1)全基因组测序(WGS)

(2)全外显子组测序(WES)

(3)简化基因组测序(RRGS)

①RAD-Seq

②GBS

③2bRAD

④ddGBS(也就是ddRAD)

作用:

(1)基因组作图(遗传图谱、物理图谱、转录本图谱)

(2)核苷酸序列分析

(3)基因定位

(4)基因功能分析

其它:

以全基因组测序为目标的结构基因组学

以基因功能鉴定为目标的功能基因组学

2.转录组学(基因表达分析)

(1)mRNA-Seq

(2)IncRNA-Seq(长链非编码RNA)

(3)sRNA-Seq(主要是miRNA-Seq)

作用:

(1)获得物种或者组织的转录本信息

(2)得到转录本上基因的相关信息,如基因结构功能等

(3)发现新的基因

(4)基因结构优化

(5)发现可变剪切

(6)发现基因融合

(7)基因表达差异分析

3.蛋白质组学

(1)蛋白质组数据处理、蛋白及其修饰鉴定

(2)构建蛋白质数据库、相关软件的开发和应用

(3)蛋白质结构功能预测

(4)蛋白质连锁图

4.代谢组学

(1)代谢物指纹分析

(2)代谢轮廓分析

测序技术

DNA序列表征:

A =腺嘌呤,C =胞嘧啶 ,G =鸟嘌呤 ,T =胸腺嘧啶,U =尿嘧啶,R = GA(嘌呤) ,Y = TC(嘧啶),K = GT(酮),M = AC(氨基),S = GC,W = AT,B = GTC,D = GAT,H = ACT,V = GCA,N = AGCT(任何)

一、Fastq & Fasta

Fastq格式:一种基于文本的,保存生物序列(通常是核酸序列)和其测序质量信息的标准格式,一般都包含有4行。

第一行:由‘@’开始,后面跟着序列ID和可选的描述,序列ID是唯一的;

第二行:碱基序列;

第三行:由‘+’开始,后面是序列的描述信息;

第四行:第二行序列的质量评价(quality value)。

举例:

@HISEQ:777:HCMCVBCX2:1:1101:4712:2186 1:N:0:TACTCCAG

HISEQ:仪器 ID

777:Run ID

HCMCVBCX2:FlowCell ID

1:The lane number

1101:流通池道内的tile号码

4712:瓦片中的集群的‘x'坐标

2186:瓦片中的集群的’y'坐标

1:成对的成员,1或2(配对结束或配对读取)

N:如果读取过滤,则为Y;否则为N

0:当没有控制位开启时为0,否则为偶数

TACTCCAG:索引序列

Fasta格式:

1:以“>”为开头,fasta格式标志。

2:序列ID号,gi号,NCBI数据库的标识符,具有唯一性。

格式为:gi|gi号|来源标志|序列标志(接收号、名称等),若某项缺失可以留空,“|”保留。

3:序列描述。

4:碱基序列,序列中允许空格、换行、空行,一般一行60个。

Fastq文件→Fasta文件

Linux命令

法1:sed '/^@/!d;s//>/;N' your.fastq > your.fasta

法2:seqtk seq -A input.fastq > output.fasta

FASTX-Toolkit

•一款用于处理Short-Reads FASTA/FASTQ文件的程序,里面包含了丰富的Fasta/Fastq文件格式转换、统计等命令。

http://hannonlab.cshl.edu/fastx_toolkit/

二、GenBank & EMBL

GenBank格式

以LOCUS和一些注释行开始。

序列的开头以“ORIGIN”标记,末尾以“//”标记。

EMBL格式

以标识符行(ID)开头,后面跟着更多注释行。

序列的开头以“SQ”开头标记,序末尾以“//”标记。

表1 GenBank & EMBL数据库格式的对比
表1 GenBank & EMBL数据库格式的对比

EMBL → Fasta格式转换(在线工具):http://www.geneinfinity.org/sms/sms_embltofasta.html

另外介绍一个常见测序文件格式解析的网站:https://genome.ucsc.edu/FAQ/FAQformat.html#format1

该网站包含了各种各样的测序文件格式说明,想了解文件格式各行各列的含义直接找它即可。

测序技术原理及常用数据格式简介

DNA 测序技术的发展:第三代测序法

测序发展史:150年的风雨历程

B站【陈巍学基因】视频集学习

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • illuminate二代测序 原理及大体流程
    • 一、样本准备(Sample Prep)/文库构建
      • DNA文库:
    • 接头(adapter):
      • 二、簇生成
        • 为什么要扩增?
        • Flowcell(流动池):
        • 桥式PCR:
        • 边合成边测序
        • index:
    • 三、测序
    • 四、数据分析
    • 测序技术
      • 一、Fastq & Fasta
        • 二、GenBank & EMBL
        领券
        问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档