数据挖掘—UCSC中获取某基因的启动子序列及基因结构剖析
关于获取某基因的启动子序列,我之前已经有两篇帖子进行介绍了,见
数据挖掘—NCBI中获取某基因序列和转录起始位点
MSP甲基化引物设计
最近遇到实验室的一个需求:CHIP-PCR验证某转录因子与JAK1、JAK2基因的启动子序列是否结合,并使用NCBI primer blast设计特异性引物。前期我们需要获取JAK1、JAK2基因的启动子序列。这里介绍使用UCSC获取启动子序列的方法,更为方便。
1.使用UCSC网站,点击Genomes,选择Human GRch38/hg38 ,检索基因
2.一般将转录起始位点(TSS)上游的2000bp左右作为启动子序列
- 正链基因及基因起始往前2000bp,如JAK2的基因位置为chr9:4,985,272-5,129,948,其启动子序列就为chr9:4983272-4985271
- 负链基因及基因往后2000bp,如JAK1的基因位置为chr1:64,833,229-64,966,549,其启动子序列就为chr1:64966550-64968549
在实际操作中,我们常常不仅需要需要知道基因的启动子序列,还需要知道哪边是与TSS更靠近的。如CHIP-qPCR实验前,使用JASPAR预测转录因子与某基因的启动子结合位点,我们肯定是优先考虑与TSS更靠近的预测结果。
- 正链基因是比较好理解的,肯定是启动子序列中右侧更靠近TSS。JAK2为例,4985271更靠近TSS
- 负链基因是较为难理解的,我到现在也比较模糊,竟然也是右侧更靠近TSS。JAK1为例,64968549更靠近TSS。关于这一点,chatgpt尝试向我解释,可能是是UCSC在输出序列时候做了相应的转换。
- 综上,不管是正链基因还是负链基因,UCSC输出的启动子序列都是右侧序列更靠近TSS。
- 在输出序列时候,我们可以既勾选“Promoter/Upstream by bases”,和“5' UTR Exons”,这样就很明显的看出,“5' UTR Exons”的区域都是在输出序列的最右侧,即可验证不管是正链基因还是负链基因,UCSC输出的启动子序列都是右侧序列更靠近TSS
3.复制全部序列,到一个TXT文本,再将文件后缀改为fasta即可
4.操作截图
5.基因结构剖析
一个基因在DNA上的基本结构
#一个基因在DNA上的基本结构
←---------------- DNA 5' 到 3' 方向 ----------------→
[启动子] --(+1 转录起始位点)-- [5' UTR + CDS外显子 + 内含子 + 3' UTR] -- [终止信号] -- [基因间区]
#转录后
DNA: [启动子] | +1 TSS |---5' UTR---|AUG|---CDS---|UAA|---3' UTR---|终止信号|
RNA: [转录产物 = 5' UTR + CDS + 3' UTR]
成熟mRNA: [外显子1][外显子2][外显子3] (内含子被剪掉)
- 启动子(Promoter):在基因的上游(即转录起始位点的前面)。RNA聚合酶和转录因子结合的区域,决定基因何时、在哪些细胞中、以多快的速率被转录。含有核心序列,如真核生物常见的 TATA box。有时还有增强子(enhancer)或沉默子(silencer)等调控元件。启动子不被转录成RNA,但决定了转录的开始
- 转录起始位点(Transcription Start Site, TSS):RNA聚合酶开始合成RNA的第一个核苷酸。
- 5' 非翻译区(5' UTR, 5' Untranslated Region):在转录起始位点之后、翻译起始密码子(ATG)之前。不编码蛋白质。调控 mRNA的稳定性、核输出、翻译效率。
- 起始密码子(Start Codon):翻译的起点,一般是 AUG(编码甲硫氨酸)。指示核糖体从此处开始将mRNA翻译成蛋白质。转录起始位点(TSS) ≠ 起始密码子(AUG),TSS 是 RNA 合成的起点(影响转录),AUG 是 蛋白质翻译的起点(影响翻译)
- CDS(Coding Sequence)外显子:被拼接进成熟mRNA并真正编码蛋白质的部分。在起始密码子AUG和终止密码子UAA/UAG/UGA之间。外显子(exon)是保留在成熟mRNA中的序列,但只有其中一部分是CDS区。
- 3' 非翻译区(3' UTR, 3' Untranslated Region):在终止密码子之后。不翻译成蛋白质。含有调控元件,如poly(A)信号(AAUAAA)。影响 mRNA 的稳定性、定位与翻译效率。
- 内含子(Intron):存在于基因转录本中但在RNA剪接时被剪去的序列。不编码蛋白质。可含有调控序列,影响剪接选择或转录调控。
- 外显子(Exon):保留在成熟mRNA中的序列。5' UTR 外显子,CDS 外显子,3' UTR 外显子,即,外显子 ≠ 全部都是编码区;有的外显子仅是UTR的一部分。
- 基因间区(Intergenic Region):相邻基因之间的DNA区域。不直接编码RNA或蛋白,常含有调控元件(如增强子、抑制子、lncRNA等)。
参考链接:
Chip实验参考:https://www.bilibili.com/video/BV14s421M7Wm/?spm_id_from=333.1391.0.0&vd_source=7e83cb2510516bdff59ccf808d022aa0
UCSC获取序列参考:https://www.bilibili.com/video/BV1U4UPYDETV/?spm_id_from=333.1391.0.0&vd_source=7e83cb2510516bdff59ccf808d022aa0
JASPAR预测转录因子结合参考:https://www.bilibili.com/video/BV1CvoYY7EEy/?spm_id_from=333.1391.0.0&vd_source=7e83cb2510516bdff59ccf808d022aa0
https://www.bilibili.com/video/BV1pqovY9Eiq/?spm_id_from=333.1391.0.0&vd_source=7e83cb2510516bdff59ccf808d022aa0
注:JASPAR预测转录因子结合参考中第二链接表达有误,JASPAR预测转录因子与某基因的启动子结合位点中,“+”和“-”皆可以