首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >数据挖掘—NCBI中获取某基因序列和转录起始位点

数据挖掘—NCBI中获取某基因序列和转录起始位点

原创
作者头像
sheldor没耳朵
发布2025-05-26 11:20:41
发布2025-05-26 11:20:41
1K0
举报
文章被收录于专栏:数据挖掘数据挖掘

数据挖掘—NCBI中获取某基因序列和转录起始位点

记录下从NCBI数据库中获取某基因序列和转录起始位点,以MYC基因为例

1 基因序列

  • NCBI中搜到MYC基因,选择物种为人类。检索结果中包含MYC在基因组上的位置信息,知道位置其实就已经可以获取该基因的具体序列了
  • 点击选项,下拉页面到Genomic regions,transcripts,and product,点击Tools --> Sequence Text View可以看到具体的序列信息。橙色区域为CDS区域,可以点击Prev Page或Next Page找到第一个起始密码子区域“ATG”。MYC基因较为特殊,这里看到的第一个起始密码子是“CTG”。还需要注意目标基因是在正向链还是反向脸中。如果是反向链,则起始密码子是反向互补的“ATG”,即为"CAT",这样的基因需要逆向找转录起始位点
  • 找转录起始位点,若染色体上目标基因和前一个基因相聚太近,如只有几百bp,则需要这些序列都应该关注;若目标基因和前一个基因相聚很远,则只需要专注起始密码子前2000bp的区域(正向链基因)
  • 因为我这次分析只关注该基因的转录起始位点TSS和TSS前2000bp的区域,因此我选择了127,735,500~127,743,291这段区域。点击关闭“Sequence View”,点击“FASTA”,这里会显示目标基因所在染色体的部分序列。输入127,735,500~127,743,291,获取这段区域的序列
  • 下载的fasta格式文件,可通过snapgene打开进行更细致的序列探索
代码语言:r
复制
#序列涵盖
约2500bp ---- MYC TSS ---- MYC CDS----

2 转录起始位点确认

  • TSS和CDS的概念易混淆
    • Transcription Start Site,RNA聚合酶开始合成 mRNA 的第一个碱基在基因组上的位置,即TSS 是 mRNA 序列的第一个碱基
    • Coding DNA Sequence,编码蛋白质的起始(通常从 ATG 开始)到终止密码子的区域。在 mRNA 中,CDS 是从 真正翻译成蛋白质的地方开始的
  • 一个基因可以包含多个转录起始位点。在真核生物中,很多基因的启动子区域比较复杂,可以使用 不同的启动子(Promoters) 来启动转录,导致:不同的转录起始位点(TSS);不同的转录本(Transcript variants)产生不同的 mRNA 变体;
  • MYC基因包含多个转录本,如NM_002467 是 MYC 的主转录本,最广泛研究的版本;NM_001354870 是次要转录本,可能在某些细胞或组织中表达较高。NCBI中直接检索NM_002467,其第一个碱基的位置极为MYC的主要TSS,可在上述得到的MYC基因序列中检索部分序列,确定转录起始位点

参考教程:

https://www.bilibili.com/video/BV1fM411q7tV/?spm_id_from=333.1387.homepage.video_card.click&vd_source=7e83cb2510516bdff59ccf808d022aa0

https://zhuanlan.zhihu.com/p/605854452

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 数据挖掘—NCBI中获取某基因序列和转录起始位点
    • 1 基因序列
    • 2 转录起始位点确认
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档