00:06
声音可以吗?声音可以吗?好了,我们就开始上我们今年度的一个课程了啊。首先呢,大家都报名参加了这次课程呢,首先第一步我们先看一看这个课表,大家先浏览一下。看这个课表的时候啊,我们先看这个单细胞的部分。大家可以看这个课程设置的一个情况啊,比如说第一节课。单细胞联合突变,哎,单细胞联合新板的这个VS体,其实就是单细胞联合可变检性矩阵。第三节呢,诶,单细胞是因为通讯VDZ和ATC。从这个单细胞课程设置的这个情况来看呢,我相信大家应该感觉到了。从目前这个分析的大背景而言,单细胞的唯一的一个矩阵就是大家经常玩的那个矩阵。
01:05
基因8扣的矩阵啊,已经很多人都会分析了。但是从现在分析的这个背景来看,要求大家在这个矩阵之上进行更多的一个扩展。首先看第一个就是突变信息,其实也就是突变矩阵,Velocity呢,其实就是可变剪切矩阵,而且可变剪切不止一个矩阵,它有3个矩阵。CV聚类呢,其实也是单细胞本身,它通过C因维分析呢,产生一个新的CV矩阵。通讯它其实会产生细胞交互矩阵,只是大家这个用大家用的比较多了。所以在分析上呢,嗯,在这个系列课程的重要性没有那么高,至于VDG和A泰克,那是另外的主学了。也就是说从单细胞的角度而言,现在要求大家学会多矩阵联合分析啊,就是要整合不同数据来源的一个信息。
02:00
呃,后续的空间课程呢,就不必多说了,空间自带多主学性质。首先呢,空间空间,哎,自带的这个图片信息。它就是一种主角。在生物学上有一个很重要的一个分支啊,就是这个影像主学,它包括了我们的空间主学这个he切片。它在这个肿瘤早筛啊,以及病理等方向的研究啊,等方向的应用啊,非常的广泛。这是他的第一个主学。第二个主学呢,是它的就是大家常见的那个基因八扣的矩阵啊,和单细胞营养基因8g的矩阵,只不过空间上的这个八扣的。不代表单个细胞。而是代表某个区域。这个也是大家玩的最多的矩阵啊,各种利用单细胞的方法,降维聚类,差异负极等等等等啊,虽然用的方向用的有点偏,但我估计大家认识这个矩阵应该是最深的啊。第三个矩阵呢,就是大家如果用这个精度比较低的这个空间,比如说vim,通过单细胞空间联合呢,会产生一个第三个矩阵。
03:05
这个矩阵呢,就是细胞巴克的矩阵。细胞8个的矩阵,也就是特定区域还有某些细胞类型的一个组成的矩阵,这个在研究细胞生态位以及细胞供定位领域的方向诶,有非常重要的应用。第4个矩阵呢,就是单细胞,呃,就是那个空间转录组,经过CUV分析的CUV空间矩阵。这个在研究肿瘤细胞的时空演化以及发育方向有非常重要的应用啊。当然了,后续还有更多的矩阵,比如说大家通过负极打分产生这个空间负极矩阵。这个矩阵呢,单细胞也会有,但是相对于空间没有那么重要。大家听过我去年系列课程的时候就会发现啊,空间有一个很重要的分析,就是细胞类型和呃,通路负极结果的一个共定位分析。也就是说,它通过细胞巴克的矩阵和通路巴克的矩阵两个矩阵的联合分析。
04:00
得到了细胞和通路之间的一个共定位关系,以此来表证细胞之间的一个呃,生物学的变化。哎,这个就是时代的大背景,要求大家呢,通过诶会整合多方面来源的一个信息,无论是单细胞还是空间,这是时代的大背景啊。那么在这个大背景之下呢,我们就要开始我们本次第一节,呃,本次系列的第一次培训课了啊。啊,我已经要开始录屏了啊。首先我们来看这个单细胞和突变,呃,联合突变的一个信息分析。单细胞的介绍呢,其实已经不用我再读书了啊,大家应该玩的都比较多了,关于它这个原理,比如说它是微流控原理,通过捕获这个商品末端或者5撇,呃,前端的一个捕获方法,通过基因比对拿到基因表达,举基因表达矩阵。
05:02
然后接下来大家就各种的哎,降维聚类差异负极细胞定义注释。然后轨迹通讯等等一通分析,其实所有的分析啊,大家都可以发现,都是在这一个基,在这一个矩阵的基础上进行的。对吧。啊,这个矩阵呢,已经分析了很多了。从这个实成官方统计出来的结果来而言啊,光单细胞的文章啊,就是实诚自己统计的官方发布的超过6000篇。它实际它还有很多没统计的,预计会过万,当然这只是10成的平台,还有其他的平台,像BD啊这种,还有国产的像徐音啊,新能源自带的这种单细胞平台,这样的文章加起来预计不会低于2万篇。可见这种单细胞的分析啊,已经非常普遍化,深入化,而且现在单细胞做一个样啊,如果大家用国产平台的话,最低可以下到四五千。
06:00
呃,单细胞的话,如果他呃公司不拆分试剂的话,应该是18000,但是现在基本上都拆分,所以是1万左右一个样本。嗯,现在已经普遍化了。嗯,当然从单细胞这个捕获原理上来看,大致分为两类,一类就是这个微粒控。这个大家都知道,就是时成的那个技术,另一类就是那个沉降法,就是细胞通过裂解液裂啊,悬浮成单细胞,哎,只有落体到一个孔里面,这个是BD的一个方法。像国产平台的话,国产平台你像新格元,新格元现在基本上是国内单细胞的第一把交易啊。嗯,他的一个自自己研发的一个单细胞平台,就是这个。啊,自己研发的一个平台就是这个,嗯。自己研发的这个平台,基本上就是类似于BD的那个原理。而且单细胞从这个文章统计来看。啊,新能源本身已经发了将近1000多篇文章。
07:00
还有另外的像巡音啊,自带的一个。嗯,还有像寻音自带的一个平台,它既有微流控,也有这种沉降法啊,也做的还可以啊。嗯,当然其中也会提到华大,华大之前的一个平台呢,它的单细胞的一个技术原理呢,是依靠重力。呃,大家都知道那个单细胞微流控是油包水通过电,呃,插电的这种方式,用电力推动这个细胞流动啊,细胞和血液流动,这样的话会稳定一点,但是之前华纳推出了那个。推出了那个依靠重力的那种方式来形成这个有保水结构,事实证明这非常的差啊,所以华纳最近也更新了自己的技术,也采用微流控技术啊,啊,然后这是单细胞的一个研究现状啊。那么关于突变分析呢,可能如果大家一开始接触的是转录组,接触的是这个。啊,比如说这个单细胞一开始上来就是转录住各各个方向吧,对于突变信息分析的话,可能了解的比较少。
08:04
这个方向呢,大家还是要稍微了解了解的啊。我们稍微的简单的介绍一下关于突变的演化的一个过程。大家都知道,上个世纪末,也就是1985年的时候,提出了人类基因组计划,呃,人类基因组计划呃,1990年开始实施。到2005年发布,总共呢,经历了15年,发布了第一张人类全基因组图谱。啊,其中呢,有一个非常伟大的,我们国内呢,有一个非常棒的公司就是华大啊参与了其中。我们人体大概有多少个碱基呢?30亿个。1%是多少,3000万啊3000万,所以当时华大承接了3000万的这样一个体量。大家别小看只有1%啊。其实从这个。这是这是有和没,这是有,这是有和没有的关系,知道吧。
09:01
嗯。正因为华大参与了这个计划,所以我们现在下载各种参考基因组啊,都是免费的,大家从NCB随便下载啊。然后这个第一类,呃,第一代基因组,呃,测序呢,拿到第一个全基因啊,人类的全基因组头骨啊,现在已经体现了它巨大的一个威力了,然后在基因诊断呀,产前诊断啊等等方向已经有了巨大的应用,包括现在大家做单细胞,做各种空间下载那个HG38基因组也是由这个演化而来的。啊,期间呢,有一个小的问题是什么呢?就是说在上个世纪末本世纪初的时候,第一代基因组测序的技术,我不知道大家还记不记得。还是那种双脱氧式的,就是双第一代测序,桑格测序那种方法。我看到这个方法从现在的角度来看啊,非常的落后啊,非常的落后,导致了第一代人力基因组很多区域是没有测到。比如说每个染色体的开始部分以及端粒,端粒区域。
10:02
等等等等,导致没有抽到,而且在2000年左右的时候,美国的一家,哎,美国的一对夫妇。诶,美国队的夫妇采用了,呃,更新了这个测序技术,采用了二代测序,也就是现在大家常用的这个呃二代测序,诶,他的测序技术比一代测序要快得多。所以呢,在2000年的时候,哎,这对夫妇呢,成立了一家公司,也开始对人力基金组进行一个。呃,测序由于它采用了新的技术,速度相当的快啊,所以说它很快就要在抢在各个政府联合之前,要发布这个人类第一套基因组。嗯,然后各个政府就出面干预,说哎呀,我们这是人类共同的财富啊,我们不要把这个私有化啊,因为一旦私人发布,就会有专利权的问题啊,就会私有化啊,一旦这对夫妇抢先发布,那专利权就归人家了。政府的努力啊,什么都打了水漂了啊,正是因为政府出面协调啊,所以第一套人类基因组这个图谱呢,就免费公开发布了。
11:03
大家可以随意使用啊。这是一个第一套人类基因组。啊,我不知道大家对这个人类基因组有没有概念。从这个业绩啊,如果大家是这个行业内部的人,应该明白,我们每个人啊,现在公认的有3套金子。第一套基因组呢,就是刚才讲到的这个基因组计划。啊,其中呢,就提到了关于这个技术革新的问题,一开始呢,我们,呃,由于拥有这个双坡氧测序。所以很多区域测不到,所以才有了这种不同版本的更迭,现在呢,大家做单细胞应该大部分用的是HG38这一套基因,但是在往前之前呢,现在的外显子以及突变这一类啊,大部分就是国内大部分还是采用HG19这个基因组。HG19基因组相对于HG38其实缺了很多区域啊,但是外形的区域基本上都是一样的,所以还可以用啊。这个就是大家看到的一个注释文件啊,HG19HG38,其实在HG19之前还有更低版本。
12:05
也就是说基因组也是在不断的往前发展的,目前我们还没有真正的做到对一个人的全基因组的全序的进行一个撤离,还是测定了大家常见的一些呃区域,像一些特有区域也测不到,比如说端粒。啊,这个区域的序列啊,目前还是个谜啊。最新发布的版本是这个这个版本。啊,目前已经公布了一段时间了,已经开始在临床啊,包括比对方向开始运用了它测序的一个内容啊,就更加全面了,拿到了一个非常好,呃,非常完整的突破,但是这个基因组也没有达到说哎,把人类基因组都都给测定啊。然后右边是一个这个发展历程啊,大家可以看一下,通过这种测序仪的一个发展历程,到了2020年的时候。才有了这个整体的一个技术的一个发展。
13:00
啊,正是因为有有了这个人力全基因组图谱啊,所以才这个基础之上。呃,有了更多的一个技术,比如说像哎可变剪切技术,包括这个定点消除技术,各种各样的技术都涌现出来啊。包括一八年啊,一几年的时候有一个好像是南方有一位教授吧。说是对人类的胚胎进行基因消除,可以防止新生儿不得艾滋病,然后违背了伦理道德,然后进了监狱,住了几年之后,现在好像又出来去哪个大学当老师去了啊。其实这些技术啊,虽然技术上都很先进,但是我们用的人也要保,也要秉持一个良好的道德观啊。这是人类第一套基因组。前面的。啊,但是人类第一套基因组啊,能解决我们大病是基因疾病上的问题,但是我们人体啊,还是有很多疾病是无法通过基因组上的事儿来解决的。啊,慢慢的让人体也慢慢越来,呃,越来越意识到我们人体其实是和。
14:02
人体是一个混合体。我们人体不止有这个哺乳动物细胞,也有这个微生物细胞。呃,而微生物和我们人呢,就存在着一种哎,很强的这个。怎么叫啊,这种叫这个共存关系。从我们人体的,从我们人生下来那一刻起啊,各种各样的微生物就占据了我们身体的全部啊。在我们身体内各种地方占地盘啊,其中最主要的地方集中在哪儿呢?集中在我们的口腔。啊,呼吸道,肠道啊,尿道啊,当然对于女性来讲,还有阴道。啊,大家都知道,我们人的细胞啊,就是人的正常哺乳动物细胞,正常表达的基因大概在3万个左右啊,3万个左右啊,当然这是基因的总量啊,基因的总量具体到某种细胞类型没有这么高。
15:23
啊,大家稍等啊,等2分钟啊出去一下。
19:39
这个矩阵呢,单细胞也会。啊,其中呢,我做不到。
29:35
嗯。
38:40
没有啊,没有啊,稍等一下啊,还能听见吗?啊。
39:18
嗯,好,我们继续啊,继续。啊,不好意思啊,刚才那个。刚才有人跟我聊,跟我谈这个。山西省研究员的事啊。哦。啊,不好意思啊不好意思,刚才有人打电话进来跟我,就是山西省要建这个国家级实验室,给我打电话,问我这个有没有兴趣进去当研究员的事儿,啊不好意思啊,聊了几分钟啊,不好意思。好,我们继续啊,我们继续继续讲我们的人类第二套基因组,大家能听见吧。哎,可以吧。
40:04
好,呃,关于我们人类第二套基因组啊,哎,这是业界公认的是微生物基因组,哎,刚才提到了我们的这个肠道啊,口腔啊。哎,刚才提到了我们的菌群啊,包括肠道啊,口腔啊,鼻炎啊,呼吸道啊,这个泌尿道啊,皮肤啊等等,这是我们的人类第二套基因组,大家都知道,在我们人体的这个哺乳动物细胞啊,大概表达3万个基因。呃,三维基因啊,是总量,其实具体到某种细胞类型的话,其实没有那么多,大家看那个单细胞那个web summary以及这个。或者空间那个web summary的时候,就会发现基因中位数也就是一两千,两三千的样子。啊,虽然说单细胞技术是一种drop sick的技术,也就是说丢信息的技术,即使我们乘以2。
41:01
啊,也不会超过5000,也就是说对特定的细胞来讲,也就表达几千个G。像有的细胞类型表达的更少,像中性粒只表达几百个G。对吧,所以我们呃,细胞的总量是3万,那么微生物呢?微生物在我们这个体内表达的基因数量超过300万。数量极其庞大。而且从微生物的这个总量上来看。啊,也是非常庞大的啊,在这个漫长的过程中呢,我们的这个人类的基因组和微生物的基因组已经发生了这种千丝万缕的一个关系,微生物在呃和在我们体内和我们共存,它会生成很多我们人体需要的物质。哎,和我们的身体形成了一个呃,很好的一个良性循环,在微生物的一个世界里,它叫做微生物稳态,这个稳态是和我们人体细胞的一个稳态,微生物的但凡有一点变化,都会引起我们人体细胞的一个表达上的一个变化,也就是说我们会感知到微生物的一个变化。
42:05
这是我们微生物常见的一个几大分布,这在业界啊,啊,也是个以分到非常一个重要的一个方向,像国内的话有一家公司啊,当然这个微生物研究的少啊,我只听说过一家公司叫金史医学,它主要做红基因组的,就是人体微生物的啊,北大才女蒋志开的一家公司啊,大家可以了解一下。啊,微生物另一个体现啊,当然微生物和我们有很多重要的一个联系。呃,举个例子就是说,比如说女性在怀孕的时候。呃,女性怀孕的时候,她那个胎盘就是肚子内部会表达很多微生物才有的记忆。哎,就是说它会表达一些经验啊,是微生物来源的。哎,才会让我们孩子顺利的在胎盘内健康的成长,等等等等啊,等到我们一生下来,各种各样的微生物占据了我们身体的几乎全部,开始圈占地盘,而且微生物很守规矩。
43:04
什么样的种类去什么样的地方它不会乱去啊,一旦我们一旦这个微生物去到了他不该去的地方,就会引起身体的反应,嗯,不知道大家有没有跟我一样的,就是在之前呢?十几二十周岁的时候呢。嗯,喝饮料就是饮料,大家经常喝饮料,我也经常喝,喝饮料的时候呢,之前是没有任何事情。但是现在这个年龄,哎,三十三十岁。哎,一喝饮料就拉肚子。啊,说明了什么?说明了这个微生物啊,那说明喝饮料啊,影响了体内的微生物的稳态,导致了微生物闹情绪,哎,身体就有反应。啊,说明随着我们人体的增长啊,我们人体的微生物种类啊,也在不停的发生变化啊,这是我们第2套微生物第2套这个。啊,建筑。其中第2条基因组啊和我们的疾病主要体现在什么样的地方呢?
44:00
第一种是这个呼吸道疾病,呼吸道疾病,比如说肺炎,支气管炎,呃,各种各样的炎症。第二种呢,是这个像我们肠道菌群的疾病啊,也有各种各样的疾病啊,当然还有其他的像这种鼻炎,咽炎,喉炎等等。这就是微生物跟我们的一个关系啊,大家一定要重视啊,一定要重视这个地方,尤其是口腔,口腔微生物呢,是一个重要的学科,现在经常大家会看到各个地方有这个口腔医生,对吧。也是一个很重要的一个方向啊,大家的口腔的一些健康问题呢,都和微生物有关。
45:05
然后就是前两套基因组,前两套基因组啊,目前来讲都没有研究明白啊。都还没有研究明白。都还没有研究明白啊,但是呢,问题会随着呃,各种各样的疾病啊产生。尤其是到了这个人种的问题。不知道大家今天以前听那个营销号,不知道有没有经常啊说啊说什么啊,我们秦朝人有个人叫徐福啊,带了五五百童男童女东渡日本去了啊就是说是呃,徐福是日本人的祖先对吧。啊,或者说什么印第安人是这个中国殷商族的一个后裔。以前在没有人类,呃,以前在没有基因组这个呃,这个技术的时候啊,无法证明,大家听诶半信半疑,但是有了这个基因组计划之后呢,就可以证明这句话是不是真的,但是光靠前两套基因组是无法证明的。
46:04
呃,这就引出了我们第三套这个人类基因组,这个第三套人类基因组和我们人类的多样性有关,明白吧。就是说我们同样都是人类,比如说我和在座的各位,虽然都是这个人,但是我们在这个基因组上还是有很多不一样的地方。啊,举个简单的例子,比如说有的人啊,非常能喝酒啊,有的人却不行,为什么?啊,有的人却不行,为什么?说明在基因组上还是有或多或少有一些差别。也就是认为这些位点的差别呢,所以说全国呀,各个地方的组织就兴起了第三套人类基因组计划,由这个我们国家,包括美国、英国共同发起了第三套人类基因组的这个测序计划,被称为千人计划。虽然说是千人计划,但实际上已经远远不止1000人了。张老师。那个PPT没了。
47:01
没了吗?看不到吗?对对对,看不到。只能看到您的那个桌面。啊,现在能看到吗。喂,可以了,可以了吧。可以了,哎,这就是第三套人类基因组啊,第3套人类基因组计划。啊,大家静音一下啊,第三个人类基因组计划,主要是和人种有关。主要是和人种有关,比如说都是中国人,我们有一些固定的位点,呃,是我们中国人独有的啊,像比白人啊,黑人也都有,这些问题的根源来于就是在做肿瘤的时候,如果用一种药物,会发现不同的人类啊,对这种药物的反应不一样,有的人可以治愈,有的人却没有,没有效果,为什么?就说明我们人类有一些基因上还是有些不同。
48:03
呃,经过检测呢,哎,发现人类的基因组有一种特性叫做核苷酸多态性,也就是说某一个位点的突变啊,不同人种是不一样的啊。呃,这是人种的标识,包括人与人之间也有一些,呃,基因上的不同,这种不同呢,在这个外显子基因组上的一个。测序的一个名词叫SNP,或者叫那个SNV,就是核苷酸多态性啊,举个简单的例子就是血型。比如说我们人类的血型由ABO三个基因决定,由此形成了大家A型,B型呃,O型这样的一个血型,或者AB型这样一个血型,也就是说基因组上会有一些些不同啊,这个不同的位点大概有多少呢?就是说核苷酸多态性的位点大概有多少呢?超过300万,也超过300万啊,也就是说大概的,呃,刚才提到了人类的核苷酸总共有多少个呢?30亿个,其中有300万个核苷酸,多态性大概是多少呢?1‰。
49:06
也就是说,我们人与人之间大概有1‰的不同啊。正是为了测定这个1‰的不同呢,所以才引起了第三套,呃,第三个人类基因组计划。这个进度计划呢,从当年110年之后开始提出,到哎,我们现在其实各个地方都已经实行了这样一个计划,由本来的千人,哎,现在到不止都不止几十万人了啊,一直在不停的丰富,通过这种不停的测序呢,哎,把各个人种的突变位点。哎,又包括这个它的一些常见的人类基因分型啊等等都拿到了。啊,就刚才提到的一个问题,徐福是不是日本人的后代呢?经过第三套人类基因组的判定,认为中国人和没有和日本人没有多大关系啊,包括什么美印第安人是印商人的后裔,这也没有多大关系啊,从基因主义上来讲,两者是完全独立的人种。明白了吧,所以这些营销号大家听听就好,不要太过于相信啊。
50:05
呃,了解这个的最重要意义是什么呢?一个就是了解基因型和表型的关系。哎,比如说某种靶向药物吃了之后对百种人有效,对黄种人却没效,到底是哪个基因的位点导致了对基因的这个不同反应呢?哎,通过对这种第三道人类基因肉计划的测定就会发现啊,针对不同的人种应该开发不同的药物。这是第三套人类基因组的初衷。嗯,在这个基础之上呢,就会演变出很多哎,很多不一样的一个地方啊,智山在很在这个大概10年前吧。有个很火的概念叫基因身份证。呃,也就是说我们通过对人体的核苷酸多态性位点经过一个测定,哎,告诉大家应该怎样合理的生活,比如说饮酒。哎,有的基,这个基因哎,控制了我们饮酒的一个酒量,哎,大家可以看到它的基因型呢,如果是一型的这种,哎适量饮酒,一二型的呢,最好是不要饮酒。
51:07
啊,二二型就是绝对滴酒不沾啊,所以周围的人如果劝大家说喝酒可以练出来,从基因组上说是不可以的啊,这种多态性导致他们的酒量这个。决定了你的酒量啊,为什么有的人可以练出来呢?是因为我们对酒精的这个承受度开始。提升了,就像大家大家对痛觉的提升,一开始。啊,掐你一下疼的很受不了,但是掐的多了,发现也就那回事儿,只是对它的耐受性变高了啊,伤害还是一样的,掐你一下你还是会留下一块淤青啊,所以说呃,经营身份证的初衷呢,是非常好的啊,非常好的,但是呢,副作用也非常的大。呃,大到什么程度呢?就是大到大家无法想象。举个简单的例子啊,比如说通过精英身份证,一个男性。
52:00
告诉你。啊,你的后代最多能长到1米6。哎,这一下子就完蛋了是吧?跟我一样就开始打光棍生活了,但是这是基因决定的,不是他能够决定的啊。呃,对于男性的影响可能还没有那么严重,对女性的影响就更加的庞大了啊。呃,从这个自然属性而言,从这个自然属性而言啊。呃,女性更应该是保护的一方。这也是我们男性应该尽的责任啊。啊,当然我这里指的是自然属性啊,这就是我们的第三道人,呃,第三代人类基因组,每个人的都有,呃,一些不同和观这个多态性导致的。嗯,其中有一个概念不知道大家听过,生物导弹的概念,我估计大家都听过,就是靶向治疗的那种,通过这种定点的一个针对肿瘤细胞可以靶相应的治疗,呃,消灭肿瘤细胞,这个大家听过,不知道大家听过生物炸弹没有?举个例子,比如说我对某个人种开始研究,发现它都有一种固定的基因位点,SNV位点。
53:07
哎,我作为敌对方,是不是可以针对这个位点做一点什么呢?对不对,这就会形成一种生物炸弹的概念,就是灭族式的这样的概念。所以说这个新基因身份证也没有很大的推广啊,副作用其实大到大家无法承受啊。嗯,讲到这里呢,基本上大家对这个概念啊,有一定了解之后呢。接下来就要跟我们的研究有关了,前面提到的一些突变,呃,比如说呃,多态性位点,哎,是大家正常存在的一些位点。呃,这个在专业的术语里面把它叫成胚系突变。非气突变呢,其实就是我们每个细胞都带有这样的一种突变。啊,这个突变呢,只会干扰我们的生活习惯,比如说不要喝酒,或者喝酒的影响有多大,或者说不要抽烟,哎,你抽烟很容易得肺癌,别人抽烟可能,哎得肺癌的概率不大等等,只是影响我们生活的一种习惯,但是有一些突变是后天的。
54:07
这种后天的突变啊,就会导致肿瘤的发生。这个就和我们外显子以及单细胞研究开始相关了。大家都知道我们人类啊,其实没有一个人拥有什么完整的基因,呃,完美的基因组是没有的,大家基因组上多多少少都有一些缺陷啊,比如说有的人长得低,有的人长得丑啊,其实都更多的是基因啊,如果更多的是基因主张决定的啊,但是有一些,但这些呢,不影响我们健康成长,但是有一些这个突变啊,就会形成肿瘤,这种肿瘤呢,就是基因组上发生了一些异常的突变。啊,这些图片导致了这个细胞失控啊,无限的扩张自己,呃,挤压我们其他组织细胞的一个生存空间,导致形成了这样一个肿瘤。这种突变呢,是后天获得的,只在我们部分细胞中有啊,谱系突变呢,是胚系突变呢,是我们所有细胞都有的这样一种突变。
55:03
然后这样的话就会形成我们的这个肿瘤,目前从肿瘤的调查来看,我们身体的各个部位都可能发生肿瘤,大家可以看一下。包括脑瘤间胶质瘤啊咽呃这个什么各个方面肺癌呃,那个胰腺癌,各个方面都会发生肿瘤癌症啊。正常的过程呢,大家可以看一下,从正常到开始癌变,癌变前阶段多久呢?10~30年,也就是说,癌变前阶段细胞开始发生癌变。这个过程我们身体还处于一种耐受阶段,虽然它癌变了,哎,但是我们可以承受它,因为它影响还不大。但是一旦发生这个癌症开始,嗯。真正肉眼可见的时候,说明已经晚了,哎,我们已经无法控制它了,它就会开始侵袭我们各个部位,导致了这个癌症癌变的一个发生。所以说现在在外显子以及这个。
56:02
啊,癌症预防方面啊,国家投入了大量的精力,大家可能听过一个方向叫肿瘤早筛,哎,就是在这个10~30年,在他没有一个明显的变化的时候,及时预,及时的预测它的一个变化,呃,从而提供。早期的一个防治啊。然后这就是突变的一个整体的一个过程了,等到这个突变来到我们单细胞数据的一个情况上来看,哎,就是这样一种变化,突变会影响肿瘤的发生,哎,肿瘤又会肿瘤和微环境呢,又会产生,哎相互作用同时会导致呢这样一个。形态区的一个变化。这个呢,就是文章中常见的一个,呃,就是最孝发表的这个文章的一个图,我把它截出来,大家可以看一下,通过从单细胞体来看它这个突变的一个情况,比如说他测的是QRG12D的一个突变,来看它整体的一个细胞分布,以及它对微环境,哎,对这个发育各方面的一个影响。
57:08
啊,这篇文章呢,我之前发给发给发给过大家啊,发给过大家,大家可以回头简单的看一下,大家首先看它的一个研究部分,首先呢,通过L就是肺癌的一个样本,肺腺癌的一个样本,哎,通过这种单细胞测序啊,这些分析大家都应该都常见过,比如说像这个细胞组成啊,轨迹分析啊,包括它这里面还做了一点空间啊,包括单细胞的一个技术,其中呢,它用到这个单细胞的本身的测序数据呢,产生了这个突变信息。像KS一级、F2M mett三个基因,如果大家对肿瘤研究相呃有点熟悉,或者说在临检公司待过的话,呃,这三个基因应该都很熟悉啊,像koss基因是典型的肿瘤抑制基因啊,它的突变会导致对肿瘤对细胞的监测。啊,我们都知道细胞有些啊,我们我们都知道我们体内的细胞是无时无刻在发生的,不是一直在发生的癌变啊,但是呢,我们身体有清除机制哎,它一癌变就把它清除掉了,导致我们整体的健康的一个成长,其中起监测作用的诶KR就是这样其中的一个基因,EGFR是什么基因呢?EGFR是生长表表皮生长因子,嗯,癌症不停的复制自己,肯定就要需要大量的一个,像呃,包括细胞膜呀,细胞器啊,都会需要大量的一个。
58:30
叫什么磷酸二酯化法的这些材料吧,而EG f2的突变,哎,就会源源不断的提供,哎,通过利用这些材料合成自己啊,这是一个原癌基因,它的突变会形成肿瘤,Mett呢,也是一个原癌基因啊,它的突变也会形成肿瘤。这是一个哎研究的一个方向,大家可以看一看,通过对不同哎基因突变的一个研究,诶,发现它整体的一个。PC轴,PC轴大家可以理解为生物学的一个主要特征,哎,会发现明显的一个变化。
59:04
啊。大家为知道为什么要选择这几个基因吗?因为这几个基因是癌症啊,常见研究的这几个基因啊,包当然还有其他的像kit啊等等,也有其他的一些基因啊,但是QS,包括ER BB two EG FR met呃等等这些基因是常见的一些肿瘤研究基因啊,肿瘤常见的研究基因也就那么十几个啊,大家如果做什么肺癌的panel啊,或者说做这个肿瘤panel啊等等,现在最大的panel也就是1000多基因。常见的是108和180基因,其中呢,都包括这几个基因。哎,通过这种研究突变呢,大家可以把这种突变投到你的技术分析上研究,比如说这个轨迹分析。轨迹分析呢,如果说我们没有突变信息,我们只知道它在这个地方发生了这个分化作用,哎,分成了两支,分成了两支之后呢。
60:00
大家可以看到分化后的,呃,细胞类型的分布,哎,或者说通的变化等等,但这个地方它加上了这个突变的信息。突变是基因组上的事儿,它会起到决定性作用。大家可以看到,这个分化的。诶,分化的根本原因就在于它基因组上发生了这个突变,KS发生了这个突变,才导致细胞朝呃朝两个方向开始分化。啊,引起了整体的一个不同啊,然后这是空间的一些内容啊,空间的内容它只是仅仅是做了一定的展示啊。归根结底呢,还是在他研究单细胞突变的时候的一些内容。接下来呢,大家要看一看关于他突变的一个研究的一个方法了啊,这篇文章的很多公众号都发布过,但是说他具体研究方法的时候好像很少有啊。这个地方。Mapping cares twelve mutations. 也就是说,这个基因。
61:03
第12位的突变,哎,它是如何检测的?大家都知道,这个单细胞测序只能测到98BP啊,虽然说我们测序液都是PE150,但是我们只能,呃,真正的基因组片段只有98BP。如果说QS这个基因呢,哎,它只测第12位的一个突变。嗯,测三撇端肯定是不可以的,三撇端它可能是末端,比如说一个基因,它是500的长度,我们只能测到有效98的话,最有效的距离也就是402~500之间,对吧,这样的话会前面的信息都会停掉。啊,但是为了能测到这个,呃,前端的一些突变呢,他这个作者呢,就故意采用了五撇端的一个技术啊,这样的话就能测到0~98的一个范围。刚好覆盖了它这个突变。哎,这是单细胞技术测序的一个特点啊,它虽然测不到全长,但是对前端呃,开始段和末尾段的突变,它是可以测到的啊,因为基因组上的突变,它最终会反映到转录组,进而影响到蛋白的结构。
62:14
然后呢,他就会拿着这个基因的突变,哎,单细胞的这个,呃,BIM文件,单细胞的这个BIM文件进行一个突变的一个比对。比对之后呢,大家可以看一下啊。MP这个指标是什么意思呢?Mapq在单细胞的web summary上有一个mapq,就是比对质量的意思,呃,当然在这个外显子上也有一个比对质量啊,Mapq=255呢。认为是一个无效race。等于255是一个,还有PCR重复或者map,我map是什么意思呢?就是说同一个序列,比如说都是这个98PB的一个序列,它比对到了基因组上的两个位置,他认为这个位置也是无效的,这个在半文件里也会把这个这种的情况标记为零。
63:13
哎,大家要明白啊,这个和那个255和0是两个概念啊,在这个BA的一个就是BA文件的定义的时候。质量值是0~60。0最差,60最高啊,一旦是255 255只是一个占位符,表示这个位置完全没有用,0是代表它比对质量很差,比对了多个位置,这是两个概念啊,就和大家说0°C和没有温度,这是两种概念。明白吧?然后最后导致的突变呢,用这个IGVIGV是个可视化的一个软件,它会告诉你这个突变,呃,这个。地方发生了一个突变,通过这种可视化的软件监测出来。然后为了估计这个VF,就等呃等位基因频率,呃等va等位基因,这个frequency等位基因的频率呢,他把这每个细胞。
64:07
哎,他把每个细胞的这个半,他把每个细胞的瑞字啊,单独的抽出来。Were felt extract do you and fell, 我站就这个,就这个方法。哎,有没有量量了,就是瑞子数啊,就是测序到的睿兹呢通呃,把每个细胞的睿智都给抽出来了,也就是说大家拿到单细胞的比对文件,有一个半文件,里面包含了所有细胞的比对信息。哎,作者呢,把每个细胞的BA文件都抽出来了,也就是说如果测了一万个细胞,会形成1万个小的bam文件,通过这个bam文件呢,进行一个比对,当然它是用IGV看的啊,呃,专门看这个QS是否发生了G12D的突变,从而把这个突变。
65:00
归类到是否在单个细胞上发生的这样一个突变,也就是说会形成单细胞突变矩阵,然后对单细胞突变矩阵进行和单细胞表达矩阵进行了一个联合分析。拿到了上游的这些结果,就会拿到上游的这些,无论是大家降维聚类还是做轨迹分析的时候,单个细胞由于有了突变的信息,就把它放进来了,无论是PCA分析,哎,也有突变的一个方向的差异。还是说轨迹也有这个突变的一个啊,突变方向的一个内容啊。这是文章最大的一个创新点啊,也就是说从单细胞的角度来看这个突变的一个信息啊。这个地方呢,为什么要强调这一点呢?因为其他的内容可能创新性哎呀没有那么强,但是因为他把这个单细胞级的突变带进来之后,这是首创的。之前没有这样的文章。而且。呃,像wes基因组上测序的突变都是一种混合状态,类似于报那种测序的混合状态,像单细胞级的一个突变呢,哎,目前只找到这么一篇啊,而且发的很高,这是一个新的一个分析方向啊。之前在。
66:16
呃,之前在这个一九年,我参加工作一年之后吧。哎,我当时的领导他就开发了这样一个方法,当时就有一个现成的方法了啊,但是呢,没有引起重视,就是因为怀疑他测序长度不够。呃,质检这98BP,还有就是转录组上的图片是不是可信的问题等等等等,就暂时搁置了,呃,现在呢,这篇文章出来之后呢,又把这个方法又重新提出来了,事实证明是可信的啊,是可信的。啊,从这个文章角度来看,确实是可行,因为基因组上的突变会反映到转录组上,转录组上突变呢。哎,才会引起蛋白结构的一个变化啊。这是关于突变的一个整体研究,和目前文献的一个研究方法,大家可以看到关于单细胞突变的这个分析啊。
67:07
嗯,研究的还不是很深,只是把它当成一种额外的信息,反映到我们单细胞基础之上,因为研究的人少,所以他这样做就已经是创新了,等到大家拿到不同的样本的时候,其实把这个信息简单的进行一个单细胞呃的一个投射关系,呃,就可以拿到一些很好的结果啊。呃,当然了,针对这个呢,慢慢的也就开发了一些好的方法,其中呢,关于这个S,呃,S NP light呀,之前我提过很多次了,嗯,也写过几篇推文啊,但是我发现啊,大家还是用的,我觉得用的还是不太不太熟练啊,不太熟练。我们来简单看看这个方法,这个方法方法部分写的非常详细了,但是我觉得很多人看了这个还是不会用啊,还是不会。喂。你有啥事儿,我有,你有啥事儿。
68:03
啊,有人在说话吗?你是那个?怎么穿这衣服?喂喂。嗯,关于这个SSN,呃,S s NP light呀,它这个方法呢。官网介绍的已经非常详细了啊,但我觉得大家用的时候还是或多或少会有一些问题啊。安装部分我们就不看了,我们主要来看它的一个,呃,解读部分,也就是示例部分大家可以看到。这个方法呢,提供了提供了4种模型。一种是呃1A1B2A2B吧,然后呢,SNB是否需要呃人为提供,前两种是需要人为提供的,后两种是它自动检测的。呃,EA的模型呢,适合这个实成的单细胞技术,包括DNA技术和a tag技术,像EB的模型主要是Bo和smart这种技术,当然我们大多数应该,如果大多数采用的话,应该采用EA这样一个方式。
69:13
包括L2A 2A的话也是主要针对时尚的技术,哎,2B是采用这个smart和book这个技术。其中有一些注意的地方啊,大家需要注意,第一个EAEB,它需要人为给定这个SNP的一个信息,嗯,这个呢,它提供了一个额外的一个候选的SNP。如果大家了解过的话,应该明白这个金道麦的呀,是人群频率数据库,也就是说这个突变在人群中有多大的频率,举个简单的例子,就是说像ABO血型这样的,比如说A。人群频率80%啊B10%I10%,就是说这个基因位点在人群的突变频率有多高。千人计划这个基因呢,也是一些正常的人突变的一个频率。
70:00
这个时候大家要注意了,大家在研究突变的时候,往往以肿瘤居多啊,肿瘤居多,这个在运用的时候呢,就会呃,用这种正常的突变。给定到它这个候选的SNP的话,它这个软件啊,会自动的把其他的一些图片给过滤掉,也就是说它会限制在你给定的这个SNP这个范围之内。这个呢,其实不是我们想要的那种效果,我们希望在单细胞基础之上,把所有的突变都找到,我们自己人工拿到所有的信息来进行一个筛选。这是EA模式,EA模式并不是非常适合我们的模式啊。然后接下来是2A模式,2A模式呢,它虽然不用给定参考基因组了,但是大家也要注意啊。二维模式呢,它其实是用这个,比如说它检测到一个位点的一个不同。他会把这个不同的位点的位置进行统计。比如说。
71:00
有的地方是A,有的地方是T。A的睿置呢是100个,T的睿置是20个,他认为A睿置多,那么A就是正常的一个refer,就是呃,基因组上正常的一个位点,而T是因为突变的一个位点,这种方式对不对呢?呃,其实,呃,其实也其实从这个外显子的一个角度来看,也有一定道理,但是并不能保证完全的对。比如说大家是纯肿瘤样本,它的突变呢,是一半对一半,那么哪个是哪个是变化的呢?就不知道了。所以说2A模式呢,它虽然可以找到所有的信息,但是我们需要一个参考,告诉他哪个是正常,哎,哪个是非正常的。这是2A模式,当然提供了2A模式的一个序列,但是2A模式也不是非常适合我们的。这就是EA,呃,我们用到的两个模式,1A和2A,这两个模式如果大家不改动照抄的话,其实拿到的信息都是有些缺陷的啊,有一些缺陷的,我们真正要做的是什么呢?真正要做的是第一。
72:12
拿到所有的图片信息。第二。给他一个正常的参考基因组,告诉他哪个是正常的一个rap。所以在运行的时候啊,大家要看看一些参数的变化,比如说它这个。哎,他提供了所有的参数。S就是大家的一个BIM文件啊。其中呢,呃,参数大家可以看看,其中有一个重要的参数啊。Tag m count m VF.其中有一个最重要的一个。哪儿去了?M.杠F哪儿去这个?这个就是我们需要额外提供的,它能够识别哪个位点才是正常位点的一个重要信息了。
73:05
也就是我们用单细胞比对的那个参考基因属啊。参考基因组,呃,这个参考基因组呢,大家下载石城官方的那个HG38基因组就可以了啊,比对的时候把这个参数给上。就可以了,所以我们正确的做法应该是什么呢?正确的做法是什么呢?首先我们来看看这个软件啊。大家装好之后呢,直接运行这个软件就会给到大家,诶固定的一个参数,比如说杠S,就是大家要指定你的单细胞的BIM文件。呃,大S呢,就是一个BIM文件的list,也是多样本运行啊。它可以多样本运行,大家如果靠多个样本充电还是可以O是这个。呃,输出路径啊,Region VF-r region VF, 也就是说有人为要给定VF,这个我们人为不要给定啊,人为不要给定,我们希望拿到全部的信息啊,这些都是一些基本的参数,其中有一些参数啊,大家需要了解一下,包括基因型。
74:08
大家知道突变正常啊,2条大家都知道,我们是2倍体生物。突变通常只发生在一条链上。呃,因为我们的基因型啊,不是两条链,不是一个基因,两条链上都表达,是其中一条表达,另一条被沉没的发生癌变,只有活性的那一条发生突变,才会引起我们的肿瘤发生,所以说我们的基因型一旦发生癌变,就是零一型。如果没有发生MS00就正常的是00型啊,如果发生了两个以上的图片,01型,02型这样的一个排下去。然后还有一些正常的一个参数,比如说啊,这些是和计算机有关的参数啊,杠F就是需要我们需要指定的一个。哎,参考金组啊,参考建组。还有染色体,染色体我们一般不用设它,它默认就是人,因为肿瘤研究一般都是人类啊,研究小鼠的已经很少了,其他物种的几乎没有啊。
75:01
然后是m count m AF, 诶这些参,这些参数大家要了解,M count就是说最小的count数。默认是20,这个大家不要动啊,这个值是合理的命VF呢,如果大家没有研究过,就才就拿到全信息就可以了,把它设置成默认值就是0,如果大家有一些特定的研究,比如命为f v ma, 哦,M maf出错了。最小的maf次等基因频率。哎,等位基因频率等等这些概念呢,大家了解之后呢,可以对它进行进行设置啊,一般我会设成0.1。所以正常的做法是什么呢?第一,我们指定我们的单细胞bam文件。第二呢,指定我们的。单细胞的一个8扣的就是样本文件,细胞的那个8扣的文件,这个文件哪来的呢?就是大家单细胞的三个矩阵中的那个8扣的文件。输出路径。
76:00
P呢是那个,刚才提到了P是这个。和计算机有关的一个参数,和多线程有关,大家这个和大家的计算机性能有关啊,大家机性能好的话多设点,性能差的话少设一点。呃,跟运行时间有关啊,多的话运行时间短一点,像民营AF呢,我一般会设置成0.05,它会。呃,这个呢,大家如果不知道设多少就不要设啊,就是0。它默认也是0,这样的话会拿到全,呃,突变信息,Count是100,这个我为了是运行快啊,只作为一个例设置了,设置成了100,就是说要达到100个瑞,100个count以上才会考虑它的突变信息,这个是为了节省时间的啊,大家平常跑的时候不要设这么高啊,Zip文件就是这个。哎,压缩文件F就是我们的参考基因组啊。这个参考基因组呢,大家下载10成的就可以了。
77:00
嗯,你像我这个就套用了10成的,本身下了10成的话,就会形成这样一个这几个文件夹。哎,我就套用了他的啊。这就是它的一个参考精度序列了,包括fast的A格式以及five格式啊。然后基因tap,基因tap就是刚才提到的有一条突变和另一条未突变的话,就会是零一型,两条多突变是一一型啊啊,更多的突变一型二型等等排下去就可以了。然后通过这样一个运行命令呢,不知道大家性能怎么样啊,如果跟我一样计算机性能大概运行5个小时就可以了啊。大概运行5个小时就可以了,然后大家会拿到以下信息。这个就是我们的8库的信息。MTX的这个格式大家应该不陌生吧?不陌生吧,单细胞的三个文件,那个矩阵也是MTX加上两个TSV文件啊,形成了这样一个矩阵文件,因为它这个呃,稀疏性比较强,所以它存啊,用这种方式存储啊,大家可以看一下这种格式是什么。
78:12
哎,就是这样一种格式指标几位点,哎,第几个位点,是否有这个有效信息啊。然后关键的地方来了,关键的地方是这两这个这是这两个GZ文件啊,我们把它解压出来,大家看看是什么什么样的一个格式啊,这是标准跑出来的一个结果啊,大家可以看一下。VCF文件格式不知道大家以前提,呃,以前知道没做过外弦子分析的应该都很了解啊。这里面呢,提供了一个。三个重要的信息,一个是DPDP,大家看看是什么?Total count out和rap,也就是说突变和未突变的睿总共有多少个DP就是deps depth, 呃,PTH deps那个单词的缩写。Ad呢?Ad是total kind of out, 就是说正常的一个位置有多少?DP呢?是正常的加突变的位置总共有多少啊?
79:05
OTH呢,就是说总能count for other base, 就是其他剪辑的所有的啊,然后呢,这里面有一种,呃,这里面是典型的VCF格式啊。染色体哎,它在哪个位置上,它在1号染色体的这个位置上。ID呢,就是说ID是相当于一个标志符啊,通常是没有的,只有大家在注释的时候才会有。A由A变成了g filter呢,就是说这个突变是否可信,如果可信的话是pass啊。英分呢,就是说刚才提到的那3个信息,就把这3个信息列在这儿了。哎。Ad是169,就是说out变化的瑞子呢,一共有169个。呃,变化的加这个refer参考的,呃,总共有三百七三百四十七课OTH呢,就是说total rate for other base from art, 就是其他的减这个图,这个睿置上有没有其他变化呢?也有也有一个啊。
80:01
我们最主要的关心是什么呢?一个是这个突变,Ad的突变。就是有多少个突变了,169说明有160几个细胞发生突变了,一般因为我们都知道细胞是单倍体。只要是他有一个突变,后面跟着转录组都是突变的啊。然后有347个细胞,总共有347个胞检测到了这个位置啊。当然大家有没有发现这个问题啊,什么问题呢?就是说它依然是这个染色体位置。啊,ID啊,突变啊等等,它并没有反映到我们想要的那种结果上,什么结果呢?就是我们想知道这个位点。哎,对应的到底是。呃,哪个大哪个基因呢,对吧,是不是基因发生了改变呢,对吧。这个时候啊,不知道大家有没有会这个外显子的啊。如果会外迁使的话,这个nova ova啊,这个软件大家应该都很熟悉吧。
81:04
Nova是一个专门的VCF注释软件,它就是要告诉我们这些突变位点到底属于哪个。到底属于哪个这个。呃,基因以及它是否引起了氨基酸的变化,大知道密码子翻译成蛋白氨基酸的时候呢,有的时候是多对一的第三位密码子具有滑动性变化了,可能蛋白质水平没有变化,其实是没有效果,这个时候呢,哎,我们需要注释一下。就是这个nova啊,Nova.啊,这个软件呢,如果做过外显者相当熟悉啊,它相当于什么,相当于这个单细胞的threat,那个软件是一个标配啊。然后呢,我们会下载一定的参考基因组啊。大家要注意啊,我们单细胞比对一般都是HG38基因组,所以大家在下载基因组的时候,呃,下载这个注释文件的时候,一定要选用HG38的这个版本,这个版本呢,就会把这个参考基因组的注释信息都给下载了,当然我这里只下载了这个。
82:02
啊,蛋白基因注释信息,当然还有其他的很多的数据库啊,像什么。Clean, 我啊。Interval cosmic啊等等,对位点会进行更多的注释,来告诉你这个位点是否有害。这里面呢,我们就简单注释一下,看看它诶是否引起蛋白上的一个变化啊,这边脚本我已经诶写好了,首先呢,这个是主脚本,这个主脚本呢,是这个软件自带的,大家下载下来就会有。嗯,黑DB呢,就是要大家指定好自己数据库所在的一个路径。你像我就在这儿有HD38的注释路径,呃,注释文件的路径放在这儿,然后运行也很简单,它也是和刚才s like s NP一样的一个效果啊,呃,通过这个CSNP传参式的一个。注释就可以了,我们的这个参考基因组38版本。啊,这是我们的这个文件,就是刚才这个VCF文件拷到的突变文件,然后我们的数据库等等等等,我们需要注释的地方就是refer基因,对基因进行注释啊,当然如果有高手可以把cval啊,Cosic啊等等都放进来。
83:10
啊,比如说大家举个简单的例子啊,数据库很多,数据库很多啊,这里面就不多演示了,但是大家可以要了解一下这个东西。比如说这个。啊,数据库非常多,比如说网cos,呃,这个DBSNPS3,华为HMD等等,它这就是都是一些数据。告诉你这个数据库是否是,呃,它会注释到这个位点是否是有害或者是良性的。刚才提到了第三套人类基因组,不同的人类,它有超过300万的一个突变位点,这些位点呢,都是良性的,正常存在,在人体也不会引起危害。所以说在比对参考基因组的时候呢,这些位点突变是正常的。
84:01
啊,这里面提一个小知识是什么呢?就是说呃,单细胞在比对的时候啊,不是说98BP得完完全全的比对到基因组才算是有效的啊,它允许一个碱基的错配。啊,正是因为考虑到了人人体的这个多样性,不可能每个人基因组一模一样,所以才会存在这个有允许一定错配的现象啊,然后还有其他的像各种各样的数据库,大家都可以丢进来,然后进行注释啊,这里面为了方便我就注释一个基因啊。脚本大概是这样写就可以了。嗯,主脚本数据库的路径等等,HG38构建的啊,当然这些数据库是H19构建的啊,大家可以看到啊,版本一定要对应啊。我们直接运行一下啊,这个单纯的注释基因组非常啊,单纯的注释基因是非常快的啊。我们稍等一下,稍等一下呢,拿到他这个注释结果,大家看跑完了,这样注释结果就拿到了,我们看看这个注释的一个信息啊。
85:10
这个就是刚才呃,单细胞的一个半文件注释的一个信息,大家可以看到,哎,染色体start and就是刚才那个P问点reference是A导体G导A,它的顺序是一一对应的啊。一一对应的,比如说刚才我们参与这个软,呃,我们这个文件。他的第一个是他。对吧,那我们注册文件第一个也是它。这个时候呢,就会告诉你,哎,这个地方是不是基因。这个基因是什么?它位于。U tr5区,U tr5区就是五端的一个前面的一个区域,说明这个地方啊,还有一定的这个。呃,启动指之前的一个区域。启动子之前那个区域,然后我会告诉你。这个地方诶发生了怎样一个突变,是否引起有害的一个变化等等,然后呢,如果是编码区的话。
86:01
啊,当然无撇端处于非编码,它就会告诉你氨基啊,氨基酸核苷,这叫核苷酸的一个变化啊,如果说处于编码区,它会告诉你这个位点是否是引起了一个。蛋白质上的一个突变。比如说像这个啊,哎,这个位点,哎发生了这个外显子好啊,然后有这个基因上,这个外显子上发生了突变,它会告诉你这个突变是哎非同一突变引起了这个。这个基因呃,转录本是他在外显子二号上。引起了这个S83N这个突变。嗯,但是大家这个也要注意啊,这种突变往往是无效突变,为什么呢?刚才提到了,我们的检测范围只有98BP,也就是说它正常的检测氨基酸的范围不应该有这么远。所以说这种图片呢,一定要慎重选择,回头一定要看看啊,但是大部分的图片呢,大家可以看到注射到的都是这种短距离的图片,就是近距离的图片,像P47KR。
87:04
哎,就是这个范围内的突变了,这种突变就相当可信了啊。像这种同一图片的大家就不用看了啊。T变成T也没有意义啊,关键是这种非同一突变的,哎,引起这种这种你比如说P4G4A蛋白质水平上发生氨基酸发生改变的,往往就会引起我们蛋白结构构象的一个变化。这里面还有一个很有意思的现象,就是关于大家在做这个单细胞基础分析的时候,有一个配受体分析或者其他的分析的时候,如果说这个蛋白质发生了突变,导致了它的失活,比如说配里基因失活了。那么从基因组的角度来看,也就是说拿到这个文件来看。那它这个配受体,那它这个通讯效果是0。但是呢,如果仅仅看单一的转录组,比如说我只看单细胞,因为细胞有负反馈调节,它表达这个配体基因的时候,如果细胞发现永远一直达不到他想要的那个强度,它会更多的表达这个配体基因。
88:06
也就是说,从转录组水平上来看,他会发现这个基因水平变高了。哎,通过这个什么简单的呃,平均值相乘就会发现,哦,原来它这个通路水平变高了,这样的话就会得出相反的结论。就是说从基因组,从蛋白构象上来看,其实它已经失效了,没有任何效果,表达再多也没有用,但是从单细胞只看单细胞转录组水平来看,又会告诉又会说,哎,它的这个通路水平加强了。这就是为什么现在大家做这个单细胞数据分析了半天之后,一定要你补这个实呃实验。补这个就是临床,呃,补这个实验,为什么要补实验的一个重要的原因,也就是分析的转录组水平上的一个分析,尤其是抗的水平上的分析,具有很大的一个局限性啊。大家可以看到很多这种图片啊,都在我们的检测范围之内,嗯。看到这个。当然这里面呢,我只是注射了一个库,大家如果有什么clean库啊,这个地方会告诉你它是有害还是没害等等等等啊。
89:07
这个大家回头可以自己研究一下,把这个基因的有害性也给它注释出来。一旦发现这个位点有害。那大家就可以把这个信息啊,放到自己的单细胞上分析了,很多老师呢,在分析的时候呢,经常会说,哎呀,我关注某个基因啊,这个基因的通路和什么非常有有这个呃,是我关注的一个通路啊,或者怎样的,这个时候如果仅从转录组蛋白水平的,就是转录组水平count一个水平上分析,局限性很大,这个时候呢,大家就可以把这个突变信息给它放进来。比如说这个基因,哎是我关注的基因,哎,我来看看从单细胞水平上发现有这么多突变,对吧?哎,我来注释一下,如果说GC是一种正常的突变,我就把它不考虑它了,如果它有很多这种异常突变,比如说S4CP会影响蛋白的活性,无论活性变高还是变低。都是一种新发现啊。这是蛋白注释的一个内容。
90:09
保存啊,不保存。我们拿到这个结果之后呢,呃,大家应该注意到了,这只是对突变的一个注释信息啊,就是说注释到这些位点是否是引起蛋白构象的变化,以及甚至更深入一点,大家可以看它是否有害。但是呢?我们现在还没有拿到单细胞级别的矩阵。对吧。我们希望从这个单细胞的水平来看啊。啊,就是说这个突变在哪个细胞里面,就是对应的八口的是什么,拿到这样一个矩阵,而不是光有注释信息,这个时候呢,我们就需要对它这个矩阵进行一个处理了啊。这个文件呢,就是刚才那个注释文件的一个,呃,VCF啊,VCF只是一个。
91:03
VCF只是一个数,呃,文件格式啊,大家有呃感兴趣的可以研究一下啊,接下来我们就要拿到这个,从这个单细胞的一个角度来看了。啊,我不知道大家习惯Python还是R啊,如果大家对这个Python和R都还行的话,Python更快一点啊。啊,加载这个PD啊。PD呢,就是常见的读取文件格式,不像RR直接读就可以了,但是Python需要加载一个啊。包括要加载这个,能够读取这个。诶读读取这个MTX这个文件格式的一个包,这个包呢叫SCIPY啊。点IO。SI.
92:00
哎呀。接着到我们选书要的包的时候呢,接下来我们就要读取矩阵了。Matix-data。等于sio.mmidread。读取我们的举证信息,这3个举证信息呢,大家根据情况读depth。DES, 刚才说了,哎,是覆盖局呢,包括了呃,变化和未变化的,我们这里面只读这个变化的呀,我们只希望得到变化的细胞是哪些啊?读出来之后呢。读出来之后呢,大家就可以看到的,这是一种矩阵格式,当时是一种稀疏矩阵,稀疏矩阵是什么意思呢。哎,就是说它会存在的,其实是一种格式啊,系数矩阵格式,它占的空间更小,如果大家想看其中的信息的话,哎,用命令做一下呢,To dance.Beon to dance, 大家就可以看到里面的举证信息了啊,这个时候呢,我们。
93:03
希望啊,他用一种我们更加常见的那种方式,像R那种方式,点一下就可以看的,这个时候呢,我们需要把它转换成数据框啊。比如说我们转换一下。哎,我们把它转换一下,转换成我们这个常见的这种,呃,类似于R的这种格式啊。哎,这个时候呢,大家看一下,就类似于我们这种常见的这个矩阵了,只不过这个矩阵啊,大家可以看一下,是没有行列名的,它的行名是什么呢?如果大家知道这个单细胞三个矩阵会单一处理的话,会明白列名就是我们的八口。行名就是刚才的突变信息啊,这个时候我们要把这个。8个的信息给他填上。
94:06
8g的信息呢,就是我们刚才指定参数会指定一个,就把单细胞那个8g的文件给到他就可以了啊,这里面也是一样的。钢铁。然后呢,这就是8g的文件。哎,这就是他的一个把口的信息了,我们来把这个把口的信息付给他,这个列名付给他。这个文件对啊。嗯,大家如果对R处理数据不太熟悉的话,哎,可以学习一下啊,像那个R语言啊,比如说取第一列,好像是比如说取第一列是吧。
95:07
逗号1就可以了,对吧,但是这样R,但是这样Python不同,Python如果取某一列用数字取的话,需要加上这个东西。如果是想取列名的话,就比如说现在我们拿到这个地方了啊,我写了2遍。哎,这个时候大家就可以看到这个列明了。对吧,页面拿到了行名是什么呢?行名是我们的突变信息啊,突变信息呢,刚才这个注释文件已经拿到了啊,对啊,这个注释文件有一个忘提了啊,有一点忘提了。我们再打开给大家提一下。大家看到有的时候啊,他这个注释文件有的时候。会写这个Dis,这个信息是什么意思呢?Dist呀,就是说它距离这个基因的位置,你比如说这个Dis的4,也就是说这个位点距离启动值有4个氨,呃,4个氨基酸的距离,呃,4个碱基的距离。
96:10
啊,也就是说启动值再往下后推4个,就是马上要转录翻译了,这个地方为什么会有这种现象呢?因为我们在大家都知道基因在翻译成转录组进行成熟的时候啊,还有无撇端要加帽子,商撇端要加poly a尾等等等等的,包括可变剪切等一些信息,这个时候呢,就会有一些突变发生在无列前端,影响它的一个转瘤翻译,所以在分析的时候呢,就会有出现这种现象,告诉你这个位点它处于基因的上游,距离这个基因的启动子有4个,有4个。啊,和家酸的距离啊。啊,一旦涉及到非编码区,或者说这个u tr3u tr5都会有这种现象啊。都会有这种现象,集中在甄别的时候,大家要有一定的甄别能力啊,像这种距离太远的,已经超出检出范围的,需要把它剔除啊。
97:04
好,接下来我们就是要针对列名了啊列呃针对行名了,行名就是我们的这个突变信息啊。我们来写一下a nova=PD.red-CSV啊。刚才我们注册的文件是他。钢铁。这个时候读取的行名,呃,读取的这个行名注释信息呢,哎,大家就读取到了。包括刚才大家所需要的看到的那个所有信息,其中我们行名的设置啊,有一定讲究,首先我们行名要知道什么。他们要知道这个,呃,它到底属于哪个基因吧,对吧。呃,属于哪个基因吧,以及他这的这个位点吧,Start就是它这个PRO是吧。然后呢,还要知道它是否发生了改变吧,如果没有发生改变的这种,我们就把它标注一下就可以了,但是发生改变的一定要强调出来,所以在写的时候呢,大家看着这个文件写啊,如果不熟悉的话,就看着这个文件写。
98:13
比如说我们需要知道这个位点,哎,它是哪个基因的。就这个基因的这一列对吧。哪个基因的哎,处于哪个位置,是否发生了改变,以及这个改变是否引起了氨基酸,如果想写氨基酸的变化就写,但是有的时候啊,它不在编码区,就没有这个氨基酸的变化啊,所以在写的时候啊,这个列名大家可以灵活设置啊,像这里呢,我就简单的写一下啊。比如说嗯,我就写这个。另起一列吧。Index等于。Index呢,就是我要准备给他设置的行名啊。等于nova它的。
99:00
这一列大家可以把它粘过来啊,这一列啊,首先我们要知道基因对吧。加哎,用这个分隔符呢,大家自己设置这个,我用点来进行设置啊。然后是它的一个位置,位置呢就是它的这个地方start和and,我们这里是start表示啊,当然大家可以把这个染色体信息也写上啊,比如这个基因位于染哪个染色体上,当然知道了基因之后,知不知道染色体已经啊作用不大了啊。包括这个。知道,我们要知道它的一个是否发生了一个变化,我们先写rap啊。I refer.加上第。然后再写它的变化的。
100:05
变化的,比如说它这个变化的out啊,我们写上。哎,这个地方,哎,我们先读取这个表,就会多一列啊,多一列多这个index列啊,我们来看一下这个index。这个dex列呢,就会有一些新的一个信息了。这个兴起的一列起到哪儿去了?不能写indexx吗?来换个名啊,我们写ID吧。嗯,ID, 嗯,就会有一些新的信息了,当然这比较乱啊,这个时候呢,我们把它把它复制成行,呃,把这个刚才那个单细胞矩阵啊,行名进行一个复制啊,这个赋值啊,不是复制用de就等于。
101:11
我们这里提到的ID了。哎,这个时候我们就拿到了完整的单细胞级突变矩阵。单细胞系突变矩阵啊。我们把它写出来,写出来呢,虽然说是这样写的啊。然后是我们写一个,这里面我就随便写了,但是大家要注意写法的一个格式啊,比如说你的样本名叫什么sample name啊,这个要写上,包括啊写这个是SNP对吧。S等于钢铁。把这个整个矩阵写出来啊,这个矩阵也非常大啊,和单细胞矩阵一样大。哎呀,这个时候呢,我们就拿到这个单细胞级别的一个突变矩阵了。放在了啊。
102:03
嗯。放在了这个relo下面,这个时候就拿到这个单细胞及突变矩阵了,当然我这个矩阵是为了演示啊,所以它的大小并不大,大家真正拿到那种上万级别的单细胞的时候,这个矩阵就非常大了啊,这就是我们拿到的这个单细胞矩阵。好,我们来把它下下来。这个矩阵就非常大了啊,大家看的时候尽量尽量啊尽量,哎哟,这个没有复制,对啊,把它还是整个都复制到啊复制到。不对啊,不对。怪不得这个地方有问题。
103:02
赋值的时候呢,大家要抽一定的信息啊,我这个抽信息的时候,他在赋值的时候会出现问题。比如说这个地方啊。基因加点加start加这个地方,呃,我们看一下啊,Not基因。不是,北京怎么有这么多信息啊?看来是有问题啊。我们以这个列名的取法啊,嗯。多好。第7类。我整个读取,看来一开始读取的时候有问题啊。这个难道不是杠T吗?
104:03
那是高铁。这个杠线呢,会有这个染色体信息位置信息,哎,Refer的图,呃,参考位点变化位点及这个读取的时候哪出错了。第一行第一列。没有。可以。嗯。Aooc.我们来取,这是第几列?第一列是染色体,第二列是位置,第三列是暗的位置,第4列是rap,我们来取一个rap试试。
105:01
嗯。还不能这样取。只能是这种取法。但是为什么取出来当然都是变成一样的格式呢,但是这个地方啊,确实是拿到了所有的突变信息了,需要把这个突变信息的矩阵啊,赋值给这个我们的矩阵,我们的矩阵在赋值的时候呢,大家要抽取有效信息,这个有效信息呢,因为这个有效信息它都放在了不同的地方,需要进行一个整合啊整合。整合啊。死了。64啊。看来Python还是用的不熟练啊,我们R试试啊。不用加载啊,不用加载。
106:09
S等于杠T。有。哦,明白了,哎呀,这个地方有一个小问题,就在于什么呢?它这个R的信息啊。他这个R的信息给付掉了。这是一个软件的一个自带的一个小问题啊。大家看到后几人没有列明。其实它是重复的信息,就和前面是重复的信息,它重复了一遍。比如说这个染色体1。呃,这个地方的信息哪来的呢?是这个地方。我们的VCF信息,嗯。
107:00
他多写了一遍,把这个信息附到后面去,把这个信息附到后面去啊。把这个信息放到后面去。当然这个信息已经,呃,我们已经不需要了,我们更需要前面那个信息啊。这个时候我们来。抽一下啊。哦。这个时候呢,我们只需要它的有效信息啊6不足。嗯。七八。今年软粉机啊,还差一点酒。
108:01
9拿到这个X软辅器。第10列是什么?我看一下。这16已经没有了。What is all?氨基酸软粉型式,这个是X啊,那就是我们要取前10列。哎,取前色列拿到这个氨基酸变化信息就可以了,到这儿为止啊,然后我们给他一个新的文件。这个文件命名的时候啊,大家要稍微的有点规律性啊,比如sample name, 这大家写上自己的名字啊,SNMP点。Tasty.呃,这个时候拿到这个完整版的一个,呃,就是呃算是一个这个。规整版的一个信息吧,啊,它的列名和我们刚才是一样的啊。
109:05
然后我们继续开启一个Python。是啊。这个代码部分啊,其实我都更新过啊,大家可以看一看啊,包括一些位点如何识别,有下位点,有的数据库可以用啊,待会我们看一,我们来先来看这个处理这个单细胞问题。还真得自己写了。
110:09
家长说我们想要的包,我们继续读取我们刚才那个举证。RX.Root.我们的一个ad文件。然后呢,把它转化成。转化成我们刚才提到的一个。Data frame.Did a frame.点出DS。转化成我们的data frame.
111:06
诶。这个地方为什么?啊,有了,为什么突然报了个这错?莫名其妙的错啊,然后附他列名。就是刚才我们的3文件啊。刚起来。我们的sample就是我们的8口的文件I,我们付给他。
112:00
然后是不知。这个时候呢,大家就会拿到这个列名,然后是行名。哎,就是刚才抽取的这个文件。大家看看这个文件啊,这个时候就拿到这个文件了啊,我们来看是否正常了啊,我们取这个特定的列名,比如取这个。就会显示这个啊,这就正常了啊,刚才那个文件由于有一些信息没有处理啊,导致了他出现这种异常的错误,大家这种排bug的能力也是大家需要学习的啊。
113:05
然后我们就写一个新的,比如说index。就是要付给他行名了。哎,我们需要提取矩阵,比如说基因信息是吧。基因信息,然后是。Bra.点2加。LT.这个信息啊,有多有少,大家根据自己的需求写就可以了,我这里面就简单演示一下啊,我只是写这个,呃,这个基因是否发生了这个变化,这个信息啊。
114:03
哎,我们来看一下。还是不对啊,这个地方数据结构有问题,这个地方把它当成了数值了,H14.0。啊,有的时候会存在多基因现象,这种多基因现象说明这个位置处于两个基因之间的一个外显,呃,内涵子区啊。啊,不能命名他啊。应该可以了吧。哎,这个就可以了啊基。哎,Rap微点和突变位点,当然最好大家还是能加上这个。Start啊,就是它的一个位置,要不然不知道这个位置到底是哪。
115:14
这个地方看一下啊,其他的可能是个数字啊。其他的,因为它是一个数字的问题,所以我们要复一下,把它变成字符串。哎,这个时候就可以了。然后呢?看一下。又变成这种,说明他这个数字啊。也会把它当成一个整体的,一个整体的一个东西啊。整体的一个东西。啊,所以只能是循环写吗。这个位置还挺重要的啊,大家一定要注意啊,一定要把它写上。不过这里面呢,我们可以把它简单的看一下。Thanks.
116:04
这里面是基因呃,位点突变信息,这里面是基因位点突变信息,大家可以看到有的位点是一样的,都变成ADN的G,但是它的P不一样,我们一定要把这个P给。加上。这个怎么加呢?大家可以看到它是一个int性,哎,这个时候我们的我们呢,把它复制成。Stop.哎,就可以了,把它复制成SPA啊。这个时候我们再看看它的格式。嗯。
117:03
哎,这个时候就拿到了基因位点的突变信息,以及它的一个位置,大家可以看到,虽然它这个位点突变一样,但是位置不一样,这个一定要能区分看啊,不能让它一样了啊,这个时候呢,我们就可以把它复制成行名了。等于。哎。这个时候呢,我们就拿到完整的矩阵了啊。我把它写出来。嗯,这个地方啊,大家一定要命名的时候要有一定的规律性啊,Sample name就是大家的名字是什么写什么就行了,SMP.xs.SAP等于钢铁。把它写出来啊。我这里演示啊,所以矩阵并不大啊,矩阵并不大啊,大家可以。
118:05
大家真正拿到那个矩阵都是相当大的啊,就和单细胞矩阵那样一样的。然后就拿到了啊,拿到了图片矩阵。这个时候就拿到了突变矩阵8扣的,哎,突变它是否有突变,如果突变的就是一没突变就是0,甚至有的人突变突变都好多个两三个啊,它都会有计数啊。这个就是单细胞突变矩阵了,这个矩阵呢,取到了一个,呃,就是定性的效果,就是细胞是否发生突变,至于突变的数量并不是很关心啊,只是告诉我细胞有没有突变,这是够我们更需要的,至于它5条睿智突变了,其实它也是突变了,一条睿智突变也是突变啊,只要这个睿智质量够高就可以,这个就是单细胞突变矩阵的获得方法。给大家练一练就可以了啊,不需要什么更额外的一些技巧。啊,这个就是单细胞矩阵获得的一个方法了。然后呢,这节课呢,基本上内容就差不多到这儿了,但是大家要注意啊,我我告诉了大家这个。
119:07
哎,突变矩阵获得了方法之后呢,啊,这才是大家下游分析的开始啊,大家拿到这个矩阵分析呢,就可以像他一样。如果有一些关键的靶基因,自己很,哎很这个有一些关键的靶基因呢,自己是比较在意的啊,是关注的,哎,去这里面找找是不是有突变信息,如果有突变信息呢,就去刚才那个单细胞矩阵里面找,把那些有突变的细胞和没有突变的细胞把它分开,分开之后呢,就像文章一样,哎,我做轨迹分析的时候,它这个突变是不是起到了明显的分割效果。哎,我降为聚类的时候,发现这个突变是不是聚成了一类,就和它一样,突变聚成了不同的类,对吧?它大家可以找一找自己是不是也聚成了一类啊。还有像这种这种的,它这种PC轴的是不是因为突变导致了一些明显的一个这个主成分,就是主要特征的一个变化。
120:01
还有什么呢?还有就是大家在做配受体分析的时候,如果配体发生了这个突变,导致了它已经失活了,那么之前分析的那些基础配受体分析说明是错的啊,大家都可以对自己数据进行一个矫正,其实这涉及到了一个多组学的分析,多组学分析呢,其实。能从多个方面反映我们同一个问题,认识问题更加全面,得到的结果也就更加准确,相当于大家做了一次实验。啊。所以说这个文章呢,就会发的很高啊,其实大家看他的正文其实也没有啥,就放了几张图而已,正文总共就4页。明白了吧,就因为他的工作的独创性啊,大家利用这个方法也可以试一下啊。好了,大家有什么问题吧,有什么问题可以提问啊。呃,赵老师,我有一个问题,就是比如说我们想比,呃,因为这个时生测序,它是测略98个剪辑,所以说比如我们想想捕获这种我们目标的这个突变,就尽可能要在这个98个BP之内是比较好的,要不然就用smart的fake去测。
121:09
啊对这样吗?对对对,呃,它这个其实只是提供一种额外的信息,在单细胞基础的,呃,单细胞分析的基础之上啊,给了你多一种这个信息,因为基础分析都会有,比如说你经常分析什么差异基因啊,什么轨迹基因啊,对吧。国际基因的热图啊什么的,对吧,他经常会发现它变高了,变低了,如果发现它已经发生了突变了。那这种变高变低没有意义啊。明白了吗?那比如说我们这个这个我想找这个基因的这个突变位点,它是在这个前后98都捕获不到的,所以说啊,这种的可能就是单细胞测序的局限性了啊,可能就找不到了,你只能在现有信息上挖掘啊。
122:00
啊,如果想做全基因组信息,目前还是得用NGS啊,全长目前错误率太高,它不适合于用这种靠突变啊。基础是基于5撇测序吧,3撇测序也可以啊,3撇测序只是末端的一些突变啊,无论什么地方的突变都会引起蛋白结构的变化,这些结构变化的效果有大有小啊,如果说非常大的话,就会引起它的这个。呃,引起它的这个呃,结构变化就会对生物效果产生影响,尤其是大家对那种失活突变或者激活突变,这个生物学作用开始加强,本身就开始加,但从结构上就开始加强,或者从结构上就开始失活的这种哎就更加重要了,很多时候啊,不能光从这个单细胞RAID count, 就是说基因表达了,我基因表达了10这种水平上看是不可以的啊。说白了就是多了一种信息,使大家的结果更加的准确啊。好了,这就是第一节课的所有内容了啊,第一节课其实相对没有那么难啊,只是希望大家在自己分析的基础上,可以把这个信息放上去。
我来说两句