第19课：单细胞个性化分析汇总原创

2024-08-032024-08-03 07:47:41播放2.2K

点赞0 收藏 0

第19课：单细胞个性化分析汇总

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
好了啊，时间到了。我们来开始上我们的第19课啊，第19课我们来复习复习啊。复习复习关于我们单细胞空间的一些哎，常见的一些个性化分析，以及它在文章中的一个用法。哎，上课之前呢，先简单的给大家，哎，说一些这个关于。呃，在公司层面培训的事情。啊，像我们这样的一个培训啊。对吧，培训一两个月，嗯，分析很多的一个内容。这个在公司层面是不可以的啊，公司层面是不可以的。公司最多的一个培训是什么呢？第一周。哎，培训代码语言一周就要搞定啊，对于这个公司的生信层面来讲。基础的Linux啊，Python r, 这都是基本功，哎，都要会。第二个呢，就是哎，生物学运用光会写代码还不行，还要会解读，哎，告诉这个客户或者说内部讲解的时候。
01:05
要说明，哎，我这个分析到底在说明什么。哎，有什么样的生物学意义，也就是说要哎运用到这个应用层面，而不简简单单的是跑了一个代码，哎，结果出来了。什么用不知道，这也是不可以的啊。所以说这个时候呢，一般会要求公司的生信人员干嘛，每一周大概要读一篇文献。啊，我记得我在刚入职的时候啊，呃，因为那时候一八年单细胞并不是很多啊，文章并不是很多。一共也就七八十篇的样子。然后当时加上我在内，总共有4个人。哎，4个人领导的意思就是说，我们要占据单细胞分析的制高点。你们这四个人把这80篇文章全部读了，把前面的个性化分析。分析用到的软件方法、参数、思路全给我总结出来，哎，我要看。
02:02
那个时候啊，大概是在18年底到19年初啊，就是一暂快过年前，元旦后这样一段时间，大概十几天的样子。哎，那个时候呢，刚好是空闲期嘛，没什么项目分析，哎，领导说你们把这些样本，哎，把这些文章全部给我看完。把里面的个性化全部给我，哎，提炼出来，分门别类的总结好，比如说这是研究疾病的，这是研究肿瘤的，这是研究发育的，这是研究血液的，哎，每个人领一块儿去研究。当时我领到的那一块是关于神经发育的。哎，我清晰的记得是27篇文章。15天读完并且总结好，写一个PPT给领导汇报，说这些都，哎，有哪些个性化的分析内容，用到的软件是什么？哎，参数是什么？分门别类的列好。哎，这就是公司的一个培训啊，不会说诶很长时间就是两三个月，这样的培训在公司是不可以的啊。
03:02
啊，当然了。身份的转换可能还是有一点差异的，比如我去公司是为了挣钱，去了，那自然对你的要求很高是吧，又给你钱，哎，又要让你学会大量的技能，然后作为这个公司的。公司的一个输出的一个内容，哎，为公司带来利润，这是公司培训你的一个目的。而我们正常的培训课的一个目的呢，哎，就是大家学会这样的分析，哎目的不同，所以说呢，整体的这个周期啊，包括时间点啊，啊，包括这个内容啊，都不一样啊。还有一个不一样的地方就是什么呢？大家可能觉得去了公司啊，去了公司好累啊，是吧，感觉公司压力很大。这个压力大最开始，呃，一般在什么时候开始呢？一般就是大家入职的前3个月，这个时候压力是最大的。因为一方面需要身份的转变。哎，首先你从学生那种散漫的状态，要立马转变到这种职场人，哎，相对比较这个。
04:05
高啊，高要求，高节奏的这样一个状态，哎，很多学生是受不了的。所以说呢，一般在嗯，离大家入职之后啊，一般一个月是一个离职潮嘛。呃，为什么呢？就是因为第一个月就是培训，培训你代码，代码不过关。公司内部让你调岗。哎，但你不想调，那你只能走。或者说后面的培训一些其他的，比如说文献解读啊等等等等都不过关的话，公司会。哎，把你调到其他部门，调到更适合的岗位等等等等啊，所以说呢，那个时候从一个身份呃的转变上来看，学生时代可能一个月看一篇文献对吧，或者说就像我一样研究生是吧。基本上是这个没怎么好好学习啊，英文文献都没看过几遍，主要看中文的，哎，这样的一个情况下，立马来到这个高强度环境，根本就受不了。但是如果大家能挺过这3个月。
05:02
啊，后面其实没有那么大家想象的那么累啊，一般都还好，比较轻松啊。好了，我们开始讲我们的，首先来看我们单细胞的一个。哎，个性化的分析内容啊。当然这里面多说一句啊，我们哎听课的都是硕士博士等等高学历人才啊。大家将来有可能，哎，有的人会进入到公司，对吧，也有可能是说。嗯，继续搞科研，去高校等等等等，如果大家跟我一样选择了去公司，作为一名核心分析人员。啊，尤其是大家如果啊有这个机遇进了一些大公司，比如说像华大诺河等等等等。无论外面的声音如何干扰你。你一定要坚持下来。等等，至少坚持3年。哎，3年这个时间段，可能你挣不了多少钱，可能也没觉得哦，好像过得很苦，别人都已经哎，有了很好的生活了，我为什么还在吭哧吭哧学习呢？
06:03
哎，但是我告诉大家，一定要坚持至少3年啊，当然了，能坚持一辈子那就更好了啊。好了，我们来看我们的个性化分析。首先呢，我们来看单细胞的分析，哎，单细胞从其实单细胞很早就有了。啊，一六年之后就有，只不过那个技术啊。哎，能够检测到的细胞很少对吧，然后呢，实成的技术的一个出现。极大的诶，提高了它的通量，像10成，之前有一些像smart Sha的技术，虽然它可以检测的基因数多一点，但是每次只能检测96个。呃，多检测几个，也就几百个那样。啊，那么这样的话，那通量太低了。哎，导致他无法大规模推广，哎，石城用了这个微流控技术之后啊，就把这个技术啊极大的推广。哎，直到现在啊，已经快成了类似于PCR的一个技术了，就是说这个技术很重要，但是普及化，呃，已经很普及了，对吧，18年的时候单细胞被评为了这个年度技术。
07:05
哎，因为它确实非常重要。嗯，潜力巨大，所以被朋友了玩，被评为了这个年度技术。当时一八年，诶，刚才提到了一八年底一九年初的时候，哎，全世界发的单细胞文章啊，大概也就不到100篇。哎，这里这里当然单细胞，我只是个磁层技术的啊，不到100篇，哎，那个时候啊，你要能做个单细胞，发个文章，一个样本都有可能发到nature这种顶刊啊，现在当然不行了啊。然后这个是三种技术路线，哎，单细胞出来之前呢，绝大部分还是用这种BOK的方法，就是把一个组织啊当成一个混合物，哎。哎，去测序，这个时候测序，如果我想测某一种细胞类型呢，哎，还得用流失分选，分选就是说蛋白，哎用蛋白这个抗体把它分选出来。然后去测序，测序完之后呢，得到每个样本它的一个表达值。
08:02
包括这个分析啊，就是普通转录组的一个分析啊，它主要集中在什么地方呢？哎，也是差异负极，哎这些方向啊，差异啦，负极啦，甚至有的有时有的时候会测这个全程。会会会这个分析一些融合呀。啊，等等一些内容，哎，分析内容其实相对有限，都形成套路了，所以现在有些小公司啊，经常挖掘公共数据，用这个报客的数据。哎，随便发，随便就是分析分析，嗯，就卖，呃，发一个几分的文章就卖掉了。哎，这也是为什么BOK这个之前啊特别火的一个原因啊，确实分析的套路化，以及哎，现在医生确实需要很多的文章，哪怕多低的分都可以，哎，从而促进形成了这样一个产业，当然这个产业对于我们科研来讲，其实是危害比较大的啊。等到后来有了这个单细胞技术，哎，单细胞因为从更加精细的角度来看这个内容了。
09:03
哎，原来是book一堆细胞表达特征，现在是单个细胞的表达特征，那么自然从精度上来讲，哎，就是有了一个极大的提升。这就相当于什么呢？相当于这个降维打击。哎，原来只能看二维的东西，现在看到了三维，哎，它的信息量会极大的丰富。极大的丰富啊，然后呢，现在呢，又有了空间转录组，哎，弥补了单细胞在空间缺失的一个。呃，缺失的一个遗憾啊，空间转录组，这就是哎，逐渐发展的一个过程。其中啊。其中哎报可就不多讲了，哎确实非常成熟化，已经很多年了，单细胞技术呢，稍微多讲一下，就是18年19年的时候只有两个单细胞技术。哎，就是国外的石城和BD，哎，那个时候BD我当时还在漯河呀，还没有推。哎，19年初推的比例，诶，2018年之前呢，都有了十成，哎，一年大概那个时候一年的业绩大概是1000万左右，那个时候还很小啊，现在每个公司的单细胞业绩基本上都过亿啊。
10:12
等到那个二零年2020年的时候。哎，国内可能，哎国内可能也有点后知后觉的这样一个状态吧，开始这个说，哎，单细胞技术这么的火爆，哎，我是不是也要研发呢。哎，于是就有了大家经常耳耳熟能详的公司了，像什么新歌园、华大单细胞平台、10K寻音等等，这些公司哇，如雨后春笋般。哎，发展起来了，这些公司如果大家了解过的话，很多公司啊，都是只发展单一助学。就是只依靠单细胞就能成立一家非常棒的公司。可想而知，当时的潜力是有多大。对吧，像新格元只做单细胞对吧，你看。都做到国内的龙头老大了。哎，就这么夸张啊，当然了，呃，因为他只做单一主学，所以它的发展还是有局限性的，未来他可能还是会朝着多哎多个主学，比如微生物啊，基因组啊这方向发展发展，因为确实单一主学局限性还是比较大，就和大家就和我刚才给大家讲那个空间微生物呢，也可以。
11:17
哎，微生物作为我们的人类第二套基因组也是非常重要的，这个时候很多在研究问题上需要多组学的一个角度来判断。哎，如果只做单一组学的话，那说明还是不够啊，不够，不过现在来讲单细胞依然非常的。哎，非常的这个。啊，就是说具有发展潜力，哎，发展潜力还是很大，每年的市场啊都在都在扩大。啊。对于空间转录组呢，哎，慢慢的也在慢慢发展，哎，现在呢，空间转录组主要是时成为主，对吧，当然也有些其他的，比如说像这个口袋词啊。DSP啊，等等也有啊。关于单细胞的个性化分析啊，其实非常的多啊，非常多，我这里把这个列了这么多啊，在去年的时候，哎，去年的时候，当时自己刚遇到点变故的时候，其实哎就动了这个说是开开一些，开一些这个培训班的想法，哎，当时一节课只要50块钱，很便宜啊，很便宜，当时没干过，哎，就是每节课只要50就可以上课了。
12:24
然后呢，把这些单细胞的个性化分析啊，呃，基本上都讲了一遍。基本上都讲了一遍，呃，然后呢，但是到了今年啊，今年哎，大家知道2024的一个培训班呢，我又讲了6节单细胞的课程，就是有一些重要的地方需要更新或者说是补充，哎，所以我讲了6节。单细胞的一个分析啊，从公司层面来讲，从公司层面来讲来讲啊，从大家哎拿到数据开始，到标准化分析到个性化分析这个过程啊。其实非常的一个，怎么说呢。
13:02
哎，用大家的话讲叫模式化。什么叫模式化呢？就是说无论什么样的数据公司，都有同一套流程跑出来，结果给大家。哎，给大家，哎，这也是为什么现在各个公司分析，大家觉得分析呃水平比较差的一个原因。哎，没办法。前面提到了，刚开始做单细胞的时候，一个公司的业绩有多少呢？也就1000万，对吧，那个时候项目少，大家都会，哎，好好分析，那个时候我在漯河光生性分析啊，光单细胞的生性分析将近20个。哎，每个人就带那么三四个项目，所以分析的质量都比较高。等到现在的话，哎呀，大家公司的业绩都超过1个亿了。但是分析人员呢？如果大家在公司待过的话，会发现公司的核心分析，呃，核心分析员就不讲了，就是所有的单细胞分析人员，超过10个的都很少。那这样的话。市场就倒逼公司，哎，一定要做流程化，哎个个性化的内容就越少越好，哎就形成了这样一种现状啊。
14:05
我们一个挨个来看这个个性化的分析啊，首先我们拿到数据第一步要干嘛。第一步要干嘛，哎，看数据质量。数据质量啊，有一个web summary对吧，Web summary哎，其中呢，会看到一些什么，哎，捕获的细胞数。不获得这个，诶，它的一个平均睿智数，包括它的Q20 Q30等等一些基础指标，哎，包括fraction rates啊，这些指标的一个界限呢，我相信大家应该多多少少都了解过啊，现在以现在的一个标准来讲，一个单细胞一个样本大概不过是1万，对吧。呃，上机上多少呢，大概是不到2万的一个样子。其中呢，在拿到数据到开始标准分析之前，哎，这个过程呢，慢慢的有一些哎，需要大家值得注意的点了。第一个点就是关于双细胞的一个问题。
15:01
与双细胞对应的是这个低质量细胞的一个问题。当然对于低质量细胞呢，大家一般都有一个比较低的值，比如说200对吧，把它卡掉，哎，认为这些都质量都低，我不要了。那么对于双细胞呢？双细胞这个售后啊，是在19年大概中旬的时候才引起大家的重视，因为在这之前啊，大家没有觉得，哎，双细胞没有意识到这个问题，包括时成也没有公布说有可能是双细胞没有说，哎，或者说说的很短，大家都不知道，等到19年的时候，这个细胞通量上来了。哎，就是说已经达到七八千一万甚至一两万了，哎，这个时候就会发现，诶，为什么有的细胞是表达两种细胞的mark。对这个分析造成了很多的一个困扰。当时呢，哎国包括国内的公司，哎国外包括实生团队都在研究这个问题，后来经过发现啊，有一定的比例是双细胞，哎这种双细胞呢，就是说捕获了这个两个细胞进了同一个8扣的，把它标记成同一个细胞了，那么这样的情况。
16:09
势必会干扰下游的一个分析，哎，无法准确的来进行下游的个性化，包括基础分析了，这个时候怎么办呢？师生首先啊，对这个实验进行了优化，哎，测试了很多的样本之后，提出了这个双效双细胞率大概是这么多。大家可以简单看一下，这是这个之前的平台啊，上样一万六，上样一万六个细胞捕获了大概1万。双细胞率大概是多少呢？7.6，也就是说捕获到1万个细胞的话，它的双细胞大概是760个，哎，不到1000，但是这个地方要注意啊，随着补货的细胞量急剧的增高，哎，它的这个。双细胞率啊，呈指数上升。比如说我补获了2万。这个比例啊，就会上到十几，那也就是说将近三四千的细胞是双细胞，哎，这个非常夸张啊，现在如果大家用那个gex，呃，GEMX这个新版的这个单细胞啊，可能不可能它的双细胞率啊，没有那么高了。
17:13
捕获的细胞呢，也变多了，可能到了2万。等等。但是这些双细胞啊，依然存在，所以啊在公司的标准化分析过程中，哎，双细胞是默认要去除的啊，默认要去除的，但是去除有个下限，下限是多少呢？一般超过5000以上都要去啊。一一般超过一，呃5000多，十几，2万的细胞是十几啊，2万乘以十几可就是三四千了啊。1万才700多嘛。哎，这个时候呢，就要分析这个双细胞了，现在公司一般都默认是要去的啊，要去的，因为现在捕获的细胞量都都比较多，1万啊，更多啊等等等等。这个时候就要去双细胞对吧，双细胞的话。哎，它的特征就是表达两种细胞的mark，哎，这个很干扰的啊，又对下下游的细胞定义非常的干扰。
18:07
哎，那么对于双细胞去除啊。哎，这个软件大家应该都很熟悉了啊，Double finder它和R的thread是完美对接的，包括它本身啊，也发了一篇文章，哎，这个文章放在这儿了，大家有空可以看一看。哎，它的一个核心的一个内容呢，就是说人工模拟这个双细胞，也就是说拿到我们真实数据之后啊。随机的抽一些细胞组合成了一个双细胞，然后掺到这个原始表达数据中，看看哪些细胞和这个人工的双细胞啊，表达很接近啊，越接近说明它越可能是个双细胞，对吧，然后用打一个分儿。比如说哎，你跟我相似度超过了80%，哎，我就认为你是双细胞了，把你给去掉啊。但是呢，去双细胞不止这个有敏感。哎，不止这个，不止这个软件啊，其他软件都有这样一个问题，就是对同型双细胞啊。
19:07
不太敏感。比如说两个T细胞同时捕获到了两个T细胞成为了一个8扣的，那怎么办呢？哎，软件一般识别不了了。当然这种影响啊，对下游的影响不是很大，因为表达的马克都差不多嘛，表达的基因特征啊都差不多嘛，大家经过均匀化之后，哎，标准化之后啊，这些值会一定程度上哎削减。哎，所以说对下游的影响并不大，但是这种异形双细胞那是影响是非常大啊，影响非常大啊。这个N抗T得小于5000嘛，不知道啊，有的你像干细胞小于1万也可以啊。一般写最小值，最大最大值，不写最大值，最大值默认就是要用这种软件来去除双细胞的啊。
20:00
当然也有软件，也有文章写，比如6000以下，呃，6000以上的认为是双细胞啊，这个就需要经验值了。嗯。然后呢，哎，简单的过程呢，就是单细胞，哎创建了对象。做了一些基础分析之后，哎，使用它内部的一个算法，哎，评估最佳的这个PK值。哎，根据一定的分布啊，哎，在之前的课上提到过，简单的一些分布啊，大家要了解，包括二项分布，高斯分布，呃，正态分布等等这些大家要了解啊，对这些。哎，表达值和细胞的一个分布呢，进行一个统计，统计完之后呢，哎，检出这个同源这个，哎检出了这个双细胞的一个可能性比，呃比较很可能是双细胞的一个把口的，然后把它给去掉。啊，这就是双细胞去除的一个简单的一个过程啊，其中呢，最最为核心的其实还是在于人工模拟。人工模拟一个双细胞，哎，如果这个双细胞模拟之后呢，有些细胞和它很相似，表达很接近，那说明真的就是双细胞了啊。
21:11
啊，这个版本呢，是R版本，R版本呢，当然就是对接的threat对吧，对接的threat，哎，流程化很高啊对接的threat。哎，对于Python的SC派呢，就是用这个。哎，我在讲这个单细胞的部分的时候，包括这个APEC，包括这个多样本联合的时候用到的这个Python版本的时候，去双细胞都是这个软件。哎，他和大宝翻的一样，也是发表了一篇这样的一个单独的一个方法论的文章。至于它核心算法呢，也是一样的。哎，和这个double包翻的其实是一样的啊，只不过它是用Python版本复现了这样一个方法，它对于双细胞去除，也是对这个异性双细胞，就是不同细胞类型的双细胞啊。他比较敏感。哎，对于这个同样的，比如都是T细胞的这种双细胞，它也不敏感，它也，哎很难去除啊，不过刚才讲到了同型双细胞呢，哎影响不大。
22:05
哎，异性双细胞影响比较大，所以呢，软件一般都在异性双击包上，哎，花了很大的精力把它给去掉啊。这是Python，哎，两者算法的原理都差不多啊，如果你用TH，你就用这种方法，如果你用Python，哎，就用这个方法啊。然后这是对方法的一个简单总结啊，当然不止这两个方法，也有其他的方法，不过目前引用最高的就是前2个。引用最高的啊。有个问题就是怎么模拟靠谱，这个最后怎么评估合适呢？其实他这个模拟刚才提到了是。虽然说的是人工模拟啊，其实也是在大家做了基础分析之后，比如简单分了几类之后，他把不同的人类之间的细胞，哎，随机的组合成双细胞的一个，哎混合的人工双细胞。然后呢，把它掺到我们的真实数据里进行一个。
23:00
哎，相似性的一个比较，越相似越可能是双细胞嘛，这个是没有疑问的，哎，这种方法已经相当可靠了啊，相当可靠了。哎，前两个方法大家看视情况而定啊，视情况而定，目前公司都有两套流程，一个R版本，一个Python版本，哎，R就用它，Python就用它，Python就用它啊哪个软件更好一点呢？呃，算法原理都是差不多的。啊，都是对相同细胞类型构成不敏感，都是对异性双细胞比较敏感，去除的效率呢，哎，都相对合理。哎，剩下的3个大家了解即可啊。第二个呢，就是降噪，哎，降噪这个就。哎，话比较长了啊，这为什么要降噪呢？降噪的这个，呃，最开始的一个内容是什么呢？就是说很多时候啊，这个单细胞捕获的基因中位数有时候偏低。和真实值差异比较大的时候就要降噪。就是说把他该表达的基因给他找回来。
24:03
哎，这个叫降噪单细胞，因为大家都知道是一种jobick的技术，哎，这个时候呢，如果我的基因表达特别低，比如这几百。哎，这明显是有问题的。啊，如果说是实验的问题，比如说测序不够，那就继续加测，还有可能是什么。哎，细胞质量的问题。啊，这种问题呢，只能通过降噪处理来挽救一下了，挽救一下啊。单细胞的数据的特点这里面列到了，哎，就是高噪音和高吸数啊，当然我们这样的话，高噪音和高吸疏那带来的就是什么。分析的假阳性。哎，那个时候我们为了替换，为了为，为了让它更接近真实值。就用了这个。哎，降噪的方法，用这种替换的值，哎，让它进一步找补回来，哎，让它的值回溯点。这样一种方法。哎，这里面提到了很多这个方法啊，很多这个方法目前公司一般用的是他。CX.
25:01
CX.啊，这个方法呢，他本身也发了一个很高分高分的文章在这儿呢。哎，他通过外部数据进行单细胞分析，当然有一定的参考数据来提供它做一个参考啊，像这个magicri，在这个CX没出现之前呢，哎，公司一般用这个magic。Magic数据，哎，把它找回来。找回一定的基因表达值来。啊，这样一个分啊，当然这个分析啊。哎，做的很少，公司一般不会把它放到流程里，一般是这个数据质量实在太差的时候才会用一下它，我相信大家现在应该用的很少了，几乎不啊。啊，原理呢，其实都是一样的，就是用这个。参考数据集计算它的计算特征，比如T细胞的一个特征表达了哪些基因，哎，而且哪些基因具有一个协同性，对吧。哎，如果我们真实的样本中这些协同性不存在，或者说某些协同的基因该表达高，它是没检测到，哎，就把这些基因给他补回来。
26:03
哎，这样一个方法，不过这个方法用的很少啊，用的很少，大家不要轻易的使用啊，一般大家的数据都都足够的啊，现在的实验技术应该相当高了啊，只会在极少数情况下实现这种。哎，需要金融需要降噪分析的一个方法啊，降噪分析啊。这里面提到了一个降噪有利于提高单细胞类型的区分精度，哎，但是它的前提呢，是我们的数据质量比较差才会降噪啊，一般不会用到降噪，降噪你看，哎，这里面简单的给大家列了一个例子，就是说如果如果是数据比较差。哎，他的分群剧烈，自然就会乱。哎，没有那么边界，没有那么清晰，这个时候呢，如果哎找一遍回来，把数据找补一遍回来。哎，他的分析就会相对清晰一点啊。分到一个单独的小区啊，这是它的一个效果。第三个需要前面需要考虑的。
27:01
第三个需要考虑的是什么？呃，排污。排污的意义是什么呢？就是说大家在拿到这个。单细胞数据啊。比如说刚才提到的上样一万六捕获了1万，那66000细胞干啥去了？去哪儿了？哎，破碎了，破碎了之后呢，它本身的mna啊，就会游离到我们的背景环境中。哎，形成对我们的这个单细胞的一个背景的一个环境，大家看那个曲线的话，一般右边部分不会立马降到0，而是有一个缓坡，那就是无，那就是呃，游离。当然对于我们真正的一个单细胞数据啊，如果大家的数据质量比较好。哎，它的一个拐点处啊，应该接近成90°的。那说明背景和真实的细胞，哎，区分的很开，像这种啊，属于样本非常好。那对于这种样本不好的，比如说这个曲线不那么明显，拐点呢，哎，比较模糊，甚至有的样本就是缓慢的下降，这种这种啊说明哎样本质量比较差，需要用排污的方法，把一些游离的，就是说背景的应该也给它去除掉了。
28:09
明白了吧，然后呢，最常见的去除方法就是soap X, 这个我相信大家也听过啊。Soap派本身也发了一篇文章，哎，就在这儿，哎对背景游离DNA进行特征分析，就是对那些哎曲线的末端那些哎有r mna的一个表达特征呢进行一个分析，哎分析完之后呢干嘛？哎，把它的特征分析完之后呢，用我们真实捕获到的细胞，把这些可能是污染的特征啊给它去掉。哎，就可以了，以防止对我们下游分机产生一些干扰。当然，他如果那些基因不重要还好，万一是一些马克基因，那就麻烦了。明白吧，比如T细胞死亡的过多。哎，它的CD3基因呢，都进入游离背景了，这个时候如果啊。如果我们不不排污。哎，会发现这个CD3好像很弥散。
29:02
怎么办？对吧。哎，这个时候呢，就要用排污分析来分析分析了。不过这种分析啊，大家也要注意啊，如果大家的曲线很完美，不做也可以啊，不做也可以，不过现在默认流程都是要做一下的。嗯，当然那种曲线不完美的就更需要做了啊。哎，这是对他的一个核心的一个算法，其实呢，就是。哎。计算背景游离DNA的一个表达特征。第一个计算背景，游离特征的一个表达特征就是MT drop at就是空的，说白了就是空的，其实就是游离。第二个呢？哎，把这部分游离DNA啊，从这个真实的细胞中给它减掉。哎，减掉之后呢，就是我们真实的表达值了啊，这是简单的一个方法，哎。这里面呢，主要应用场景给大家说了一下，哎，原则上所有的分析结果都应该去采用这种去除污染的方法，因为肯定或多或少都有点污染嘛，对吧，但是目前的主要分析曲线，呃，没有陡降的样本呢，就是说缓慢下降，如果说大家那个折点，呃，拐点啊，呈90多度。
30:08
哎，不需要那个就不啊，不做也可以啊。哎，这是一个简单的一个示意图啊，就是分析这个部分。哎，看看它的特征的基因特征是什么，像这种这种样本啊，陡降式的。啊，这个拐点接近90°的，哎，说明这个样本质量非常好啊，非常好，也不不用分析也可以，像那种，哎呀曲线比较垃圾的，哎，比较差的啊，这个时候就绝对要分析分析了啊，分析分析了。哎，等我们把前三步都考虑完之后，拿到真实的基因表达值之后，哎，就要干嘛，哎，标准分析就来了，大家拿到那个threat里面做什么降维聚类对吧。这部分呢，是大家应该是玩的最多的部分啊，前面的什么排污啊，降噪啊可能都没做过，但是这个threat软件大家应该绝对是做过的啊，拿到这个降温剧烈的结果。
31:04
啊，当然中间过程啊，也有一些参数的调整，不过大致的一个分析内容啊，相对比较简单啊，大家都会做。等到把这个做完之后，下一步干嘛。注释。对于现在的公司来讲，注释应该大类都不是问题啊，大类都不是问题，就是说我注释中大类。组织细胞，哎，免疫细胞分两类，这个绝对没有问题。关键在哪儿呢？分亚军成了问题。当然T细胞亚群可能还好点啊，有一些参考这个T效应，T记忆等等还好点，哎，组织细胞呢，就完全成问题了，所以说啊，现在这个做细胞定义，把它单独成为一个售后了，哎，费用还不低啊。当然了，有的公司现在公司为了也可以说是偷懒吧。只用一些软件标准化的注释直接往下了啊，结果不能用，但是呢，很多客户他也不知道啊，所以说呢，稀里糊涂就往下做了，等到再有人回头看的时候，很多都是有问题的。
32:03
这也是为什么现在项目啊都需要大家精雕细琢的一个原因，尤其是细胞注释啊。这个地方定义的不准，那完全后面做所有的都是白费啊。其中呢，以前那个策略是什么，一开始就自动化注释。当然大家要注意啊，自动化注射一般我们只注射大类，比如T细胞，组织细胞，成纤维啊这些肥大呀这些，哎，大类这个自动化注释相对准确性还高一点，然后呢，人工验证一下，先验证大类。验证大类之后，哎，进行一个简单的分析，哎，分析它表达的马克是不是在这儿，哎，画一些热图啊，气泡图啊等等来证明，哎，我们的机器入是加人工的一个验证是准确可靠的，最后呢。哎，验证。怎么验证？哎，就是借助一些，哎，其他的分析，包括联合分析啊等等等等，也是在分析的层面来验证我们定义到底准不准，包括其他的，包括什么轨迹啊等等，还有一些是大家如果有经验的话，对基因有简单的一个认知的话，有些基因不该出现在这个细胞里。
33:09
哎，就把它说明定义的有问题。当然大类上，哎，基本上是这个逻辑，但是现在大家分析单细胞啊。仅仅定义大类是远远不够的，定义亚群，哎，定义亚群呢，就有更多的一个方法啊。当我们定义好之后呢，第二步干嘛。哎，很多人就开始选择做这个轨迹分析了，轨迹分析呢，这个不用多讲啊，大家应该哎很多都做过，像那个MONCO2 mon尼CO3是吧，包括我们本次系列课程讲到的这个velocity都属于轨迹分析的一个范畴。它的一个核心理念呢，从单细胞的角度来讲，主要是干嘛。看细胞的一个发育的一个情况。但是这个发育的情况啊，呃，真实的细胞发育是非常复杂的啊，你看我列出来这么多类对吧。环形的。哎，线行的交叉的多分差等等等等，还有这种情况。
34:04
哎，这种情况是其实上是最为真实的一个情况。我们拿到一个真实的样本啊，哎，我们拿到一个真实的样本通常是什么？组织细胞和免疫细胞应该是混在一起的，对吧？组织细胞和免疫细胞绝对不可能是同一个发育轨迹，而是两条。对吧，所以正常的样本应该都是两条发育轨迹来来讲，甚至多条，像成纤维和上皮肯定也是分开的，应该是多条，对吧，但是我们如果当然公司流程化分析就不管了，放一起直接出一个轨迹啊，像那种分叉式的轨迹就出来了，但是我们自己真正分析的时候，一定要先做好细胞定义。挑选出有分化关系的，给他往下做啊，不能把它混到一起做，这种是不可以的啊，准确性完全没法保证。然后呢，做轨迹之前，哎，我们要做一些准备工作，第一个干嘛。找基因对吧？找基因如果我们采取猫和2的方法，它找的就是高变基因1000个。
35:05
好的。哎，构建构建，哎模拟一下构建出我们的轨迹，但是呢，这个1000个基因，哎，是否是和我们发育相关，是不是和这个真正能起到细胞作用的相关。不清楚，他只是把这个高变的，就是变化比较大的基因给他挑出来了。比较可选的方法呢，也是现在目前公司比较可选的方法呢，是用这个threat高面积来做。哎外大家都知道做基基础分析的时候啊，也有一些高变基因用来我们分群了，对吧，它这个高变基因啊，相对于这个MONLE2就会相对合理一点。啊，因为它既然能识别细胞类型，说明它这个相对的基因啊，能代表细胞的身份，哎，它的发育就会相对合理一点。好。啊，当然了，也有一些缺点，比如说基因会有隔断，隔断是什么意思呢？就是说这个基因只在这个细胞群中高表达，那其他细胞群中。
36:00
低表达甚至不表达，这样的话就有一个极大的落差啊。但是呢，如果说我们选择的基因在1000，就是千级的这样一个水平，哎，这样的过程还是可以的啊，通过实践证明，用threat的高变基因来计算这个轨迹会和threat本身的定义结果。哎，你合的很好。如果说我用SP的定义，用Monica本身自带的方法做这个轨迹。哎，很多时候出来的结果完全就不能用了。哎，完全就千奇百怪了，一个群可能既在开头出现，也在结尾出现，这完全就是错误的了。明白吧，所以说次呃，比较好的选择就是threat的这个用threatad的高边进行前1000个做轨迹和这个定义的结果拟合的就会比较好啊。当然第3点，如果背景很强，我相信没有人选，这个目前我还没遇到过，就是自己已经知道哪些是基因，是发育相关的了。啊，这个我目前没有遇到过啊。最后一个呢，就是降维的方法，哎，降维的方法，降维的方法呢，像mon考试构建了树性结构，对吧？啊，当然也有很多其他的方法，包括这个mon尼考3采用的u map的结果。
37:07
包括这个map的，呃，Map它是选择连续变化的基因，不过这个方法应用的也不是很多啊，也不是很多，只有在。呃，一些高分文章中用过，普适性不是很大。啊，但是确实它的原理上来讲是最好的，就是选择连续变化来进行来用它，其中呢，如果大家用skypad进行分析的话。他对接的那个软件就是轨迹分析那个软件，就采用了这种方法。明白吧？啊，我列下了，这下面列举了我们常见的一个分析，哎，首先要大家要做细胞定义，确定好这个方法，第二个呢，就是选择这个发育基因，发育基因呢，现在公司大部分都是SP，它自己自算的这个高变基因大概前1000g的样子。然后呢，用这个def map, 嗯，或者用def map选择连续变化的也可以啊，Threat居多，然后构建发育轨迹啊。
38:04
然后是这个就是模拟考2的一个结果了啊，当然它有很多的降维方法对吧，大家默认都是这个DDH。哎，DDR去构建成这种树形结构就可以了，哎，构建成这种树形结构，当然还有一些其他的，比如说这种模拟的，还有这种DPT的，就是defy map的这种，它也是构建树形结构。啊，也可以，大家可以看到它的细胞类型，它的轨迹和细胞类型其实拟合度是比较高的，就是一个细胞类型基本上是不会断的，再一个区域出现。大家分析，尤其是做我个性化分析很容易断的那种的，一般都是分析有问题的啊。像猫613的u map可视化。呃，力导向矩阵这个用的不多啊，用的不多。极少数会用，还有fit。哎，普Lu套这个方法会用到F，最后呢是这种URD这种分叉式的，这种呢，要求更高，既要指定时间的起点，又要指定时间的末点，这个对人的要求比较高啊，一般都不会用它啊。
39:01
然后这就是结果了，哎，命运，命运的转变就是分之1命运的转变，基因的一个变化。好，这是模拟2。哎，用的最多，当然现在高分文章也有引用，不过现在随着认识的深入啊，哎，我们在轨迹那节课也讲到了，现在希望多矩阵研究更加准确一点啊。哎，这是对轨迹的一个简单的一个总结啊，第一个就是常见的，哎，Mon考，除了monitor尼ICA2就是mon尼考3了。哎，还有scpa stream UD等等这些高分常见的高频的一个软件，给它列在这儿了。Velocity呢？当然是一个另外一种更加高的一个方法，目前来讲velocity是必做的。其他的软件附带的做一个就是两种，至少有两种方法来推断这个轨迹。你看软件有多少。是吧，一大把。红色标注的是常用的啊。
40:00
哎，最后是velocity的一个方法，哎，Velocity的一个方法，大家可以简单看一下。哎，通过这种成熟未成熟的一个比例来判断它轨迹发育的一个方向，就跟他就跟大家讲到那个。哎，那节课一样，那个叫。哎，下。这个呢是通常的一个策略。哎，通常的一个策略啊，这个呢，通常的策略呢，其实就是。呃，无论是公司层面嘛，或者说自己想做的更加精细化一点的时候，会用这个。哎，第一步细胞定义这个没话说啊，必须要挑选这个具有分化关系的，第2步干嘛。选择这个，诶。高变机。一般啊，大多数都选择这个threatte本身自带的高敏，然后嫁接到模拟考二去让它做这个降维可视化，构建舒性结构等等等等啊，利导这等等等等，生成我们这个相对合理的一个结果啊，这个大家可以回去看啊，PPT会发给大家，大家有能力的话可以试一下。
41:04
哎。就是说本身啊，虽然软件都已经定义好了，但是大家自己要分析的时候，其实也没那么容易啊。哎，接下来轨迹分析呢，还有个开关的问题。什么是开关呢？就是基因啊。在只在某些区域中表达，哎，随着表达的过程呢，可能慢慢不表达，或者开始表达，这样会有一个基因开关的一个现象。这个基因该关的现象啊，就是在发育过程中，哎，表达沉默或者表达激活的基因。它会引起推动发育体系的一个往前走。哎，选择这个过度肽的细胞进行一个转变，对于我们发育非常重要啊，这个呢，也是大家在个性化分析中常见的一个内容。哎呀。常见的一个内容。哎，开关啊开关，大家有空可以了解了解，这个软件就叫这个基因switches，就是基因开关。他主要是来找一些基因啊，看看基因有一些特异性区域，特异性的表达的一个特征，哎呀。
42:06
尤其是这个过渡态。哎，非常的复杂对吧，非常的复杂，尤其是过渡态啊，非常的复杂，对于他的一个基因的一个判断，哎，就是我们对法语认知的一个关键体现了。接下来呢，呃，通讯通讯呢，其实之前也讲过，通讯呢，其实啊是我认为啊，单细胞研究中运用的最好。哎，运用的最好也是这个。理解的最好，理解的最深，文献运用中最好的一个方法，因为基本上4个项目都要做通讯分析啊，都要做通讯分析，这个没有办法。他在各个方面啊都要做，包括发育啊，形成啊，类器官啊，癌症啊，炎症啊等等方向都要做，哎，这个是没有办法的事情。然后呢，对于这些通讯分析的软件啊，大家可以看一下。CF分DB，哎，这个讲过c trade也讲过，Ni set也讲过三个，这个属于这种比较高频的一个单细胞运用的一个方法。
43:05
很高频啊，很高频。呃，3分DB呢，目前都推出了，都V5版本了，对吧？C tradet也推出了V2版本，Ni Internet也推出了新版本，他们在呃，各自的一个单细胞分析过程中啊，都发挥了一个独特一的特点，其中multiti net.啊，就是这个Internet的改进吧。哎，它不仅考虑配受体，还要考虑这个。这个TF因子，靶基因等等这样一个连串连环式的这种。呃，连环式的这种通路的，呃，通讯的一个效果，像CFNDB在讲的时候，它也添加了这个TF因子的一个效果，也就是说这个配受体。到底是不是起到了一个？提到了一个什么，哎，通讯的一个效果，就是说它下游的靶基因是不是因为这个通讯导致了它的表达发生了变化，需要哎借鉴ni net的这样一个策略，哎既要分析配受体，也要分析，哎靶细胞基因表达的一个变化。
44:05
哎，你看这软件有多少特别多啊，特别多，不过常见的就这三个啊，大家常用就可以了，大家一般用这个c DB set或者ni net就可以了啊，这些软件呢，大家有空可以了解了解啊，有空可以了解了解。啊，数据库特点呢，这个简单的过一下，就是说它既有这种分泌式的，呃，也有这种接触式的，还有细胞外基质的，呃，对于它的一个通讯强度呢，就是说平均值相乘啊，作为这个通讯强度，注意需要注意的地方就是通讯的方向性。哎，配体指向受体啊。哎，这是一个简单的一个算法的逻辑啊，之前的课上都讲过，哎，构建零分布对吧？对，比如说我要计算1和2通讯是否显著，哎，我把配体基因和受体基因表达构建一个零分布，哎，构建这样一个分布状态，如果它的表达值都集中在这前面。
45:00
说明它不是随机分布的一个状态，说明它是生物学固定的一个特征，哎，那说明它的通讯是有效的。啊，如果说它的分布啊，这种散钻石的，或者在。在这个中间部分，在下面部分，哎，说明它是一个随机分布状态，并不符合真正的生物学意义，这个时候呢，就把它剔除啊，生成一个显著性的一个算法。是否是，这个P值是否显著。哎，这个就是同学的一个，哎，简单的一个事例了，当然大家注意啊，这个事例还停留在什么。细胞大类。细胞大类啊，细胞大类我们现在做通讯分析啊，一般都集中到小类去了啊，因为真正的细胞大类的一个通讯啊，可能被一些小类，小类的通讯被大类给掩盖掉了啊，因为它是平均值相乘嘛。哎，掩盖的很厉害，现在都是小类了啊。包括这些图啊，画图的基本功大家也要过关啊，像这种图。
46:04
啊，以前这种图都被当中售后了。都被列成售后了，大家可以看到颜色梯度，当然一个图会展示多种信息，这样在公司都被当当时画图，都是一种售后的啊。现在大家找公司画图，当然也当场售后，也是需要收费的，大家最好自己能过关啊。第二个软件3TRADE呢，它的单细胞分析呢，哎，单细胞轨际呃通讯分析呢，也是比较呃流行的，它是虽然说是我们中国人啊，这个叫静缩清是吧，这个作者呢，和他有和他见过面啊，和他见过面，但是呢，他不在中国啊，不在国内，在美国啊，在美国的研究所开发了这样一个软件啊，当然它在这个C的这个基础上，第一方面丰富了这个数据库。呃，在在3月份DB的基础上，第一方面丰富了这个配售底库数据库。哎，多了一些内容，第二个呢。
47:00
他把这个，他把这个库啊，把配受体啊，分到了各个通路里面去了。就是大家在做3T的时候，哎，配受体属于那个通路，哎，它把它分类好了，包括它也在CF分DB的基础上，由人的基因扩展到了小鼠的基因，3分DB只能做人，哎，它扩展到了小鼠，这是他需要，这是他改进的一个地方。算法上的改进呢，第一强调过，第一个就是这个异常值的处理。哎，对于特别高的值，特别高低的值，把它的权重往下放，哎，中间值权重往上提，这样的话更加符合真实的一个基因表达的一个现状。啊。然后呢，对于它的一个计算的方式呢，也是一样的，它也是用这种。哎，平均值相乘的一个方法，计算它的一个通讯的强度。通讯的强度对于它的一个检验呢，和这个单细胞和CFNDB一样，也是置换检验。啊，也是置换检验。哎，这是他分析出来的一些图啊，分析出来的一些图。
48:00
当然，它的可视化的层面确实比CF分DB要好得多，好得多啊。嗯，最后是ni斯net了，Ni net这种网状通讯分析图，这个之前给大家诶说过啊说过这个就比较的。它是一个网络，就相对比较复杂了，从配体到受体中间经历了很多的复杂的过程，包括TF因子信号放大的过程，最后影响靶机。对吧，靶基因的表达确实受到了配受体的影响，但不是直接影响，中间还有很多过程，这个软件呢就考虑了这个过程。哎，考虑了这个过程涉及到了多个矩阵。第一个特点就是考虑把基因表达对吧，涉及到多个矩阵的一个分析内容，第二个呢，预测会配预测这个配体活性。它是如何预测呢？就是说我知道了靶基因表达的一个情况，我来预测一下到底是哪个配体引起了我的表达的变化，这样的说话，这样的话对配体的活性啊，就有一个预测的一个内容，来12345把它预测出来，对吧。
49:04
这样的话对大家选择有效的配受体，哎，非常有帮助啊，这是他改进的地方。第二个呢，就是数据库，诶，它也整合了大量的一个来源啊，它的信息数量确实比3都比3分D比较多。哎，都比CF问题比较多，最后呢，哎，用这种加强网络整合多个矩阵分析配体受敌靶基因这样3个矩，呃，这样2个矩阵。哎，当然加，还加上配体靶基矩阵，三个矩阵联合来推断到底是有哪些有效的配受体。算法特征呢，就是这样一个特征。这个算法啊，如果大家在这个互联网公司干过的话，应该很常见，就是类似于大家那个搜索引擎。一搜索，哎，优先出现的是什么是呃，第二出现的是什么？哎，大概就是这样一种方法，哎，你把它它把它用在你这个配送仪上面。哎，然后呢，对它进行了一个算法的更新，因为它涉及到多矩阵的一个内容，所以它在权重方面进行了一个微调啊调整，调整之后呢，它的准确度更它的准确度啊，更加接近于真实值。
50:12
导致他现在的应用啊，在高分文章里面，呃，应用是比较多的啊。这是他分析的一个结果，哎。这个就是，哎，作用潜力呢，就是配受体的一个相互作用的一个平均值相乘的这样一个策略。但是呢，它会预测佩提的活性啊。如果我们知道了配知道了，哎，受体细胞根据它的基因表达来预测配体的活性，比如说它预测了这个活性最高。说明它这个胚体表达这个基因的细胞，哎，很可能引起了下它自身基因表达的一个变化，哎，这是对它配体基因表达活性的一个罗列。所以说我们真正分析的过程中啊，通常采用这种多软件的一个联合分析啊，如果大家想分析的准确，发的分高一点的话，一般都是联合分析啊，首先呢，CFDB.
51:04
分析这个显著的配受体，对吧呢，分析这个结果。黑素配体活性。哎，这个时候呢，取交集。哎，高活性的配体，配合CMNDB预测的配受体，哎，取到交集，交集之后呢，这些配受体就是哎，非常那个具有生物学意义的配受体。最后呢，借助track。把它的通路啊，归类于它的生物学通路。哎，归类与生物学通路，最后呢，多样本进行比较，拿到这个特异性的配受体，这个准确度相当高了，只有我只有在那种顶刊上建过啊。一般都不会分析到这么深。嗯，I talk呢，这个方法大家可以试试啊，那个张泽民那个呃，张泽民的文章用过。他的一个方法非常简单啊，非常简单，数据库呢，当然也收集了很多数据库，对吧，它这个算法呢，非常的简单，第一步干嘛。
52:03
找差异金。找高变基因，找差异金，哎，用找见每个细胞的差异金，第二步去匹配。哎，看看配受体库里面那些基因是否在这细胞的差异基因里面，如果在就认为有效，如果不在就认为无效，哎，只要有一个配上就可以啊，就可以可就可以啊，其实呢，呃，这边就这边就给大家简单做个总结啊，就是差异基因匹配配受体。哎，匹配配收集，哎，平均值表示强度。啊，创新性呢，确实比较低比较低，不过那是画的图，很好看啊。画的图相当好看啊。这种图呢，只在这个软件可以实现啊，其他软件还真做不到。哎，还真做不到。好了，我们休息5分钟吧，休息5分钟我们看接下来的个性化问题，大家可以看到啊，这单细胞的个性化问题相当多啊，空间就更多啊，我们休息一下5分钟啊。
55:27
好了，我们回来啊，回来我们还有几分钟休息时间，大家有问题可以提到。咋没提到吹呢，发育？所以说这个呢，其实目前用的也不算很多啊，也不算很多啊，大家常用的那些高分软件还是那些啊，公司在解决售后问题的时候呢，是这样一个策略。就和刚才提到的一样，每个人每周要都要看文献。你像我一样，15天看了27遍，那当然那是最开始啊，后来也经常看。对于一些软件使用的频率。哎，使用的一个参数啊，都非常了解。
56:02
哎，这个时候呢，才把它归类为售后一部分。拿出来诶，为客户服务啊。寻找某个特殊亚群，但是其数目非常少，且马可不确定，只有某个通路被认为有变化，推荐有什么方法呢？这个后面的个性化，诶，在单细胞后面的一个个性化分析啊，会提到这个内容啊，还没有提到这个个性化的部分啊，这个呢，是大家最常见的一个售后分析，哎，非常的。就是什么具有智慧性的一个分析吧，我觉得一般人还分析不了这个内容呢。就是说某个亚群非常特殊，也没有现成的方法定义它，对吧，尤其是组织类的那种细胞，找这种小亚群。哎呀，非常的麻烦，哎，如何实现找他呢？哎，需要用一些比较特殊的方法啊，比如说上节课讲的hot sport的方法也是其中之一啊。那个图呢，去除双细胞该怎么调，你要调整什么呀。去除双细胞该怎么调整？去了双细胞就行了，需要调什么？把它去掉之后再过一遍基础分析啊。
57:06
当然去除双细胞，这里多提一句啊，去除双细胞只能在单样本上进行啊。单样本上进行。双marker也认为是双细胞高分文章也认为也会把它去除啊。而且你的马克找的要准啊，你不能瞎找啊。这个图怎么了？我看一眼。是这个图吧？CD3D。你这个没什么双细胞吧。25群。25岁。25群我告，呃，一般这种啊。一般末尾的群，大家对分群有没有概念呢？就是说分的群越往后，细胞量越少，说明它的分群效率越低，一般细胞最多的那个群就是0群。
58:10
哎，次多的群，一群，如果已经你是分了25个群，他正好是25个那个群，哎，你这个最小的群有疑问的话。一方面它数量最少，另一方面它准确度最低。哎，准确度最低，它表达了一些这个。免疫细胞和这个CDKN2这种双marker一般就把它踢了。啊。好了，我们继续往下啊，继续往下讲我们的差异分析，呃，差异分析呢，可能大家也没关注过啊。一般就那个什么。就这个方法。默认的这个方法直接就往下了，这个叫制和检验啊，当然对于参与分析啊，不是说这种方法不能用，这是一种最宽泛的方法啊，这是呃，包括公司在找这个find marker的时候，对各个细胞类型进行一个差异分析的时候，就用的这个方法。
59:08
它是一种最宽泛的方法，就是说他找到的结果假阳性率最高。但是呢，信息最完整。哎。为了避免丢信息，哎，用这种方法。当然了，也有它本身啊，用了其他也封装了很多其他的方法啊，其他的方法大家如果了解这些方法基本上都和那个报那种方法演变而来的。像这种ROC曲线。ROC曲线就是转典型的Bo的那种方法啊，D检验。T检验呢，这个方法当然不是BOK的，这当然它T检验的这个可视性也比较高啊，也比较高，还有扩充检验LR就是逻辑回归，还有must de seek to等等等，D seek to, 典型的这个book啊。大家在做差异分析的时候啊，哎，这里面主要提醒大家一句，无论哪种方法，当然制和方法，呃，质制和检验的这种方法宽泛性最强，所以说分析得到的差异金啊，一定要经过这个验证啊验证。
60:12
不能把它直接套拿来套用，当然现在啊，对于差异分析的讨论啊也比较多了，啊也比较多了，对于差异分析的一个准确性，哎，也有了一定的判断。你像我这里面列出来一个假阳性率和这个真阳性率，大家可以看一看。哎，随着这个数据上的提升啊。假阳性率也在提升，真阳性率也在提升，对吧，但是它有一个比值。这个比值是什么呢？就是这条虚线。哎，如果这个曲线在虚线之上。哎，认为相对的合理，但是呢，像这种。趋缓。趋缓说明它的一个假阳性率啊，随着这检出的一个数量增多啊。减压性率越来越高了。这是我们不希望的一个体现啊，不希望拿到这样一个结果，我们希望在保证真阳性率的一个前提下，假阳性率尽量的低。
61:08
哎，越低越好。就像右面这张图样，假阳性率啊，增长的很很慢。但是呢，增长胜率会快速的上升，就这个范围。哎，0到大概0.2的这个范围，假阳性率提升的很慢，对吧，但是真阳性率快速的上升，哎，这个范围呢，就是我们想要的一个范围。拿到这种结果的时候，大家可以看到哪些方法经常是这种结果？哎，其中红色表现最好，AOC是0.76啊。IC de这种方法。如果把制和呃质和检验把它放进来啊。它大概和这个绿色的线比它还要低一点啊。他为了不丢信息，所以它是一种最宽泛的方法。这里面有几个问题大家需要考虑一下，就是第一个不同细胞类型之间的差异说明了什么问题？哎，当然现在大家都知道了，就是不同细胞的表达的一个差异呢，一方面是他身份的象征。
62:00
对吧，我们定义的时候找一些差异基因定义，哎，这也是可以的。呃，当然第二个，第二个说明了什么呢？哎，如果大家做负极的话，也说明了它一些，呃，生物学功能的差异对吧。第二个呢，相同细胞类型样本之间，呃，样本之间的差异比分析有没有意义？就是一个class的，我如果我做了整个整合之后啊，一个class的可能有多个样本对吧，那同一个样本的。哎，不对，那是同一个class的不同样本之间进行差异分析比较有没有意义？大家有见过这种做法吗？哎，在之前很多人这么干。事实证明啊，这种方法没有多大意义。他既然能聚成一类，说明它是同样的细胞类型，并且表达特征非常相近，对吧，大连在真正分析的时候啊，往往这个找差异，从这个细胞聚类的层面不是这么找的。就是分亚群，比如分了5个亚群对吧，分了5个亚群之后，其中有一个亚群是疾病组独有或者占主导，或者说肿瘤组占占主导。
63:08
哎，这种差异是我们需要关注的，就是有个群啊，它的表达状态发生了转变，单独聚成了一个群。哎，这种转变是我们需要关注的一个地方，如果说我们对其另外4个群，他们的表达很接近对吧，又很那个，呃，又又是多种样本来源，就他们内部的差异分析啊，啊，意义不是很大啊。宏观样本之间的差宏观样本之间的差异说明了什么？哎，这个就类似于那种报的方法了，把它放到一起加起来啊，做差异分析。那种啊，误差性最大。啊，对于我们单细胞来讲，这种方法是不能用的啊。不适合的啊。在最开始的时候还有人做，后来现在几乎没人做。哎，接下来就是CNV了，单细胞CNV呢，在这个本次课上也专门讲过一个啊，讲过一轮讲过一轮，其中这里面再强调一点，就是第一个。
64:08
哎，找基线啊，就是说。干嘛？要有这个基础，就是说要有这个参考reference。大家如果说没有准确的一个referenceence，哎，就用免疫细胞啦，那些非M班的细胞多选几个进来，哎，尽量的减少这种误差的干扰。第二个呢，就是这个Windows。哎，100个窗口，100个基因作为窗口，哎，就可以了，这是默认值啊，当然有的有的文章啊，会用到150。哎呀，用到150是什么原因呢。嗯，他可能怀疑这个CV啊，在更大范围之内都有这个CV事件会放到150。哎，当然我们一般做用100就可以了。这个过程呢，就是简单的一个逻辑过程啊，首先呢，数据剪切，把一些异常值踢掉，把一些真实值归一到一个范围之内，像这就是-3~3了，对吧。
65:01
哎，规律到范围之内呢，第二个。用这个。肿瘤样本的一个表达值，哎，和这个真实的样，和这个参考的样本进行比较，看看它表达是高了还是低了，来判断CV，最后呢阈值，这个阈值在这个CV课上专门强调过，这个阈值有硬阈值，就是公司常见的做法，0.1为硬阈值，1.1以上就是application 0.9以下就是loss。哎，这种英语指导其实不太可取。大家尽量选择那种软玉纸，就是我在课上提到的那种第二种方法，用那种方差式的方法，哎，这种软玉纸啊，相对结果更可靠一点，最后一个呢，就是检验，哎，检验之后呢，就是要降噪，把CV信号保留真实的CV信号，呃，去除那些哎，就是非生物学信号的内容，最后呢，达到我们能估计的内容。这个就是它的一个逻辑啊，逻辑。算法，哎，其实就是简单的加减乘除啊，很简单。
66:01
哎，这是分析得到的一个结果啊，分析得到一个结果，大家可以看一下，真正的大家做CV啊。啊，一般分析得到的结果都是这样的，我做项目反正分析得到的都差不多是长这个样。嗯。比如说恶性，它确实有的地方确实恶性程度比较高，哎，良性有包括这个肿瘤挨着的地方，就是这个交界处确实也有一些C位，但是呢，也和正常细胞有一些交界。这用的比较多，你像这个也是一样的，这个就是真实的项目，这两个都是真实的项目来源的那个。呃，样本数据分析啊，大家可以看到基本上。完整的一个结果就是说大家指定这个rap啊，很干净。特别干净。对吧。而我们想要分析的细胞类型呢？具有明显的C微信号。哎，不同类之间声微信号会略有差异，像这种呢，可能是过渡态，有声维信号，也有正常细胞的一个底线，像这种呢。这个是C级CC。
67:01
啊，这个是1234，反正这个群吧。哎，它的纤维信号不明显和基本和这个正常很接近，哎，说明它处于normal啊，这个I防区，这是我们想要的一个分析结果了。哎，明白吗？这就是CNV分析得到的一个结果啊。啊，有的时候呢，我们会进一步，哎，分析这个进化树。这个进化术啊。和我之前讲课那个原理是一样的，CNV是一个累积的过程，对吧，累积的过程，哎，如果大家都有这种CV事件，说明它最早发生。哎，如果有的是因为事件只有在部分细胞有，哎说明它是一个进化的方向，进化的一个分支之一，通过这样一个原理呢，我们就可以看到，哎是因为事件最先积累的是哪些信号。哎，随着分叉，分叉这种分化的方向，哎来看，哎是因为信号它的一个分支到底是怎么分化发育的。
68:00
哎，从而形成这样的这种树形图的一个结构。嗯，把它们放在一起，就是这样了。对吧，比如说这个的染色体吧，有干事件。12345678，哎，这有概事件对吧。四五六是loss。四五六啊这种都是losss之间，当然随着这个分叉的进行啊，有的在蓝色地，实际上有LOSS19在呢。哎，有些看不清啊，大概是这个位置吧，有的就有这个涝死事件，有的就没有落死事件了，像这个的就没有，有的就有一些轻微的，有的比较严重。哎，等等等等，它就会形成一个分化的方向啊，从而导致整个的细胞啊，朝着不同的方向发展，形成我们希望内部的一致性。啊，这是CV。接下来就是batch啊，Batch这个就更加的重要了啊，大家现在基本上都要去外去这个批次啊，无论是单细胞还是空间啊，现在都是多样本分析啊，一样的，没有人做一个样本，做一个样本也发不了文章，大家即使是挖掘公共数据。
69:08
也需要多个样本，那么这样的一个前提情况下呢？哎呀，去皮质就是一个很大的问题了。批次来源都是什么？哎，生物学条件，包括不同平台，包括不同物种等等等等这样的批次来源啊，都非常的广泛，大家知道，大家知道那个真正的批次体现在我们数据上是一种怎么样的体现吗？哎，体现在我们真实的一个数据上的体现，就是表达值有差异。大家都知道单细胞呢，作为一个job Sha技术。它的补货效率啊，其实在2%~60%之间。那也就是说，我们如果都以30%为例，就是补货效率是30%来讲。一个样本捕获的30%和另一个样本捕获的30%，他们之间的交集啊，可能只有5%。
70:03
哎，另外25%都是补货的不同不同的一个信息，哎，这个时候就能形成我们所谓的这个批次了。哎，我们需要把它这个批次效应给它矫正回来啊。作图class group到底选择还是force啊？但是这个group是人家软件自带的那个呀，要用class的那种模式啊。这个呢，我，呃，这个之前写过推文，你可以借鉴一下。首先呢，第一步我们来判断批次啊，像这种是批次吗。大家觉得这种算批次吗？哎，就是红细胞，哎，红色和蓝色是两个不同的样本，但是呢，它这个相有点挨着，但是界限很明显，算批次吗？啊，不算啊不算，这是一个正常的现象啊，第一个，哎，我们需要认识之样本之间的一个批次，不能再像以前那样，CC必须矫正的很完美，那种是错的。
71:07
啊，必须要有交集，这种想法也是错的，在空间上更是错的。明白吧，他们之间有差异属于正常现象，如果没有差异，那怎么会得病呢？对吧，怎么会有这种肿瘤的发生呢？啊，说明这种有差异是正常的，但是它的生物，但是它的一个标志物。哎，很多又是一样的，对吧，它即使癌变了，它还是上皮细胞，他该表达上皮细胞的特征还是会有的，这个时候就会呈现出哎蚊高分蚊帐这种说法，哎这种这个。相互有一些挨着，说明他们的表达是有一些相似的，那相似度是比较高的，同时呢，它又在空间上相互分开一点点，对吧，说明它确实内部发生了变化。导致了它的整体一个发生啊，像这种还有单独聚类的。哎，这个批次啊，一定要根据自己的一个实际经验来看，从大多数情况来看啊，大多数情况来看，尤其是现在是大样本量，像这种略有交集。
72:10
哎，略有分开的。哎，认为是合理的。啊批4这个没有计算值啊，没有计算值目前我不知道啊。啊，不过你不去PC的话，要么会完全分开，那肯定是错的啊。哎，这个是皮次矫正的方法啊，皮次矫正目前啊，公司一般默认哈姆尼。啊，默认harmony。当然THAD2THREAD3这种方法矫正的也有点过强了，像THREAD4和THREAD5也是一样的，矫正的有点过强了，导致它内部的差异就是。有点过矫正的感觉。但是啊，这种过矫正不是说完全不能用，像这种水平重复，确实需要这种过矫正的。明白吧，他们如果是水平重复。
73:00
哎，但是呢，由于测序啊等等原来导致的一个差异啊，确实需要过矫正，就是把它矫正的很均，均匀一点，这种方法还是要保留的啊，不过从不同条件之间来看，哈姆尼啊是一种弱角中的方法，相对啊就会更加的合理一点。目前高分文章啊，运用的频率最高的就是哈密，第二高的呢就是CC。当然了，还有其他的像legal，哎，基于这个非负矩阵分解的方法进行一个矫正也是有的啊。呃，如果用Python的话，用这个BBKN也可以，这个BBKN诶在张泽民的一个高分文件中也是有用的，他这个百万级别细胞在矫正批次矫正的时候用的就是这个方法。啊，说明啊，不同的方法确实有不同的一个用处啊，没有说谁。占据绝对核心这样一个方法，更多的是要依据这个，哎，把各种方法去皮次看看，我们看看哪种效果更好一点，而且去皮市和细胞类型息息相关啊，大家去完批次之后，一定要把这个mark克看一看。
74:06
看看它的一个表达，一个特征是什么，从目前来看，Harmony既然大家都用它，哎，说明它这个去皮质的一个内容是最好的。好。当然了，哈米利这个去除批次的一个方法，大家最好把原文看一看。把原文看一看。因为他的原文啊，写的非常详细啊。不要简简单单的就听我一说啊，它的这个是弱矫正，那么弱矫正的原理是什么呢？大家要回原文看看，并且大家要看看它的一个不同。你看前面的方法都是矫正，哎，Normalize, 呃，CC这个是在这个PC的这个基础上进行矫正，大多数呢，都会产生一个都会扭曲它的一个表达矩阵。就是把它的值给它改了，本来表达的是1，为了去皮，是改成5，哎，这种方法合不合理呢？我个人认为。呃，分移啊，分移不太合理，像这种哈密的方法，它是在这个高维空间上进行矫正，这个时候是在PC那个矩阵上进行矫正。
75:07
哎，只矫正它的高维空间，而不表不改变它的真实表达值。哎，这个呢，就相对的好一点，合理一点啊。哎，这个是矫正的原理，像CCA呢，矫正原理就是两个样本相互比较，把一个样本作为这个reference，一个样本作为这个credit，就是询问的样本，然后计算相关性。哎，把这个细胞插到和它相关性最高的一个地方，那么自然而然来讲，这种原理自然会导致什么？哎，过矫正的一个问题，因为每个细胞它在计算这个相关性的时候，必然有几个细胞和它分相关，哪怕相关性很低，它也能排出个第一第二来。然后插到他的旁边之后呢？呃，自然会有鼓角灯的一个问题存在，这个在sweat自身的作者上也是承认这一点的啊。然后这是一个简单的一个过程啊，找这个相关性插进来啊。
76:04
这是一个逻辑上的一个过程啊，逻辑上的一个过程大家可以看一看，第一个就是识别，识别锚点，哎，锚点配对哎，锚点权重矩阵，就这个地方就是计算相关性，计算这个不同样本之间这个细胞距离，它最相近的细胞距离是多少，计算相关性。最后呢修正，然后进行一个。插插入大家可以看它这个插入啊，确实它图的演示也存在这种就是插的很均匀的这种特点。有没有发现绿色和紫色，哎，擦的很均匀。那说明这种算法本身就有这种，呃，偏向于过脚的啊。哎，这是大家需要思考的一个问题啊，需不需要CCA还是直接合并呢？啊，当然，现在大家都是直接合并哈姆尼了啊。精心化，在合并前还是合并后，尤其是用CT的时候。
77:00
哎，句话。军心化呢，其实哎，没有什么，你就是单样本和多样本，哎，合并前后呢，军训化的效果是一样的。如果采用那种普通的log normal的话。但是如果大家用sat的话。啊，这个就不一样了。就是说多样本整合之后再用sat，哎，这种方式会更好一点啊，因为sat它是会计算基因表达的一个分布。你单样本的分布和多样本的分布必然会存在不同。哎，它基是这个分布特征呢，来计算这个来对均匀化进行一个适度的矫正。适度的交到，所以说呢，现在一般是先按墨子，然后再I sat啊这个多一点。高变基因是单样本分析完取焦基因，还是多样本合并后当成一个样本再挑选高变基因呢？哎，这个又是什么样的一个策略？我给大家的脚本啊，是第一个策略，就是单元本分析完取交集，然后去下一个分析。哎，当然了，如果说多样本合并成一个样本，再挑选高变基因的话，这种方式可不可以呢？
78:04
啊，也可以也可以，只不过是啊，这个时候如果你多个样本合并之后，当成一个样本再挑选高面积啊，就不能挑2000了。2000就太少了啊，很可能忽略生物学信号。嗯，要适当的多一点。刀片基因挑选的数量对分析结果有什么影响？这个在诺河的时候测试过。就是说它高面积五百一千两千三千这样一个梯度式的一个分布，看看它对结果的一个影响，事实证明啊。基因在两到三千的时候是效果最好的。这也是为什么大家选择两千三千这样一个样子，诶，因为2000~3000这个效果是最好的，无论对于单细胞还是空间都一样啊。哎，常见的find anchor和弱脚症。直接合并有哪些区别？哎，这个大家回头可以看看啊，区别还是蛮大的啊。CC为有什么存在过节症的问题就在于它的这个相关性计算上的差补问题。
79:00
然后呢，就是共表达网络了，共表达网络就是刚才那个夏同学，哎，提到的这个问题了。提到的这个A。寻找特殊鸭群非常少，Mark可不确定通过有变化，这个时候要什么呢？这个时候啊，这些什么wgcna啊，Hot sport呀，NMF啊，这些方法就派上用场了，他就是专门来干这个事儿的。关于加强平均网络呀，当然现在现在用的都是HD。WGCNA啊，就是那个高维的数据那个WGCNA，它会。哎，适当的降低一些生物学噪音信号。等等等等啊WGCNA呢，目前也用的是比较多的啊，它对于这个具有高协同的基因。高度协同的基因，就是说同高同低的基因，给它分成一个模块，不同的模块之间呢，呃，具有很强的一个具有模相互独立性啊，模块内部具有很强的一个关联性。哎，从而形成这样一个生物学信号。
80:02
这是一个简单的分析结果，右边这张图呢，就是要寻找那种特殊亚群存在的一个内容，比如说我某一个群分了8个群。对吧，但是我8个群，那我确实马可不好定义，怎么办呢？就用这种加强共表达网络。来分析分析哪个网，哪个这个模块和哪个细胞的关联性最强。从而判断出这个细胞到底在行使什么样的一个生物学功能，对它的特征有一个很深入的了解。啊，这是它加强公平的加强网络的一个应用。哎，就运用在这种时候。哎，细胞定义定义不出来，马可不起作用，分了小群，这小群呢又有问题，哎小群呢很难定义，哎，就用这种方法。哎，分析方法之后呢，每给亚军做一些生物质功能的复集，就能知道这个群到底在干嘛了，然后呢，有一些可视化的内容，可视化成这种网络。哎，就可以了，这个网络呢，需要用到一个软件。
81:02
找scope。啊，大家有空可以装一下这个软件很好，哎，很好使啊，很好使。相关性分析啊，只不过它这个相关性分析不是大家理解的这种相关性分析啊。他是要找基因模块，基因模块和细胞类型的相关性分析啊。比如说你找到这个亚群，比如说是这个吧，其其实你想要的。哎，你发现一个模块和它的关联度非常高。这个模块的基因就能代表这个亚群。哎，从而对它进行一定的表征。明白吧？第二种方法呢，就是NMFNMF和那个刚才的方法也是一样的，它也是在寻找每个细胞群的一个program，就是它的程序。哎，就是它的程序。在这个讲hotport的时候提到过他，他在单细胞应用中也非常的多，有很多高分文章，纯靠这个方法就能发一篇好的。哎，第一个呢，它运用在主要就是运用在找亚群上。
82:01
哎，找这个也是一样的，有一些表达程序。哎，集中在某一个区域，这个区域呢，和你的细胞分群有关。比如说你分了五个群吧，123456个群吧。你用NMF进行呃，决卷机之后呢，你就会发现你想要的那个群，它到底集中了表达了哪些基因，这个基因主要负这个基因的信号主要哎集中在你想要那个群中。对它进行一个表征也是一样的啊，这个方法也非常重要，但是NMF有一个问题是什么呢？哎，就是前面提到过NMF啊，大家在选择NMF的一个数量的时候啊，有存在人为选择的一个问题。就是说我们需要人为给定他，给定他什么。诶，它到底要形成几个这个程序。哎，需要人为给定它，那很多时候没有这个先验知识怎么办呢。哎，这个课呢，本来哎，我会在后面继续讲，就是说我们会形成一个类似于碎石图那样的方法。
83:01
比如说它的拐点处就是我们要寻找的NMF的一个数量，这个过程呢，这个内容呢，在后面还会再讲到啊，不过今天先大家先了解了解这个内容。哎，NMF这个方法。包括昨天讲到的呃，上节课讲到的hotport。也是专门针对这种，哎，细胞小群。亚群没法定义这种方法，哎，所开发的一个方法就是为了表彰这个群到底在表达什么样的一个生物学特征，以及它和其他群为什么不一样。他自己到底有哪些主要的特征，哎，所开发的一些方法，哎，这些方法当然就用得起来，因为它分析的很精细化，所以使用的时候呢，就比较的那个怎么。比较的麻烦了啊，对人的要求就相对高了。那么在前面的基础之上呢，演变，演变就演变到了这个细胞等级的一个问题了。就是因为细胞基因表达的一个特征啊，存在这样一个程序的一个变化，哎，这种程序的变化呢，就会。
84:05
导致细胞具有这个层次分明的一个等级。就类似于这种结果了。基因表达显示出了哎，不同的一个地方。包括大家在用那个e tap e靠taper啊，就那个ECOTYPR这个软件的时候，它也是借助NMM的方法，对细胞的表达状态进行一个特征的寻找。哎，也是一样的啊。就和大家找那个小群对它进行定义，定义的不是很好，用这种方法呢，就可以适当的把它给区分出来，举个简单的例子，比如说这个这个群和这个群，大家如果用marker啊，用什么定义可能不是很明显，因为它既表达了，虽然表达没有那么高吧，但他也表达了，对吧。啊，像这个地方，这个地方表达高，这个地方表达低，但是我们定义通常是什么，有和没有的关系，对不对，这个时候呢，就像呃，下面这个也是一样的。哎，这个表达的高一点，这个表达的低一点，哎，那这种时候呢，为了区分出两者的不同。
85:04
哎，就需要借助这种NMF啊，Hot sport呀，WGCNA的方法，哎，找寻出它的一个主要特征。把它给区分出来。啊，这个对个人对人的要求比较高啊。大家可要用的时候可要小心一点啊，这是一个简单的例子啊，也是一样的啊，大家可以看一看，基本上形成了这样一个循环。让MF分因子，哎，分病基因特异性形成这个基因集，然后形成了我们这样一个program程序啊。还有一个就是转录噪音了，转录噪音这个不知道大家听过没，这个售后呢，在19年20年非常火啊，那个时候啊，大家对这个基因表达的稳定性啊很有研究。这个地方主要体现的什么呢？就是说我们如果是新的细胞啊，健康的细胞，它的基因表达稳定性应该是比较好的，哎，这里面举了一个简单的例子，哎，随着年龄的增加呢，研究者发现转录有了更大的不稳定性，这个不稳定性是什么？
86:07
就是表达的基因的数量啊，方差比较大。哎，这就叫不稳定性，哎，也就是说准确转录出稳定准确成熟的mna的概率开始下降。而转录出细胞不需要的mna分子啊，概率开始增加，这种过程中会发生不稳定而导致垃圾的mna就是这些mna啊，没有用，就叫转录噪音了。哎，肿瘤噪音的增加对细胞是有害的，也有可能造成细胞不能发育成预期的细胞。转变了细胞的命运，哎，也可能增加新的细胞类型，这种细胞类型往往是过渡态。对大家都是有害的啊，这个地方呢，就是类似于这种的。比如说都是T细胞。哎，正常的人的体细胞比上肿瘤细胞的体细胞，哎，对他的一些标志物，标记基因，对他的基因表达的一个哎方差。
87:00
以及它的表达值进行一个分析，看看它的稳定性有多高。稳定性越高，说明愈后越好，稳定性越低，呃，说明哎，生物学效果越差。哎，简简单单这样一个关于转录的一个稳定性的一个分析啊，这个在之前啊，经常有人做，现在做的也不多了啊，因为确实发现那个。在讲VDJ的时候，其实多样性会变多。包括这个得病了之后啊，细胞的多样性会变多，那么这个这个时候呢。很多这种基因不稳定的现象，就是由这个呃生物学现象导致的，不再是这个因为衰老啊，呃疾病的现象导致的，所以说呢，这个地方在研究呃，应用的不是很多，不过在发育的时候偶尔会用一下。尤其是损伤的状态。损伤的状态，就是说我们不损伤，当然基因表达是恒定，比较稳定的，但是如果损伤了哪些基因，哎，变得极其不稳定。
88:00
这就是我们需要分析的一个内容了。哎，这个知识总的噪应大家知道，有这么个售后就可以了，一旦将来遇到它，可以想起它并运用它一下就可以啊。接下来就是转录因子了，转录因子呢，其实也是一样的道理啊，它是为了保证细胞的状态，所以形成的这样一种分析，哎，行，它的主要的一个原理呢，就是说TF因子来调节靶基因的一个表达，对吧，我们细胞既然有这种差异表达基因，哎，表达高了，表达低了，必然是由TF因子调节的，TF因子的上游就是配受体啊。他只不过把这两部分分开了。哎，大家常见的常用的应该就是这个西尼克加这个。啊，常用的就是西尼克，不过这西尼克啊。非常耗资源，分析起来非常麻烦，而这个软件相对会好一点，不过这个软件把每个细胞当成一个，哎，整体了就是报那种模式。哎，这个是分析的过程，第一步干嘛识别这个共表达的基因。
89:03
哎，纯功表达第二步，哎，就要利用数据库了，利用数据库来判断哎，每个TF因子调节的靶基是什么，并且把它进行一个汇总，汇总出来维度细胞的一个表达状态，并且分析每个T因子调节的一个。什么motif啊，这个motif序列TM1制调节的motif序列是什么？包括它的下游靶基因是什么，把它汇总成一个基因模块，表征到我们的细胞类型上，从而判断出细胞类型的一个表达的一个状态。这是它最初的一个原理啊，分析出来大概就是这样一个样子。哎，包括打分啊等等内容啊，看看我们不同的细胞类型之间，呃，有怎样的一个短状态。哎，还有这个这个呢，其实这个软件啊，其实在公司上用的比较多，用的比较多，如果大家想要找这种呃。不同的细胞亚群之间，哎，它的一个转入状态的话，用它也比较多啊，用它也比较多，这是表征这个不同的细，首先是表征不同的细胞类型之内。
90:08
哎，相互之间的一个。调节上的一个变化。哎，调节上一个变化。其实重点呢，就是说TF因子调节靶金是吧。因此可以将TF活性哎与他们的状呃细胞的状态有关。这个时候呢，大家就要注意了。注意什么？不同细胞类型之间，哎，分析活性意义大吗？哎，还好还好啊，但是它主要是用在这个不，呃，一个细胞不同亚群之间的一个，就和刚才那位同学提到的，我这个群我不知道怎么定义它TF因子，呃，这个转录因子的活性也是定义它的手段之一。就是说根据他表达的一个状态，看看哪些TF因子在调节它的表达。
91:01
哎，看看他的一个状态，为什么和其他不一样。这也是用来识别哎细胞亚群本身转录特征的一个手段。明白吧，哎，非常复杂啊，越往后越复杂。这是TF因子。哎，接下来就是AT分析了，AT分析我们就简单的过一过啊，其中最常见的方法就是c ni加阿RR，不过这是之前了，阿尔版本居多。嗯，到了现在啊，Python版本居多，就是我给大家上课讲到的那个方法。其中呢，差异分析呢，就是差异开放区域，它和单细胞不一样，差异区域就是差异开放区域，哎，不同的细胞类型，哎，不同的细胞类型，它的信号哎不一样。等等等等。哎，包括它的联合，联合其实啊和单细胞联合也强调过，其实就是为了给a tag的一个细，给a tag的一个细胞呢，给他一个细胞身份。给他一个label。哎，用来进行一个差异分析，差异开放阅读区域，包括pick，包括pick的一个分析。
92:04
哎，等等等等啊。还有一些呢，就是这个胖嘟了啊，胖嘟这个当然用的不多啊，用的不多，现在更多的用到就是snap attack多一点。然后就是核转，呃，核转核，其实单细胞单细胞转录组和单细胞核转录组其实分析的差异性不大啊，不大，但是它数据本身有这个差异性。这个图呢，大家可以看一下，对于我们单细胞转录组。哎，成熟的MMA居多是吧，占了大概8成。但是对于核转楼主。哎，他的一个非成熟的。大概占了8成，刚好比例是反过来的。哎，刚好比例是反过来的。那么，这两种数据的特点最大的集中体现体现在哪儿？哎，体现在对这个velocity分析上，哪个更准确一点呢？哎，从这个原理上来讲，这个核转漏度的分析为老的准确性更高。哎，明白吧，因为它非成熟的比较多，说明它在大量的剪切这个过程啊，相对它比较容易捕获一点，如果大家都很成熟的话，哎，已经到末端的时候，哎，准确度就会下降啊。
93:10
哎，合转加a tag, 这个是多组学的一个概念了。大家都知道，现在单细胞有一个方向是这个多组学方向。哎，同时捕获一个河内的转录组件AT。对于他的一个内容呢，也是一样的，虽然呢，开发了一个WNN的方法。但是这个方，但是首先第一步大家要知道啊，这个合转楼主加A泰的这样一个技术啊，目前发的文章不是很多。最主要的原因是什么？细胞率过高，失败率过高，实验失败率过高导致啊，对实成的这个反馈啊都不是太好，但是目前呢，也有一些人在用。啊，也有一些人在用。哎，关于这个WN啊，是中国人，就是那个郝玉涵，不知道大家知不知道这个人啊，是一个中国人啊，他在微视这个层面，SP微视上开发了这个方法，就是用来分析核转家。
94:05
多摩擦数据啊。它的一个原理呢，其实就是。相当于把RNA和a tag数据啊，给了一定的权重，RNA比如说权重是80%，A tag权重20%，这样两种数据在合并的时候呢，哎，是都起到了一定的分群的作用，从而形成了这样一个。哎，相互结合放在一个图上的一个角。当然这个地方也跟大家提到过，现在很多分析啊，不是这么分析的。只是分析了R。哎，把RNA数据分析好之后呢，直接把它这个细胞这个标签啊给到一太，因为它是同一个核内的吧，哎，给到他，然后就做差异分析了，分析它这个PK风的差异，包括它的分布等等啊这种的居多一点。哎，这种的居多一点啊。最后呢，我们来看看VDZ，呃，VDZ这个讲的也很多了啊，也很多了，呃，CDR三区哎，是我们补货的一个重点区域，对吧。
95:04
哎，它的一个结构大概是这样一个状态，这是BCR，这是TC。哎，对于我们这个分析啊，第一个首先要分析这个TCRD，就是我们的TCR聚类的一个内容。哎，根据它序列的相似度进行一个聚类。哎，聚类完之后呢，有些相似度聚成一类，有些相似度分成了不同的类，当然这个聚类再强调一点，不是简简单单的A和T不一样就把它分开，而是不同的氨基酸具有相同属性的要相互靠近，不同属性的要彼此分开。啊，所以说这个序列相似度啊，不仅仅是at cg这样字母冷冰冰的字母，而是要根据它生物学功能进行简单的划类。哎，化疗完之后呢，第一个哎具有相似的特异性，相似的特异性呢，就要分析，对人群进行分析了啊对人群进行分析了，不同的人群，哎得病和非得病，它的一个人群进行一个，哎某体复分析之后啊，看看哪些积蓄是我们想要的一个序列，哎，哪些不是我们想要的。
96:05
等等等等啊，这是一个简单的介绍。其中我们最啊，当然这是蛋白结构层面了，这个也讲过啊，像施一工就在干这个事儿。研究蛋白结构的一个变化，并对它进行改造，看看能不能拿到一个很好的一个生物治疗的效果。哎。关于这个VDC的分析啊，在这个2020年的时候。有一个方法很好。就叫conga，就是这篇文章提到的这个方法。他呀，在这个分析的时候啊，既分析了转录组信息，也分析了TCR的信息。把两者信息相结合，分析这个网络。从而得到了一个真实的。哎，和这个就是说多主学信息的一个内容。哎，分析的结果大致呈现这个样子。咱们呈现这个样子，就是不同的群，哎，比如T细胞分了这几个群，每个群它的一个基因的motif是什么，到底哎，它的序列特征是什么？哎，分析得到这样一个结果啊，当然这里面我在上这个VB这个课程都有，哎，VB这个课程的时候也强调过。
97:17
强调过什么呢？我们想要分析这种目标的VDG序列，首先干嘛？哎，首先要找到疾病所占据主导的T细胞群或者B细胞群，这个群如果是疾病独有，说明他很可能是对这个疾病有这种呃识别效果的，把他的moif拿出来分析分析，才是我们想要的一个moif序列啊。对，这就是这就是一个VD的分析了。当然还有BCR分析，BCR分析因为存在超突变的一个现象，哎，前面提到过存在超突变的现象，所以对它的分析啊，稍微更加复杂一点，因为一般用这个。Deadline多一点啊，Deadline多一点，不仅分析它克隆的一个多样性的变化。
98:01
哎，也要分析它这个超突变的现象，以及我们提到这个motif的一个内容。啊，这个母提问的内容专门有个脚本给到大家了，分析一下，包括VDZ啊，要分析这个克隆的什么。克隆的一个演化就是随着轨迹分析它的一个VVDZ的一个变化，第二个就是某T序列。第三个就是什么克隆共享，如果有血液样本和组织样本，分析一下是否存在克隆共享，组织样的VDZ是否来源于血液中，血液中啊？好了，我们流水账似的把所有的一个单细胞，几乎所有的个性化分析过了一遍啊，不知道大家感受如何，感受如何？哎，非常的复杂啊。非常的复杂，那么从这个分析的层面来讲，哪些是必做的呢？双细胞驱除现在是B做的。哎，比如降噪呢。
99:00
适当的情况做不做啊，有可能不做啊，大概率不做。去污排污呢，公司层面是必须做的，不知道大家做不做啊？如果说曲线很好，哎，不做也可以，如果说曲线没有那么完美，就需要做一下了。细胞定义。必做的，轨迹分析几乎是必做的啊，没有什么。哎，没有什么项目不做啊，都要做一下。通讯。必做的，这个没有什么争议啊，只要是个文章研究，单细胞都做。通讯B组，然后差异啊，这个也B组。英CV肿瘤细胞才做研究肿瘤的一个特征的时候做。哎，批次现在几乎是必做。就是说大家都是多样板了，批示肯定是都做的。哎，WG包括这个。NMF, 包括昨天讲到的hot sport, 在对细胞亚菌识别的时候才做。
100:00
就是某个群模棱两可，不太清楚，哎，对他真心才做。细胞等级这个属于偏门的个性化，做的不多，但他有的时候在研究细胞这个过渡态的时候会做一点，比如说这个是过渡态啊，这种是起始态，过渡态就他这个基因，基因表达特征的分析的时候会做一点。转录噪音，哎，这个在研究细胞稳定性的时候，哎，稳定性的时候会做一下。转录因子。几乎是必做的啊，几乎是90%以上都是做的啊，因为要表证这个细胞的不同状态，哎，都是要做的。哎，AT呢，这个就是大家视情况而定了啊，有ATC的数据肯定是要做的啊。哎，VDZ呢，这个某T是肯定要做的。哎，某T序列是肯定要做的，克隆轨迹和克隆共享是选做的啊，根据自己的课题情况而定啊。这就是单细胞主流的一些售后分析啊，当然还有一些其他的啊，一些冷门的我们就不包括在内了。
101:02
好吧。行了，我们这节课呢，就把单细胞的个性化分析过一下啊，过一下，看来下节课还是要把这个空间的各位过一下啊。下节课我们。

展开

我来说两句

0 条评论

登录后参与评论

作者

追风少年i

第19课：单细胞个性化分析汇总原创

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐