首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

基于肿瘤HLA质谱数据库的机器学习来改进肿瘤新生抗原的鉴定

大家好,本周推荐发表在nature biotechnology上的文章,题目是Deep learning using tumor HLA peptide mass spectrometry datasets improves neoantigen identification,通讯作者是美国Gritstone Oncology公司的Dr. Roman Yelensky。

免疫疗法逐渐成为癌症治疗的新趋势,目前也有一些由体细胞突变衍生的新生肿瘤抗原,在免疫检测点被阻碍后,会成为T细胞的主要靶标。临床上需要精准快速且划算的肿瘤新生抗原及同源T细胞的鉴定方法。而这方面的一大阻碍是人类白细胞抗原(HLA)表位预测算法的特异性不足,目前HLA一类表位抗原鉴定主要以预测肽段-HLA结合力为标准,有几个基于体外肽段-HLA结合数据库的机器学习模型,例如NetMHC、MHCflurry,都能很好的预测结合力,但是在实际HLA呈递的预测能力很弱,仅有5%预测的肽段能在细胞表面找到,尽管也有结合质谱数据,但帮助不大。准确地预测哪些突变是肿瘤新生抗原,就需要测试所有突变的抗原表位,那么就需要大量的投入样品、试剂耗费、分析时间。作者希望能发展一个准确的HLA I型表位预测算法,来优化肿瘤抗原的鉴定,作为个性化的基于肿瘤抗原的免疫疗法的关键一步。

本文从不同的肿瘤及正常组织出发进行分析,一是免疫沉淀HLA并质谱鉴定,二是对正常组织的DNA进行测序分类与获取外显子组,最终得到的等位基因分类,三是从中提取总RNA并转录组测序,可以作为基因表达的评价,利用这三个完整的数据库训练一个神经网络模型EDGE,可以共同学习等位基因-肽段的映射与等位基因-特异呈递的motif。这个训练集包含了来自101份样品的142844个HLA呈递肽段,验证集包含同101份样品18004个呈递肽段。之后他们用两种质谱数据库测试,分别是来自更多肿瘤组织的729个呈递肽段与训练集中单等位基因邻近区的基因窗口对应的1958个肽段,预测出53个等位基因,也发现HLA呈递依赖于肽段长度及其序列位置、基因RNA表达及基因特异呈递的偏向。

在针对质谱数据库与肿瘤T细胞库优化模型后,作者将其应用在癌症病人的肿瘤抗原的鉴定上,他们分析了正在进行anti-PD1治疗的病人的活组织和外周血,根据之前方法中提到的外显子组测序、肿瘤转录组测序以及对应的外显子组测序,发现了9个癌症患者中人均198个体细胞突变,118个表达了,接着又合成20个抗原表位来测试已有的抗肿瘤T细胞的响应,发现T细胞能识别平均2个人的抗原,刺激T细胞得到的分泌物也是多样的,显示出肿瘤特异T细胞的多样性。

原文作者:LBW

文章链接:https://www.nature.com/articles/nbt.4313

文章引用:DOI:10.1038/nbt.4313

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181224B0AAZZ00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券