从TCGA数据库中探索乳腺癌微环境中具有预后价值的免疫相关基因
原文作者:Yang, Hao; Zhao, Kankan; Kang, Houlong; Wang, Mengchuan; Wu, Aiguo (2020)
摘要:乳腺癌是全球女性最常见的恶性肿瘤之一。许多研究表明,肿瘤微环境细胞、免疫细胞、基质细胞感染对预后有重要影响,因此寻找生物标志物对实现更好的治疗和预后很重要。为了更好地了解免疫和间质细胞相关基因与预后的关系,我们在TCGA数据库中筛选乳腺癌患者,并根据免疫/间质评分将其分为高组和低组。接下来,我们分别鉴定了与乳腺癌患者预后显著相关的差异表达的免疫相关基因,进行功能富集分析和蛋白-蛋白相互作用网络。最后,我们在基因表达合成(GEO)中选择了一个单独的乳腺癌队列进行验证。免疫评分和基质评分在亚型分类的相关性中均有意义。免疫评分高组患者的无病生存期明显长于免疫评分低组患者。比较中提取的差异表达免疫相关基因可以有效评价乳腺癌患者的预后,这些基因主要涉及免疫应答、细胞外基质和趋化因子活性。最后进行了一系列的验证,预测乳腺癌患者预后的肿瘤免疫相关基因。利用表达数据库和TCGA数据库,结合对恶性肿瘤组织中基质细胞和免疫细胞的估计,提取肿瘤微环境相关基因列表,有助于判断乳腺癌患者的预后。一些以前被忽视的基因有可能成为乳腺癌的额外生物标志物。对这些基因的进一步研究可以使我们对肿瘤微环境与乳腺癌预后之间的潜在关系有新的认识。
关键词: 无病生存;基因表达综合;免疫评分;癌症基因组图谱;肿瘤微环境
1介绍
乳腺癌是全世界女性最常见的恶性肿瘤。每年死于乳腺癌的女性人数在女性恶性肿瘤死亡人数中排名第二。每年有50多万妇女死于乳腺癌,其中中国占9.6%。20世纪90年代以来,中国乳腺癌发病率的增长速度是全球乳腺癌发病率增长速度的两倍。据估计,到2021年我国乳腺癌患者人数将达到250万,高死亡率和发病率的迅速上升使乳腺癌的进一步研究更加迫切。为了更好地理解肿瘤基因组成或临床结果的影响,研究者们建立了TCGA和GEO等全基因组表达集,对全球范围内的大量基因组异常进行了分类。在TCGA数据库中,根据整体基因表达谱初步将乳腺癌分为4个亚型:luminal A、luminal B、Her-2阳性、base-like。随着这些进展,基因表达谱越来越多地被纳入。纳入临床诊断标准并被接受。肿瘤细胞的内在基因,尤其是转录因子,决定了肿瘤的发生、发展和进化成乳腺癌。与此相反,也有报道称肿瘤微环境(tumor microenvironment, TME)对肿瘤组织基因表达有重要影响,从而影响临床结局。TME是肿瘤所在的细胞环境。由于肿瘤细胞与TME相互作用的复杂性,识别能够区分哪些患者更有可能从这些治疗中获益的生物标志物,从而实现更好的预后是非常重要的。它包括免疫细胞、间充质细胞、内皮细胞、炎症介质和细胞外基质(ECM)分子。在TME中,免疫细胞和基质细胞是两种主要的非肿瘤成分,它们在疾病的发生和发展以及细胞对治疗的反应中发挥着重要的调节作用。以前的研究表明,高水平的免疫细胞浸润与良好的预后相关,这意味着评估生物标志物预测反应和预后对于提高免疫治疗的成功率有很大的潜力。
已开发用于预测肿瘤算法纯度利用TCGA数据库中的基因表达数据。例如,Yoshihara等人设计了一种名为ESTIMATE的算法(利用表达数据对恶性肿瘤组织中的基质细胞和免疫细胞进行估计)。该算法通过分析免疫细胞和基质细胞特异性基因表达特征,计算免疫和基质评分,并预测非肿瘤细胞浸润情况。
随后的报道很快将这种估计算法应用于前列腺癌和结肠癌,显示了这种基于大数据的算法的有效性,尽管尚未对乳腺癌的免疫和/或基质评分的效用进行详细的研究。本研究结合乳腺癌人群TCGA数据库和估计算法,探索乳腺癌微环境相关因素,并进一步识别乳腺癌预后的免疫相关生物标志物。重要的是,我们已经在GEO数据库的不同乳房队列中验证了这种相关性。
2方法
2.1 数据库及统计分析
本研究使用的数据来自公共领域,不需要伦理委员会的批准。乳腺癌患者的基因表达谱来自TCGA数据门户网站(https://tcga-data.nci.nih.gov/tcgal)。临床特征,如性别、组织学类型、生存时间和转归也从TCGA数据门户获得。应用估计算法计算肿瘤组织中基质细胞和免疫细胞水平的评分。乳腺癌的免疫评分和基质评分从ESTIMATE网站(http://bioinformatics.mdanderson.org/estimate/)检索。该网站提供了预测TME中免疫细胞和基质细胞浸润的简便方法。为了验证,我们从gene expression Omnibus (GEO)数据门户网站(http://www.ncbi.nih.gov/geo)下载了乳腺癌患者的基因表达概况和临床信息。
采用单因素方差分析比较不同亚型的免疫/基质评分,生成Kaplan-Meier生存曲线来说明患者的无病生存(DFS)与差异表达基因(DEGs)基因表达水平的关系。用对数秩检验检验两者的关系。以上图是使用GraphPad Prism 7绘制的。使用R软件(3.5.2版)中的Spearman秩相关系数包来显示最终验证基因之间的相关性。
2.2 表达基因的差异分析
使用软件包limma对TCGA数据集进行数据分析。利用R软件(3.5.2版)中的limma软件包,我们对高免疫评分组和低免疫评分组的差异表达基因进行了鉴定。折叠变化gt;1.0和调整P lt;0.05为截流点,筛选DEGs,火山图显示结果。使用开源网络工具ClustVis生成热图和聚类
2.3 功能分析
利用字符串数据库构建蛋白质相互作用(PPI)网络,并通过Cytoscape软件进行重构。选取节点数在20个以上的单个网络进行进一步分析,并计算网络中每个节点的连通度。利用分子复合物检测(MCODE)基于拓扑结构找到簇,定位紧密连接区域。
通过注释、可视化和整合发现数据库(DAVID)对DEGs进行功能富集分析,以根据其生物过程、分子功能或细胞成分(CC)来识别基因本体(GO)类别。DAVID数据库也被用于执行京都基因和基因组百科全书(KEGG)通路。以错误发现率lt;0.05作为截断点。
3结果
3.1免疫和基质评分与乳腺癌亚型和预后的关系
记录了723例原发性乳腺癌病理诊断患者的基因表达谱和临床资料其中女性702例(97.1%),男性6例(0.8%),性别不明15例(2.1%)。其中管腔A亚型346例(47.9%),管腔B亚型176例(24.3%),Her-2阳性66例(9.1%),基底样亚型126例(17.4%),14例病理亚型不明。剔除临床资料不完整的患者和男性患者后,498名女性乳腺癌患者最终纳入我们的分析。基于估计算法,基质评分在-2282.33 ~ 1958.16之间,免疫评分在-1343.3 ~ 3487.52之间。4种亚型中,基底样亚型的平均免疫评分最高,Her-2阳性亚型次之,luminal A亚型次之。luminal B亚型患者免疫评分最低(图1A, Plt;0.0001)。同样,乳腺癌各亚型基质评分由高到低依次为luminal A gt; Her-2阳性gt; luminal Bgt;基底样(图1B,Plt;0.0001),说明免疫评分和基质评分在亚型分类的相关性中均有意义。
为了挖掘DFS与免疫/基质评分之间的潜在联系,我们以中位免疫/基质评分作为截断标准,将498例乳腺癌患者分为上、下两组。Kaplan-Meier生存曲线(图1C)显示为高分组的病例DFS免疫评分在统计学上长于低评分组(P=0.0004在对数秩检验)。虽然没有统计学意义,但基质评分较高的患者总生存期比较低的患者更长(图1D, P=0.2974对数秩检验)。
图1所示。免疫评分和基质评分与乳腺癌亚型及其总生存期相关(A)乳腺癌亚型免疫评分的分布。箱线图显示,乳腺癌亚型与免疫评分水平存在显著相关。(B)乳腺癌亚型间质评分的分布。箱线图显示乳腺癌亚型与间质评分水平存在显著相关。(C)乳腺癌患者根据免疫评分分为两组。Kaplan-Meier生存曲线显示,高分组的中位生存时间长于低分组。(D)同样,乳腺癌病例根据间质评分分为两组。生存的中位数为高分组长于低分组。DFS =无病生存
3.2 乳腺癌基因表达谱与免疫评分的比较
从之前的分析中我们可以看出,DFS和免疫评分之间的关系具有统计学意义,免疫相关基因值得通过比较高、低评分组来探索。这些从对比中提取的DEGs (Supplemen tary File 1, http://links.lww.com/MD/D942)可以有效地评估乳腺癌患者的预后。因此,我们决定将重点放在这些差异基因上,以便在本文后续的分析中使用(图2)。图2A中的火山图显示了高免疫评分组和低免疫评分组之间与预后差异相关的基因。图2B的热图显示,高、低分值组的比较选择了免疫相关基因;18个基因表达上调,307个基因表达下调(倍数变化 gt;1.5, Plt;0.05)。
此外,我们对325个DEGs进行了功能富集分析,以挖掘潜在函数。质膜,免疫和炎症反应,趋化因子活性,和GO分析显示跨膜信号受体活性。KEGG分析显示细胞因子-细胞因子受体相互作用和趋化因子信号通路(图2C-F)。
3.3单个DEGs的生存分析
我们生成了Kaplan-Meier生存曲线来探索单个DEGs和DFS之间的潜在联系。中位数作为DEGs的高表达或低表达的分界点。在325个DEGs中,共有259个DEGs(Supplementart File 2,http://inks.lww.com/MD/D943)被证明可以显著预测DFS (Plt; 0.05选择的基因如图3A-F所示)。这些基因被认为是潜在的预后免疫相关基因,是进一步研究的重点。
3.4具有预后价值的基因功能分析
为了更好地理解预后基因的关系和功能,我们使用STRING工具揭示了PPI网络。这个网络由7个模块组成,包括295个节点和3811条边。从该网络中选择前4个重要模块进行进一步分析(图4A-D)。PTPRC, ITGB2, LCP2和IL10RA模块与其他基因有很多联系,因此我们给这些模块命名,模块A到模块D。在模块A(图4A)中,模块PTPRC网络中产生了涉及46个节点的826条边。CCR5、IL6、SELL、CCR7、CD2和TLR8是重要节点,因为它们与模块的其他部分有更多的连接。在模块B(图4B)中,ITGB2、CD53、VAV1、LAPTM5、CD3D、ITK、MNDA、CXCL13的度值较高。对于模块C(图4C),有几个关键的中心免疫相关基因包括LCP2、PLEK、BTK、IKZF1、FYB。在模块D(图4D)中,IL10RA、CD48、VCAM1。CD247和S1PR4也与免疫应答基因有关。预后价值基因功能富集聚类与免疫反应显著相关,此结果与PPI网络分析基本一致。顶级基因本体术语(图5A)包括免疫/炎症反应、趋化性和趋化因子活性。此外,KEGG分析得出的所有通路(图5B)都与免疫反应有关。
图3:肿瘤基因组图谱中个体差异表达基因(DEGs)表达与无病生存的相关性(A-F)从高(红线)和低(蓝线)基因表达组的比较中提取选定的DEGs,生成Kaplan-Meier生存曲线。log-rank检验为P<0.05。DFS=几天内无病生存
图4:(A-D)模块A到D的前4位蛋白-蛋白相互作用网络分别为:PTPRC、ITGB2、LCP2和IL10RA。
图5:基因本体术语和京都基因和基因组百科全书(KEGG)通路分析差异表达基因显著与无病生存相关。错误发现率lt;0.05的Top通路如下:(A)生物学过程;(B) KEGG通路。
图6:(A-F)在基因表达合成队列中验证从癌症基因组图谱数据库中提取的差异表达基因(DEGs)与无病生存率的相关性。从基因高表达组(红线)和低表达组(蓝线)比较中提取选定的DEGs生成Kaplan-Meier生存曲线。log-rank检验为P lt;0.05。DFS =无病生存数年。
图7: 44个验证基因的Spearman相关矩阵
3.5在GEO数据库中验证
为了了解TCGA数据库中发现的基因是否对其他乳腺癌患者的预后有影响,我们从GEO数据库(GSE45255)下载并分析了39例乳腺癌患者的基因表达数据。总共有44个基因被验证(图6A-F)明显与预后有关,斯皮尔曼等级相关系数也显示这些验证基因之间的强相关性(图7)。通过搜索大量文献,我们发现这些被证实的基因中有18个基因从未或很少与乳腺癌患者的病理生理及预后相关。
4讨论
在我们目前的工作中,我们试图在TCGA数据库中识别与乳腺癌DFS相关的TME基因。首先,我们分析了通过比较产生的325个deg免疫评分高的组与免疫评分低的组。
通过GO term分析,我们可以发现这些基因中有很多参与了TME(图2C-F)。这
剩余内容已隐藏,支付完成后下载完整资料
英语原文共 8 页,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[270866],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。
您可能感兴趣的文章
- 比利牛斯高山植被植物性状格局外文翻译资料
- 城市街景的整合为全面量化城市绿地生态景观提供了可能性——以西安市为例外文翻译资料
- 城市街景的整合为全面量化城市绿地生态景观提供了可能性——以西安市为例外文翻译资料
- 纳米金在NaBH4催化还原对硝基苯酚中的尺寸效应外文翻译资料
- 矿物成分在生物炭生产、性能和应用中的重要性外文翻译资料
- 纳米锰氧化物改性生物炭通过氧化辅助吸附过程从水中有效去除鳌合柠檬酸铜外文翻译资料
- 海洋中的塑料和微塑料:从新出现的污染物到新出现的威胁外文翻译资料
- PARP1对DNA损伤的NAD 消耗引发了对受损细胞存活至关重要的代谢转移外文翻译资料
- 多不饱和脂肪酸和复发性情绪障碍:现象、机制和临床应用外文翻译资料
- 中国成年居民饮食相关知识、态度、行为与自评健康的关系:一项基于人群的研究外文翻译资料