版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中文摘要肝癌是全球恶性肿瘤死亡的重要原因之一,其中肝细胞癌是最常见的原发性肝癌类型,占所有原发性肝癌的90%。在中国,肝细胞癌的发病率和死亡率分别位列恶性肿瘤第四和第三位,属于恶性程度较高的类型。因此,本研究将基于加权平均共表达网络的构建,探究与肝细胞癌进展相关的关键基因,以期为此类肝癌的临床治疗提供有力的帮助。我们对TCGA中获得的HCC转录组数据以及样本临床信息数据进行了预处理和差异表达分析,并利用加权平均共表达网络筛选出与肝细胞癌进展相关的关键模块。基于前期研究,我们将关键模块的基因和差异基因进行比较,从而确定最佳的关键基因,并运用单因素Cox回归和Lasso回归,构建出预测模型。通过计算关键基因的风险回归系数,我们获得了样本的风险评分,将样本按风险评分进行分组,并进行K-M生存分析。最终,我们采用高低风险分组的差异表达分析、单多因素Cox回归以及对外部验证集进行验证模型等多项评价,证明了所建立的肝细胞癌风险预后模型的良好预测能力。经过分析,我们发现16905个基因的表达水平存在显著的变化,为此,我们利用超几何分析、功能富集等方法,创建出一个加权的基因共表达网络,从而确定出一些具有重要意义的关键模块。最后,通过对这些关键模块的比较,我们确定出最佳的候选基因。通过使用Cox和Lasso回归技术,我们可以确定重要的基因。我们还可以对这些基因进行K-M生存率测定,比较不同风险水平的表达情况,同时还可以对其他两种方法的结果进行比较,最后通过外部验证来ACK结果的准确性。结果证明低风险患者预后相对高风险患者要好,从而证明了我们所建立的模型具有良好的预后效能。我们获得了16905个基因的表达值进行差异表达分析,在其基础上构建加权基因共表达网络得到多个模块,并通过超几何分析和功能富集筛选关键模块。将关键模块与差异基因取交可得到候选关键基因。利用单因素Cox及Lasso回归筛选关键基因并建立模型,根据模型将样本进行分组,进行K-M生存分析、高低风险组的差异表达分析以及单、多因素Cox分析以及外部验证集验证等多项评价。结果证明低风险患者预后相对高风险患者要好,从而证明了我们所建立的模型具有良好的预后效能。经过深入研究,我们发现在HCC的发展历史上,一系列重要的基因起着至关重要的作用,而且它们的表达水平也会对HCC的预后产生重要影响,从而为hcc的诊断、治疗以及预后评估提供重要的参考依据。关键词:肝细胞癌;WGCNA;关键基因;预后模型
Identificationofkeygenesdrivingtheprogressionofhepatocellularcarcinomabasedonweightedaverageco-expressionnetworksAbstractGlobally,livercancerisamajorcontributortothedeathofmalignanttumors,withHepatocellularCarcinoma(HCC)beingthemostprevalent,accountingfor90%ofallprimarylivercancers.InChina,HCCisfourthinincidenceandthirdinmortalityrates,andisdeemedahighlymalignanttype.ExploringkeygenesrelatedtoHCCprogressionthroughtheconstructionofaweightedgeneco-expressionnetwork,thisstudyseekstoproviderobustbackingforclinicaltreatmentofthistypeoflivercancer.WepreprocessedanddifferentiallyexpressedHCCtranscriptomedataandsampleclinicalinformationdataobtainedfromTCGA,andusedweightedmeanco-expressionnetworktoscreenoutkeymodulesassociatedwithHCCprogression.Onthisbasis,theintersectionofkeymodulegenesanddifferentialgeneswasselectedascandidatekeygenes,andtherequiredkeygeneswerefurtherscreenedbysingle-factorCoxregressionandLassoregressiontoestablishthepredictionmodel.Bycalculatingtheriskregressioncoefficientsofkeygenes,weobtainedtheriskscoresofthesamples,groupedthesamplesaccordingtotheriskscores,andconductedK-Msurvivalanalysis.Finally,weuseddifferentialexpressionanalysisofhighandlowriskgroups,singleandmulti-factorCoxregressionandvalidationmodelofexternalvalidationsetstoprovethegoodpredictiveabilityoftheestablishedhepatocellularcarcinomariskandprognosismodel.Weobtained16905geneexpressionvaluesfordifferentialexpressionanalysis,basedonwhichaweightedgeneco-expressionnetworkwasconstructedtoobtainmultiplemodules,andthekeymoduleswerescreenedbyhypergeometricanalysisandfunctionalenrichment.Candidatekeygenescanbeobtainedbycrossingkeymoduleswithdifferentialgenes.Single-factorCoxandLassoregressionwereusedtoscreenkeygenesandestablishamodel.Accordingtothemodel,thesamplesweregrouped,andanumberofevaluationsincludingK-Msurvivalanalysis,differentialexpressionanalysisofhigh-lowriskgroups,singlefactorCoxanalysisandmulti-factorCoxanalysisandexternalvalidationsetverificationwereconducted.Theresultsshowthattheprognosisoflow-riskpatientsisbetterthanthatofhigh-riskpatients,whichprovesthatourmodelhasgoodprognosticefficacy.Ourin-depthstudyrevealedthatanumberofessentialgenesareessentialtothehistoryofHCC,andtheirexpressionlevelswillhaveamajoreffectontheprognosisofHCC,thusmakingthemacrucialreferencefordiagnosing,treatingandevaluatinghcc.Keywords:Hepatocellularcarcinoma;WGCNA;Keygenes;Prognosticmodel1、文献综述1.1研究背景和国内外研究现状肝癌已被证实为全球恶性肿瘤死亡的首要原因,其中肝细胞癌(HCC)是最常见的原发性癌症,它不仅可能与肝硬化有关ADDINEN.CITEADDINEN.CITE.DATA[1],而且还可能与酗酒、慢性乙型肝炎、丙型肝炎以及摄入黄曲霉毒素等有毒物质有关ADDINEN.CITEADDINEN.CITE.DATA[2]。肝细胞癌是一种常见的恶性肿瘤,在中国和世界其他地方发病率和死亡率都很高。肝细胞癌的治疗效果不佳,仅10-20%的病例能够通过外科技术获得彻底的治疗ADDINEN.CITEADDINEN.CITE.DATA[3],而且5年的总体治愈率也不超过18%。统计数据显示,到2025年,每年将有超过1万肝癌新发病例,这对全球医学领域构成重大挑战ADDINEN.CITE<EndNote><Cite><Author>Llovet</Author><Year>2021</Year><RecNum>8</RecNum><DisplayText><styleface="superscript"font="TimesNewRoman">[4]</style></DisplayText><record><rec-number>8</rec-number><foreign-keys><keyapp="EN"db-id="asvp9xx9kxe0rlex0wp5r5fxaepftrxd90ww"timestamp="1683808406">8</key><keyapp="ENWeb"db-id="">0</key></foreign-keys><ref-typename="JournalArticle">17</ref-type><contributors><authors><author>Llovet,JosepM.</author><author>Kelley,RobinKate</author><author>Villanueva,Augusto</author><author>Singal,AmitG.</author><author>Pikarsky,Eli</author><author>Roayaie,Sasan</author><author>Lencioni,Riccardo</author><author>Koike,Kazuhiko</author><author>Zucman-Rossi,Jessica</author><author>Finn,RichardS.</author></authors></contributors><titles><title>Hepatocellularcarcinoma</title><secondary-title>NatureReviewsDiseasePrimers</secondary-title></titles><periodical><full-title>NatureReviewsDiseasePrimers</full-title></periodical><volume>7</volume><number>1</number><dates><year>2021</year></dates><isbn>2056-676X</isbn><urls></urls><electronic-resource-num>10.1038/s41572-020-00240-3</electronic-resource-num></record></Cite></EndNote>[4]。因此,对肝细胞癌的研究非常重要。现有一些研究表明,有一些基因在HCC的发展过程中发挥着极其重要的作用,可能成为肝细胞癌的药物治疗靶点和预后因子,为临床治疗和预后分析提供帮助。比如,TP53可以通过诱导细胞凋亡来调节肝癌干细胞的数量和活性,TP53的缺失或突变会导致肝癌干细胞的增殖和凋亡抵抗,从而促进肝细胞癌的发生和进展ADDINEN.CITE<EndNote><Cite><Author>Liu</Author><Year>2009</Year><RecNum>7</RecNum><DisplayText><styleface="superscript"font="TimesNewRoman">[5]</style></DisplayText><record><rec-number>7</rec-number><foreign-keys><keyapp="EN"db-id="asvp9xx9kxe0rlex0wp5r5fxaepftrxd90ww"timestamp="1683808336">7</key><keyapp="ENWeb"db-id="">0</key></foreign-keys><ref-typename="JournalArticle">17</ref-type><contributors><authors><author>Liu,Y.</author><author>Elf,S.E.</author><author>Asai,T.</author><author>Miyata,Y.</author><author>Liu,Y.</author><author>Sashida,G.</author><author>Huang,G.</author><author>DiGiandomenico,S.</author><author>Koff,A.</author><author>Nimer,S.D.</author></authors></contributors><auth-address>MolecularPharmacologyandChemistryProgram,Sloan-KetteringInstitute,MemorialSloan-KetteringCancerCenter,NewYork,NY,USA.</auth-address><titles><title>Thep53tumorsuppressorproteinisacriticalregulatorofhematopoieticstemcellbehavior</title><secondary-title>CellCycle</secondary-title></titles><periodical><full-title>CellCycle</full-title></periodical><pages>3120-4</pages><volume>8</volume><number>19</number><edition>2009/09/17</edition><keywords><keyword>Apoptosis</keyword><keyword>CellCycle</keyword><keyword>CellularSenescence</keyword><keyword>DNADamage</keyword><keyword>HematopoieticStemCells/*cytology/physiology</keyword><keyword>Proto-OncogeneProteinsc-mdm2/metabolism</keyword><keyword>TranscriptionFactors/metabolism</keyword><keyword>TumorSuppressorProteinp53/genetics/metabolism/*physiology</keyword></keywords><dates><year>2009</year><pub-dates><date>Oct1</date></pub-dates></dates><isbn>1551-4005(Electronic) 1538-4101(Print) 1551-4005(Linking)</isbn><accession-num>19755852</accession-num><urls><related-urls><url>/pubmed/19755852</url></related-urls></urls><custom2>PMC4637974</custom2><electronic-resource-num>10.4161/cc.8.19.9627</electronic-resource-num></record></Cite></EndNote>[5];CTNNB1的异常激活促进肝癌细胞的凋亡和自噬ADDINEN.CITEADDINEN.CITE.DATA[6];c-Myc可以促进肝癌细胞的增殖并且抑制细胞凋亡通路,c-Myc与多种信号通路相互作用和调控,如PI3K/Akt、Wnt等,从而参与了肝癌细胞的生长、转移和药物敏感性ADDINEN.CITEADDINEN.CITE.DATA[7];SLC1A5在HBV相关肝细胞癌中扮演重要角色,通过调节免疫细胞浸润和产生免疫抑制微环境来发挥作用,SLC1A5诱导的免疫检查点基因在HBV相关肝细胞癌中高表达,可能抑制ICIs治疗患者的治疗反应ADDINEN.CITE<EndNote><Cite><Author>Su</Author><Year>2023</Year><RecNum>5</RecNum><DisplayText><styleface="superscript"font="TimesNewRoman">[8]</style></DisplayText><record><rec-number>5</rec-number><foreign-keys><keyapp="EN"db-id="asvp9xx9kxe0rlex0wp5r5fxaepftrxd90ww"timestamp="1683808224">5</key><keyapp="ENWeb"db-id="">0</key></foreign-keys><ref-typename="JournalArticle">17</ref-type><contributors><authors><author>Su,H.</author><author>Liu,Y.</author><author>Huang,J.</author></authors></contributors><auth-address>DepartmentofClinicalLaboratory,InstituteofTranslationalMedicine,RenminHospitalofWuhanUniversity,Wuhan430060,China. WuxiSchoolofMedicine,JiangnanUniversity,Wuxi214122,China.</auth-address><titles><title>Ferroptosis-RelatedGeneSLC1A5IsaNovelPrognosticBiomarkerandCorrelateswithImmuneMicroenvironmentinHBV-RelatedHCC</title><secondary-title>JClinMed</secondary-title></titles><periodical><full-title>JClinMed</full-title></periodical><volume>12</volume><number>5</number><edition>2023/03/12</edition><keywords><keyword>Hbv</keyword><keyword>Hcc</keyword><keyword>Slc1a5</keyword><keyword>ferroptosis-relatedgene</keyword><keyword>tumormicroenvironment</keyword></keywords><dates><year>2023</year><pub-dates><date>Feb21</date></pub-dates></dates><isbn>2077-0383(Print) 2077-0383(Electronic) 2077-0383(Linking)</isbn><accession-num>36902506</accession-num><urls><related-urls><url>/pubmed/36902506</url></related-urls></urls><custom2>PMC10003624</custom2><electronic-resource-num>10.3390/jcm12051715</electronic-resource-num></record></Cite></EndNote>[8]。尽管与肝细胞癌进展相关的关键基因的识别有了许多的发现,但是仍然需要进一步的进行研究,这将有利于我们了解肝细胞癌,且有助于肝细胞癌的一些预后治疗。WGCNA(加权基因共表达网络)技术被广泛认为是一种有效的系统生物学工具ADDINEN.CITE<EndNote><Cite><Author>Langfelder</Author><Year>2008</Year><RecNum>10</RecNum><DisplayText><styleface="superscript"font="TimesNewRoman">[9]</style></DisplayText><record><rec-number>10</rec-number><foreign-keys><keyapp="EN"db-id="asvp9xx9kxe0rlex0wp5r5fxaepftrxd90ww"timestamp="1683809353">10</key><keyapp="ENWeb"db-id="">0</key></foreign-keys><ref-typename="JournalArticle">17</ref-type><contributors><authors><author>Langfelder,P.</author><author>Horvath,S.</author></authors></contributors><auth-address>DepartmentofHumanGeneticsandDepartmentofBiostatistics,UniversityofCalifornia,LosAngeles,CA90095,USA.Peter.Langfelder@</auth-address><titles><title>WGCNA:anRpackageforweightedcorrelationnetworkanalysis</title><secondary-title>BMCBioinformatics</secondary-title></titles><periodical><full-title>BMCBioinformatics</full-title></periodical><pages>559</pages><volume>9</volume><edition>2008/12/31</edition><keywords><keyword>Algorithms</keyword><keyword>Animals</keyword><keyword>ComputationalBiology/*methods</keyword><keyword>ComputerGraphics</keyword><keyword>*ComputingMethodologies</keyword><keyword>Databases,Genetic</keyword><keyword>GeneExpressionProfiling/methods</keyword><keyword>Humans</keyword><keyword>Mice</keyword><keyword>OligonucleotideArraySequenceAnalysis/*methods</keyword><keyword>PatternRecognition,Automated</keyword><keyword>ProgrammingLanguages</keyword><keyword>*Software</keyword><keyword>SystemsBiology</keyword></keywords><dates><year>2008</year><pub-dates><date>Dec29</date></pub-dates></dates><isbn>1471-2105(Electronic) 1471-2105(Linking)</isbn><accession-num>19114008</accession-num><urls><related-urls><url>/pubmed/19114008</url></related-urls></urls><custom2>PMC2631488</custom2><electronic-resource-num>10.1186/1471-2105-9-559</electronic-resource-num></record></Cite></EndNote>[9]。该分析方法可以用来查找高度相关的基因簇,并以模块为单位进行分析,降低了运算量,提高了准确性。WGCNA首先计算基因表达谱中各基因间的相关性,并将高度相关的基因聚集成网络模块,然后,通过对取样样本信息的附加来探索这些模块与重要的生物学特征之间的关系,最后,利用网络拓扑分析方法对模块进行进一步分析,以确定哪些模块与感兴趣的生物学过程相关。WGCNA最大的优势在于能揭示模块的具体情况,可以从模块级别上探索基因网络与我们所研究的表型之间的关系和关键基因。该方法已经被许多的学者用来研究各种癌症及其潜在的靶点,例如董鹏志等人通过WGCNA对三阴性乳腺癌(TNBC)的基因表达谱进行分析,确定了几个关键通路,包括PI3K/AKT信号通路、WNT信号通路、转录因子调控等,发现了一些新的潜在靶点和生物标志物,如SLC7A5、NUSAP1、FAM83B等,这些基因可能对于TNBC的诊断和治疗具有重要意义ADDINEN.CITEADDINEN.CITE.DATA[10];于维娜等人使用WGCNA方法对肺腺癌(LUAD)免疫治疗耐药性相关的基因表达谱进行分析,鉴定出一组与免疫治疗耐药性显著相关的基因,包括已知的与免疫逃逸和抗原呈递等过程相关的基因,如PD-L1、CTLA-4、CD276等,还识别出一些新的潜在靶点和生物标志物,如FADS2、SLC7A5、CENPF等ADDINEN.CITE<EndNote><Cite><Author>Yu</Author><Year>2021</Year><RecNum>12</RecNum><DisplayText><styleface="superscript"font="TimesNewRoman">[11]</style></DisplayText><record><rec-number>12</rec-number><foreign-keys><keyapp="EN"db-id="asvp9xx9kxe0rlex0wp5r5fxaepftrxd90ww"timestamp="1683810881">12</key><keyapp="ENWeb"db-id="">0</key></foreign-keys><ref-typename="JournalArticle">17</ref-type><contributors><authors><author>Yu,W.</author><author>Liu,F.</author><author>Lei,Q.</author><author>Wu,P.</author><author>Yang,L.</author><author>Zhang,Y.</author></authors></contributors><auth-address>BiotherapyCenterandCancerCenter,TheFirstAffiliatedHospitalofZhengzhouUniversity,Zhengzhou,China. HenanKeyLaboratoryforTumorImmunologyandBiotherapy,ZhengzhouUniversity,Zhengzhou,China. StateKeyLaboratoryofEsophagealCancerPreventionandTreatment,ZhengzhouUniversity,Zhengzhou,China. SchoolofLifeSciences,ZhengzhouUniversity,Zhengzhou,China.</auth-address><titles><title>IdentificationofKeyPathwaysandGenesRelatedtoImmunotherapyResistanceofLUADBasedonWGCNAAnalysis</title><secondary-title>FrontOncol</secondary-title></titles><periodical><full-title>FrontOncol</full-title></periodical><pages>814014</pages><volume>11</volume><edition>2022/01/25</edition><keywords><keyword>Luad</keyword><keyword>Tide</keyword><keyword>Wgcna</keyword><keyword>cancerstemcell</keyword><keyword>immunotherapyresistance</keyword><keyword>commercialorfinancialrelationshipsthatcouldbeconstruedasapotential</keyword><keyword>conflictofinterest.</keyword></keywords><dates><year>2021</year></dates><isbn>2234-943X(Print) 2234-943X(Electronic) 2234-943X(Linking)</isbn><accession-num>35071018</accession-num><urls><related-urls><url>/pubmed/35071018</url></related-urls></urls><custom2>PMC8770266</custom2><electronic-resource-num>10.3389/fonc.2021.814014</electronic-resource-num></record></Cite></EndNote>[11]。因此我们也可以在本课题中基于WGCNA识别出与肝细胞癌进展相关的关键基因为肝细胞癌的临床治疗提供一定的价值。1.2研究内容及研究意义本课题通过加权平均共表达网络的构建,识别肝细胞癌进展相关的关键基因并建立预后模型。通过对TCGA数据库中肝细胞癌的RNA-seq数据进行深入分析,我们试图找到与肝细胞癌预后有关的基因,以期望获得更准确的预测结果。然后,使用加权平均表达网络(WGCNA)方法构建共表达网络模块,筛选关键模块。此外,关键基因是通过单因素Cox和Lasso回归分析确定的,并以此建立预测模型。根据模型计算风险得分,将样本分为高低风险组并进行KM生存分析、差异表达分析和通路富集分析等验证。研究表明,肝细胞癌的关键基因对于预测患者的预后和发病机制至关重要,它们不仅可以帮助我们更好地理解肝细胞癌的发展过程,而且还可以为临床治疗提供宝贵的指导。未来,结合多种生物信息学技术和实验手段的综合分析,可以进一步深入探究这些关键基因在肝细胞癌的疾病机制和治疗中的作用,为肝细胞癌的研究和治疗提供更为全面的认识和解决方案。
2、材料与方法2.1肝细胞癌数据处理本课题旨在研究与肝细胞癌进展相关的分子机制,为深入探究该疾病的发生和发展提供基础数据和参考。因此,我们从TCGA数据库中获取了421个肝细胞癌患者的转录组测序数据,并进行了初步的数据整合和筛选。首先,我们删除了样本名称中包含“sample=02”的样本,“sample=02”表示同一患者第二次采集的肿瘤组织样本,即重复样本,保留了正常样本以及原发癌患者样本共计419个进行后续分析。然后,我们利用下载好的测序数据筛选出我们所要研究的蛋白编码基因,并过滤掉在癌症样本中表达不足30%的基因,最终得到16905个基因在419个样本的TPM值。为了消除不同基因和样本之间的技术和批次差异,并便于后续分析和比较,我们采用log2(TPM+1)标准化方法对TPM数据进行处理和转换。通过这一步骤,我们得到了符合要求的基因集和表达数据,为后续的数据挖掘和建模提供了可靠的基础和参考。随后,我们使用count数据与处理好的TPM数据进行比对,得到了16905个基因在419个样本中的count表达值。综上所述,通过对TCGA数据库中的RNA-seq数据进行整合和筛选,我们得到了符合要求的基因集和表达数据,并使用标准化方法对TPM数据进行处理和转换。随后,我们使用count数据与处理好的TPM数据进行比对,得到了16905个基因在419个样本中的count表达值,为后续的数据挖掘和建模提供了可靠的基础和参考。2.2差异表达分析及功能富集2.2.1差异表达分析为了探究肝细胞癌的分子机制和生物学特征,我们利用TCGA数据库中的转录组测序数据进行差异表达分析。首先,我们根据样本的命名将样本以正常和癌症两组分别进行分类,其中包括50个正常样本和369个癌症样本。接下来,我们以这些样本的count表达数据作为输入文件,并进行取整操作。经过DeSeq2包的比较,以及结合foldchange和t检验的方法,最终确定了肿瘤患者的某些特定基因的表达水平明显高于健康人群。在这些研究中,p值低于0.05,而log2foldchange值高于1或者低于-1的基因可能具有显著的遗传变化。具体而言,我们采用log2foldchange值来衡量基因的表达变化程度。当log2foldchange大于1时,表示该基因在癌症样本中的表达显著上调;而当log2foldchange值小于-1时,则表示该基因在癌症样本中表达显著下调。这些差异表达基因的筛选,为我们进一步研究肝细胞癌的分子机制和生物学特征提供了重要的参考和依据。2.2.2差异基因的功能富集为了更深入地探索差异基因在HCC进展中的作用,我们使用R中的clusterProfiler包对显著差异的上下调基因分别进行了功能富集分析。在进行功能富集之前,我们需要对我们数据中的基因名称进行转换,我们利用R中的org.Hs.eg.db包,将我们的基因名从genesymbol转换为EntrezID,以便于后续功能富集分析。GO功能富集分析可帮助我们了解在不同的细胞、组织或环境条件下,参与特定生物过程、分子功能或细胞成分的基因或蛋白质。KEGG则可以帮助我们发现哪些代谢途径或信号通路在这些条件下得到了调节或激活。具体而言,我们将差异表达基因提交至clusterProfiler包进行富集分析,筛选出p值小于0.05的富集结果,并采用气泡图对其进行可视化展示。通过此分析,我们能够进一步了解差异表达基因的功能特征以及相关通路,并进一步探索这些差异表达基因如何影响生物学功能和疾病发生的机制,从而有助于揭示肝细胞癌的发病机制和潜在治疗靶点,为后续研究提供重要参考。2.3基于加权平均共表达网络筛选关键模块及候选关键基因2.3.1处理数据格式在进行WGCNA分析之前,我们需要对癌症样本的标准化后的TPM数据进行筛选,并将其作为输入文件。具体而言,我们应该只选择癌症样本的数据,并且需要对表达矩阵进行转置,使得行名为样本名,列名为基因名。这可以通过以下步骤来完成:从原始的TPM数据中选择癌症样本的数据,并将其保存到一个新的文件中。使用R中的read.table()函数将新文件中的数据读入到一个数据框中,并使用t()函数对其进行转置。将转置后的数据框保存到一个新的文件中,以作为后续WGCNA所需要的输入文件。这些预处理步骤可以确保输入数据的准确性和一致性,提高分析结果的可靠性和有效性。2.3.2软阈值的筛选WGCNA技术的核心思想在于通过计算皮尔森相关系数来确定两两基因的相互作用,并通过计算来提高模型的精确度,最终形成一种具有较高精确度的多维共表达网络,其中每两两基因的相互作用都可以通过幂次计算来提高模型的精确度。通过采用软阈值法,可以有效地改善模型的性能,其中,软阈值的取值是决定模型性能的关键因素。为此,可以采取R2作为参考,当R2值趋于1时,模型的性能较好,趋于0时,模型的性能较好,从而达到较好的模拟效果。通过WGCNA,我们能够利用R包内的pickSoftThreshold函数,对相似度进行power值加权,从而获得一个更优的无尺度网络适应度,其中,当power值达到0.9或更高的阈值时,将会被认为是最优的。本函数不仅能够提供直观的输出,而且能够根据不同的节点,提供准确的power值,从而实现对多个基因的加权共表达,从而更好地满足用户的需求。2.3.3识别加权平均共表达模块经过WGCNA分析,我们可以利用blockwiseModules函数,构建一个加权的基因共表达网络,从而实现基因相关性矩阵、加权优化后的相关性邻接矩阵和拓扑重叠矩阵(TOM)的有效结合。TOM的相关性邻接矩阵不仅仅考虑了两个基因之间的线性关系,而且还考虑到它们之间的复杂关系,从而构建出一个更加复杂的网络,有助于更有效地将基因组织成更大的模块。在执行blockwiseModules函数时,我们需要提供输入数据和相应的参数设置,包括power值、最小模块大小、拓扑重叠阈值等。该函数将输出构建好的基因共表达模块数量以及每个基因所属的模块信息等结果。在本次分析中,我们共得到15个基因共表达模块。2.3.4加权平均共表达网络的分析2.3.5超几何分析筛选出富集到差异基因上的模块为了进一步探究不同的模块与肝细胞癌的发生和发展之间的关系,我们可以通过超几何分析计算每个模块内基因是否显著富集到差异表达基因。具体而言,我们将差异基因与每个模块中的基因行比对,基于超几何计算模块内的基因富集到差异表达基因上的程度。在这个过程中,p值越小,则说明该模块内的基因与差异表达基因的联系越显著。通过调整p值阈值,我们可以有效地识别出具有明显差异表达的基因,尤其是当p值低于0.05时,这种方法更加有效地促进了基因组的聚合。2.3.6筛选关键模块对得到的候选关键模块进行功能富集分析,可以帮助我们更好地理解不同模块在肝细胞癌发生和发展中的作用。具体而言,我们可以先提取出每个模块内的基因,并使用R包AnnotationDbi中的enrichGO和enrichKEGG函数进行GO和KEGG分析。该函数将输出每个模块所富集到的GO和KEGG通路以及相应的p值等结果。为了更好地选择关键模块,我们可以根据模块富集出的功能和信号通路的描述,结合文献报道和实验验证等信息来进行判断。在选择关键模块时,我们需要考虑多个因素,例如富集的通路与肝细胞癌发生发展的关系、模块内基因的相互作用网络等信息。2.3.7筛选候选关键基因为了进一步筛选与肝细胞癌进展相关的关键基因,我们可以将所筛选出的关键模块与差异表达基因进行取交集。这将得到既在差异表达基因列表中又在关键模块中的基因。这些基因可能是较为重要的候选基因,因为它们同时具有在癌症组织中不同表达和参与特定功能或通路的特点。然后,我们可以对这些基因进行更深入的分析,例如进一步进行生物信息学、基因表达调控网络等方面的研究,以帮助我们理解其在肝细胞癌发生和发展中的作用。2.4基于生存分析筛选与HCC进展相关的关键基因建立预后模型2.4.1单因素Cox及Lasso回归分析筛选关键基因通过分析肝细胞癌患者的临床信息文件,我们可以深入探究基因表达水平对其总生存期的影响。通过R包survival和coxph函数,我们可以深入探究基因表达量对生存的影响,并利用单因素Cox回归分析来更好地理解这种关系。我们将获得每个基因的标准误差(SE)、风险比(HR)以及p值等结果。为了筛选显著与肝细胞癌进展相关的关键基因,我们可以选择p值小于0.005的基因作为候选关键基因。经过深入探索,我们得出结论:这些基因可能会对肝细胞癌患者的总生存期产生显著影响,需要进一步研究其在癌症发生和发展过程中的作用机制。在对肝细胞癌患者总生存期进行单因素Cox回归分析后,我们需要去除掉生存时间(OS.time)为缺失值的样本。接着,我们可以利用Lasso回归分析将具有代表性的、与生存显著相关的关键基因筛选出来作为预测模型的输入基因。Lasso回归是一种使用L1正则化技术的线性回归方法,它可以帮助我们筛选出最能够解释数据变异的重要特征。在进行Lasso回归分析时,我们需要调整参数lambda来平衡模型的拟合度和模型的复杂度。我们可以使用R包glmnet中的cv.glmnet函数对Lasso模型进行深入研究,结合多种方法的相互作用,以确定出更优的lambda参数。经过Lasso回归分析筛选后,我们将得到具有代表性的、与生存显著相关的关键基因,这些基因将被用作建立肝细胞癌患者生存预测模型的输入基因。2.4.2建立肝细胞癌风险预后模型经过Lasso回归分析筛选之后,我们得到了最终的关键基因以及它们在模型中的回归系数。通过Cox回归模型,我们可以将多个关键基因整合在一起,从而构建一个准确的肝细胞癌风险预测模型。具体而言,我们可以使用coxph()函数,结合回归结果,计算出每位患者的风险评分,从而更好地掌握患者的病情变化。最终建立的预后模型将能够根据患者的基因表达信息来预测其总生存期。该模型可通过将患者的基因表达数据输入到模型中进行评估,并给出相应的风险评分和预测结果。2.4.3基于模型进行生存分析通过对肝细胞癌患者的基因表达量和回归系数的分析,我们建立了一套风险评估模型,并将其按照中位数的大小划分为高风险组和低风险组。随后,我们可以根据这两个组别作为二分类变量,使用K-M方法来估计生存曲线,并进行生存分析。通过应用survival包的survfit()函数,我们能够有效地评估出各个群体的高低危机水平,从而实现K-M生存模型,而log-rank则是一种有效的统计方法,它能够有效地揭示出各个群体的生存状况。最终,我们将得到不同组别的生存曲线、存活率、中位生存时间等信息,从而更好地理解关键基因在肝细胞癌进展中的作用。2.5预后模型验证2.5.1根据高低风险分组进行差异表达分析并功能富集在将肝细胞癌患者分为高低风险组后,我们可以进行差异表达分析以进一步研究关键基因与肝细胞癌发展的相关性。通过t检验与foldchange的相互配合,我们能够比较出不同风险水平下的样品的表现,并选取p值小于0.05且log2foldchange值大于1或者小于-1的基因作为显著差异表达基因。接下来,我们需要使用R包AnnotationDbi的enrichGo和enrichKEGG函数来对GO和KEGG数据进行深入的研究,这些函数有助于更好地理解不同的基因对相应的生物学特征的影响。通过生物信息学分析,我们可以更好地理解差异表达基因在肝细胞癌发展中的作用,从而进一步阐明不同基因和通路在肝细胞癌进展过程中的调节机制和相互作用。2.5.2单因素cox回归验证肝细胞癌风险模型预后效能肝细胞癌是一种常见的恶性肿瘤,其预后与多种因素密切相关。在临床治疗过程中,预测肝细胞癌患者的预后情况对于提高治疗效果和生存率至关重要。单因素Cox回归分析是评估患者预后情况的一种常用方法,可以通过验证不同因素在肝细胞癌患者预后中的预测效能,为制定更加个体化、精准的治疗方案提供依据。通过Cox回归分析,我们可以对每一组的数据进行排序,以确定哪些是最具危害性的,哪些是最安全的。接着,我们可以利用Cox回归模型,对两组的数据进行统计学处理,以确定它们的生存率,最终通过log-rank检验,对两组的数值变化情况进行对比。如果通过Cox回归分析得出结论,即某种影响因子对于改善肝细胞癌病人的预后起着至关重要的作用,那么这种影响就不仅仅是影响病人的死亡率,而是影响其治疗效果的关键指标。需要注意的是,单因素Cox回归分析仅考虑了单个因素对预后的影响,无法全面反应多种因素相互作用对预后的影响。因此,在进行肝细胞癌患者预后评估时,还需要综合考虑多种因素,如年龄、性别、临床病期、治疗方案等,采用多因素Cox回归模型进行分析,以便更准确地评估患者的预后情况。总之,单因素Cox回归分析是评判HCC患者预后情况的常用方法之一,能够有效地揭示不同因素对生存时间的影响程度,并验证预测模型的有效性。但在实践应用中,需要结合多种方法和技术,综合考虑多种因素对预后的影响,为肝细胞癌患者制定更加个体化、精准的治疗方案和生存指导。2.5.3多因素Cox回归验证肝细胞癌风险模型预后效能为了验证我们所计算出来的风险评分是否是一个独立的预后因素,不会因其他临床因素而改变,我们继而利用多因素Cox回归分析检验我们的模型。在生物信息分析中,多因素Cox回归分析是用于验证肝细胞癌预后模型的常用方法之一。本研究旨在探究多种可能会改善患者预后的因子,通过survival包的coxph函数,我们可以肝细胞癌的预后情况进行深入的研究,该函数将多种可能对预后产生重大影响的因子作为自变量,包括但不限于性别、肿瘤大小、年龄、肿瘤分化程度等。具体而言,在R语言中,可以使用survival包中的coxph函数进行多因素Cox回归分析,其中自变量为多个可能影响预后的因素,因变量为生存状态(status)以及生存时间(time)。通过比较各自变量的风险比(HR)和95%置信区间,来评估不同因素对生存时间以及生存状态的相对影响力。如果在多因素Cox回归分析中发现,预先选定的风险因素能够保持较强的影响力,并与其他临床因素具有较弱的相关性,则说明所建立的预后模型具有良好的预测效能。通过使用这一模型,我们能够准确地评估患者的死亡危机,从而为他们设计出最佳的治疗策略,从而大大改善他们的生活品质和死亡率。2.5.4GEO数据集验证集验证预后模型为了充分验证肝细胞癌预后模型的预测效能,并评估其在不同数据集中的适用性,收集外部验证集并利用该数据集对模型进行验证是一种常见方法。具体来说,我们可以从公共数据库(如GEO)中收集其他研究组所发表的肝细胞癌数据集作为外部验证集,然后将这些样本按照之前建立的模型进行风险评分,并在此基础上进行生存分析和预测。如果经过对比,发现与对照组相比,高危人群的生存率要远远降低,这表明这种预测方法非常准确,而且它已经被广泛地应用到了各种不同的研究领域。但需要注意,在将模型应用于新的数据集时,必须确保这些数据集与原始数据集在临床特征和数据质量方面具有相似性。例如,病人的年龄、性别、肿瘤分期等重要临床信息要求分布情况相似,以确保结果的可靠性。此外,还应注意混杂因素的影响,并结合实际情况和多个指标进行全面评估。经过实际检查,若发现与对照组相比,高危组的生存概率要大大降低,这表明这种预测方法可以准确反映出病人的健康状况,并且可以更加精确地识别出各种病情的危害程度。3、结果3.1肝细胞癌数据处理首先我们从TCGA数据库中,获得肝细胞癌的转录组测序数据并进行整合,得到肝细胞癌的表达谱文件、注释信息文件以及样本的临床信息文件(34156个基因,421个样本)。首先根据样本的名称删除了sample=02的样本,sample=02的样本为同一患者第二次采集的肿瘤组织样本,即同一患者的转移癌样本或者说是重复样本,保留正常以及原发癌一共419个样本继而进行后续的研究。利用我们下载好的测序数据筛选我们所要研究的蛋白编码基因,剩余19044个基因,并过滤掉在癌症样本中表达不足30%的基因,最终得到16905个基因在419个样本的TPM值。再对TPM数据进行log2(TPM+1)标准化以便于后续分析,再用count与处理好的TPM进行比对得到16905个基因在419个样本中的count值(表3-1)。表3-1数据处理过程Table3-1Dataprocessingprocedure处理过程处理结果原始(样本×基因)421×34156删除sample=02419×34156筛选蛋白编码基因419×19044过滤掉在cancer样本中表达不足30%的样本419×34156注:该表格为肝细胞癌数据的预处理过程,我们删除了sample=02的样本并只筛选了蛋白编码基因,最后删除在癌症样本中表达不足30%的基因。3.2差异表达分析及功能富集3.2.1差异表达分析使用DeSeq2R包,基于肝细胞癌的count表达数据,经过精确的计算,以及t检验与foldchange的结合,最终得出P值低于0.05,log2foldchange高于1或低于-1的基因作为肿瘤的差异表达基因,最后得到了3085个显著上调的基因和1165个显著下调的基因(表3-2),并将差异表达基因按照P值排序对前10个差异表达基因的P值及上下调情况进行了展示(表3-3)。根据以往的研究发现:CENPF可以通过调节细胞周期、凋亡和Wnt/β-catenin等信号通路促进肝癌的发生和发展ADDINEN.CITE<EndNote><Cite><Author>Huang</Author><Year>2021</Year><RecNum>13</RecNum><DisplayText><styleface="superscript"font="TimesNewRoman">[12]</style></DisplayText><record><rec-number>13</rec-number><foreign-keys><keyapp="EN"db-id="asvp9xx9kxe0rlex0wp5r5fxaepftrxd90ww"timestamp="1683858427">13</key><keyapp="ENWeb"db-id="">0</key></foreign-keys><ref-typename="JournalArticle">17</ref-type><contributors><authors><author>Huang,Y.</author><author>Chen,X.</author><author>Wang,L.</author><author>Wang,T.</author><author>Tang,X.</author><author>Su,X.</author></authors></contributors><auth-address>DepartmentofPathology,TaiheHospital,HubeiUniversityofMedicine,Hubei44200,China. DepartmentofImmunology,NankaiUniversitySchoolofMedicine,Tianjin300110,China.</auth-address><titles><title>CentromereProteinF(CENPF)ServesasaPotentialPrognosticBiomarkerandTargetforHumanHepatocellularCarcinoma</title><secondary-title>JCancer</secondary-title></titles><periodical><full-title>JCancer</full-title></periodical><pages>2933-2951</pages><volume>12</volume><number>10</number><edition>2021/04/16</edition><keywords><keyword>Cenpf</keyword><keyword>Hcc</keyword><keyword>bioinformaticsanalysis.</keyword><keyword>biomarker</keyword><keyword>hepatocellularcarcinoma</keyword><keyword>prognosticvalue</keyword><keyword>survival</keyword></keywords><dates><year>2021</year></dates><isbn>1837-9664(Print) 1837-9664(Electronic) 1837-9664(Linking)</isbn><accession-num>33854594</accession-num><urls><related-urls><url>/pubmed/33854594</url></related-urls></urls><custom2>PMC8040902</custom2><electronic-resource-num>10.7150/jca.52187</electronic-resource-num></record></Cite></EndNote>[12];NUF2可以通过多种信号通路促进肝癌细胞的增殖、迁移和侵袭,包括NF-κB、Wnt/β-catenin、MAPK/ERK和PI3K/AKT等通路ADDINEN.CITE<EndNote><Cite><Author>Xie</Author><Year>2021</Year><RecNum>14</RecNum><DisplayText><styleface="superscript"font="TimesNewRoman">[13]</style></DisplayText><record><rec-number>14</rec-number><foreign-keys><keyapp="EN"db-id="asvp9xx9kxe0rlex0wp5r5fxaepftrxd90ww"timestamp="1683859738">14</key><keyapp="ENWeb"db-id="">0</key></foreign-keys><ref-typename="JournalArticle">17</ref-type><contributors><authors><author>Xie,X.</author><author>Jiang,S.</author><author>Li,X.</author></authors></contributors><auth-address>CollegeofPlantProtection,HenanAgriculturalUniversity,Zhengzhou,China. KeyLaboratoryofForensicToxicologyofHerbalMedicines,GuizhouEducationDepartment,SchoolofBasicMedicine,GuizhouUniversityofTraditionalChineseMedicine,Guiyang,China.</auth-address><titles><title>Nuf2IsaPrognostic-RelatedBiomarkerandCorrelatedWithImmuneInfiltratesinHepatocellularCarcinoma</title><secondary-title>FrontOncol</secondary-title></titles><periodical><full-title>FrontOncol</full-title></periodical><pages>621373</pages><volume>11</volume><edition>2021/03/27</edition><keywords><keyword>Nuf2</keyword><keyword>biomarkers</keyword><keyword>hepatocellularcarcinoma</keyword><keyword>prognosis</keyword><keyword>tumorimmunity</keyword><keyword>commercialorfinancialrelationshipsthatcouldbeconstruedasapotential</keyword><keyword>conflictofinterest.</keyword></keywords><dates><year>2021</year></dates><isbn>2234-943X(Print) 2234-943X(Electronic) 2234-943X(Linking)</isbn><accession-num>33767990</accession-num><urls><related-urls><url>/pubmed/33767990</url></related-urls></urls><custom2>PMC7985438</custom2><electronic-resource-num>10.3389/fonc.2021.621373</electronic-resource-num></record></Cite></EndNote>[13];THBS4可以通过FAK/PI3K/AKT信号通路激活ITGB1,从而促进HCC的生长和转移ADDINEN.CITEADDINEN.CITE.DATA[14]等。接下来我们利用ggplot2R包绘制火山图将我们所得的差异表达分析结果进行可视化,通过使用蓝色和红色两种颜色,我们能够清晰地看到不同的基因,在这些基因中选取一些最显著的,我们选取p<0.000001且log2foldchange>=10的基因对其进行基因名标注(图3-1A)。然后对这些基因进行进行了文献查找,发现CTAG的表达上调与细胞周期通路相关,CTAG2可能通过影响细胞周期来影响肿瘤大小,许多抗肿瘤药物通过影响细胞周期起作用,而CTAG2通过影响细胞周期来促进肿瘤生长,CTAG2可作为潜在的HCC治疗靶点或预后生物标志物,因此CTAG2高表达的患者应进行监测和适当治疗ADDINEN.CITE<EndNote><Cite><Author>Liu</Author><Year>2019</Year><RecNum>16</RecNum><DisplayText><styleface="superscript"font="TimesNewRoman">[15]</style></DisplayText><record><rec-number>16</rec-number><foreign-keys><keyapp="EN"db-id="asvp9xx9kxe0rlex0wp5r5fxaepftrxd90ww"timestamp="1683860193">16</key><keyapp="ENWeb"db-id="">0</key></foreign-keys><ref-typename="JournalArticle">17</ref-type><contributors><authors><author>Liu,J.</author><author>Yu,Z.</author><author>Sun,M.</author><author>Liu,Q.</author><author>Wei,M.</author><author>Gao,H.</author></authors></contributors><auth-address>DepartmentofPharmacology,SchoolofPharmacy,ChinaMedicalUniversity,Shenyang,Liaoning110122,P.R.China. DepartmentofHepatobiliarySurgery,TheFirstAffiliatedHospitalofChinaMedicalUniversity,Shenyang,Liaoning110001,P.R.China. LiaoningEngineeringTechnologyResearchCentreforTheResearch,DevelopmentandIndustrializationofInnovativePeptideDrugs,Shenyang,Liaoning110122,P.R.China.</auth-address><titles><title>Identificationofcancer/testisantigen2geneasapotentialhepatocellularcarcinomatherapeutictargetbyhubgenescreeningwith
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025-2026学年广东省惠州市高考仿真模拟历史试卷含解析
- 2025年生态旅游景区生态修复技术创新生态修复技术生态效益可行性报告
- 循证康复实践中的康复-政策创新
- 循证康复实践中的康复-协同体系
- 影像组学联合影像组学提升肿瘤疗效预测敏感性
- 2026年会展平台创新策略报告
- 2026年农业灌溉无人机行业创新报告
- 轻量化人工智能教育资源在移动学习平台中的性能优化与效果评估教学研究课题报告
- 数字教育资源开发团队协作模式与项目管理中的团队协作风险控制教学研究课题报告
- 2026年虚拟现实教育应用报告及未来五至十年数字教学创新报告
- 工厂vave管理制度
- 2025年闸门运行工试题及答案
- 与诸弟书课件
- 2025年江西省高考生物试卷真题(含标准答案及解析)
- 仓库安全三级培训课件
- 温病学三焦辨证课件
- FIDIC合同红皮书中英文对照版
- Module4Unit1MuseumsPeriod4(课件)-牛津上海版(试用本)(2007)英语五年级下册1
- 2025年人教版中考生物考前冲刺复习:必背考点提纲
- 2025年智能分拣中心在农产品流通中的应用
- 2025年财会业务知识竞赛题库及答案(600题)
评论
0/150
提交评论