在线留言| 联系我们| 中国科学院

昆明动物所开发出适用于高通量异质性数据算法并成功揭示泛肿瘤存在基因表达紊乱共有模式

昆明动物研究所 吴焕 2017-08-01

  挖掘肿瘤大数据有助于识别和总结肿瘤发生、发展过程的分子变化规律。然而,肿瘤组织高度异质性、批次效应等因素是肿瘤数据分析的重要难题,而目前常用的转录组数据分析方法对于肿瘤离群值极度敏感,容易产生假阴性结果。针对此,中国科学院昆明动物研究所科研人员开发了一种新的不依赖均一化、非参的高维大数据分析算法(Cross-Value Association Analysis,CVAA)。基于对同一批转录组数据(1037个乳腺肿瘤和110个正常组织)的分析结果揭示:与T-Test、edgeR及DESeq等常用算法相比,CVAA在处理异质性数据时能明显地减少异常样本的影响和假阴性结果。

  进一步将CVAA应用于TCGA数据库的5540个肿瘤(13种实体瘤)及正常组织的RNA-Seq转录组数据,研究人员成功鉴定到大量肿瘤显著差异表达基因,且不同肿瘤之间存在很多相似的基因转录紊乱模式。进而,针对甄别得到的新的肿瘤相关基因和生物学途径,如酒精代谢途径(ADH1B基因)、补体途径(Adipsin)等,研究人员筛选了10个未被报道的基因进行了体内外功能验证研究,结果发现其表达量变化均能显著抑制肿瘤细胞的增殖和/或迁移,且部分基因(ADH1B和NCAPH)表达量改变显著影响病人生存率和体外移植瘤的生长。因此,该项工作不但成功鉴定出大量新的肿瘤相关基因和通路,为深入理解肿瘤发生发展提供研究靶标,同时也表明CVAA算法在大批量、异质性数据分析中具有重要的应用价值。

  该研究成果于近期发表在国际重要期刊Theranostics上,昆明动物所助理研究员李其刚、副研究员何永捍、博士生吴焕和副研究员杨翠萍为共同第一作者,研究员孔庆鹏和陈勇彬为共同通讯作者。该项目得到中国科学院、国家自然科学基金、云南应用基础研究和中国科学院青年创新促进会等项目的支持。 

  文章链接:http://www.thno.org/v07p2888.htm

  

  图1 CVAA与常用算法的比较 

  

  图2 体内外实验结果 

XML 地图 | Sitemap 地图