论文网首页|会计论文|管理论文|计算机论文|医药学|经济学论文|法学论文|社会学论文|文学论文|教育论文|理学论文|工学论文|艺术论文|哲学论文|文化论文|外语论文|论文格式
中国论文网

用户注册

设为首页

您现在的位置: 中国论文网 >> 医药学论文 >> 肿瘤论文 >> 正文 会员中心
 药学论文   医学论文   临床医学论文   护理论文   口腔医学论文   肿瘤论文   妇产科学论文   内科论文   外科论文
 儿科论文   医学期刊
基因表达聚类分析及在肿瘤研究中的应用价值

【摘要】  基因芯片技术日益广泛应用于生物学和医学领域,包括肿瘤研究。其中一项重要的工作是分析实验产生的海量数据。聚类分析是基因表达数据分析的一种重要工具,它包括三种常用的聚类算法:分层聚类,k-均值聚类和som聚类。基因表达谱在肿瘤研究中有广泛的应用,通过基因表达聚类分析已经获得许多有价值的发现。该文介绍了基因聚类分析的常用算法,以及聚类分析在肿瘤基因表达研究中的应用。

【关键词】  基因芯片;聚类分析;肿瘤

   数的被诱导水平或被抑制水平在视觉上和数学上都能达到一致。经过数据过滤和标准化处理的数据可进行下一步的分析,如聚类分析。

    2   基因聚类分析

    基因数据标准化处理后可以进行基因聚类分析。基因聚类分析的目的在于按某种相似性标准(如皮尔逊相关系数或欧氏距离)将基因划为若干类(群),使同类基因具有高度同质性。所以基因聚类分析实质上是建立各种不同的数学模型,这些模型把基于相似数据特征的基因组合在一起。在基因表达聚类中归为一个类的基因在功能上可能相似或存在关联,它们可能具有相同的调控元件或执行相似的功能,所以通过基因聚类分析可以考察未知基因的功能信息或已知基因的未知功能信息[7]。值得注意的是目前基因聚类方法已不局限于只对基因进行聚类合并,由于基因芯片数据的高维性,只对基因进行聚类合并,有时并不能正确反映基因的表达模式,对基因和样本进行双聚类可以更好地发现基因表达模式并且具有更清晰的生物学解释[8]。wwW.11665.com基因聚类分析包括多种算法,最常用的算法有三种:分层聚类法、k-均值聚类和som聚类。

    2.1   分层聚类

    分层聚类(hierarchical clustering,hcl)本质上是将有相似表达模式的类聚合在一起,并以分层的系统形式表示出来。分层聚类根据聚类方式可分为自底向上法(bottom-up method)和自顶向下法(top-down method)[9]。自底向上法的聚类过程为:将基因当作元素计算所有基因间的距离,在所有基因中找到两个基因距离最小基因,将它们归入一个类中,然后将距离这个类最近的基因加入到这个类中形成新的类,反复进行这个过程,直到只剩下一个类,而这个类包含了所有的基因。分层聚类可根据聚类结果自动构建具有分层结构的系统树,所以结果是可视的和基因间的关系是明确的(图1)。eisen等[7]将分层聚类首次用于基因的共表达分析并用于酵母共表达基因的研究。为了利于生物学家判断基因表达情况,作者提出使用系统树和线条颜色变化结合的方法,使分层聚类成为基因聚类的经典算法。由于聚类结果易判断和解释分层聚类在肿瘤研究分析中获得了广泛的应用。分层聚类方法也有不足之处,首先是不能很好聚类没有层次结构的数据(这些数据是很常见的),容易受噪声影响,其次它没有统一的评价函数,使聚类具有了任意性而且计算复杂度较高。

    2.2   k-均值聚类

    k-均值聚类(k-mean clustering,kmc)算法需要先根据预先指定的类数k来选择初始凝聚点,根据欧式距离将每个样本归到最接近或相似的凝聚点形成类,再用各类的重心代替初始凝聚点重新分配,将每个样品不断地归类直至分类达到稳定。k-均值聚类算法是一种动态聚类方法,以最小误差平方和作为评价函数,其聚类过程简单并且适用于各种类型数据,在基因聚类中有广泛应用(图2)。sorensen等[10]在黑腹果蝇的热胁迫全基因表达分析中,利用类数设为20的k-均值聚类来比较差异表达的基因。k-均值聚类的缺点是对初始凝聚点敏感,聚类结果很容易受初使凝聚点的影响,聚类产生的结果没有结构感,不易让人理解。

    2.3   som 聚类

    som聚类(self-organizing map clustering,som)本质是由teuvo kohonen提出的一种人工神经网络聚类分析模型。它是一种结构简单的单层竞争性神经网络,通过自身的训练自动对输入模式进行分类。som网络中的各个神经元通过竞争来获取对输入模式的响应机会,最后仅剩下一个神经元成为对应输入模式响应的胜利者,并将胜利的神经元的信息以拓扑的形式给出来,聚类结果是相似的模式(用神经元代表)被放入一组(图3)。som聚类应用了类间的全局关系,能够比较大数据集内的相似性关系,更加稳健和准确,对噪声也较为稳定。wang等[11]为理解评价和分析基因芯片实验产生的大量数据从而发现基因表达中隐藏的模式,使用som降低原始数据的维性并在som拓扑平面上显示肿瘤样本,然后再使用分层聚类和k-均值聚类识别样本分类的基因表达模式。他们的研究表明通过使用som作为中间步骤分析全基因组的基因表达数据,可以更早地揭示基因表达模式。

    3   基因聚类在肿瘤研究中的应用

    在遗传上肿瘤是涉及到多基因改变的产物,所以肿瘤研究中要高通量高效比较多基因的表达水平,这正是基因芯片技术的优势所在。通过比较正常组织和肿瘤组织的基因表达谱可以获得差异表达基因的有关信息,为肿瘤的早期诊断和临床治疗提供帮助。基因表达聚类分析在肿瘤研究中的应用主要有两个:一是通过基因聚类分析研究肿瘤亚型分型;二是通过聚类分析发现新的肿瘤标志物。

    3.1   基因聚类在肿瘤的分子分型中的应用

    传统的肿瘤诊断分类方法是基于组织形态学特征的分类方法,它的缺限是在组织病理学特征诊断上相似的肿瘤其治疗反应和预后却显著不同。基因芯片技术通过全基因表达分析能够精确鉴定肿瘤亚型,从而克服传统方法的缺陷[12]。在肿瘤的基因分型研究中需要将样本中基因的表达情况确定为样本的属性,使用合适的聚类算法将样本进行分类,通过比较外部“金标准”计算分类的一致率来判断聚类效果。schuetz等[13]针对肾癌相关的肿瘤亚型使用寡核苷酸芯片分析了31例成人的肾脏肿瘤,其肿瘤亚型包括清晰细胞肾细胞癌(rcc),乳突状rcc,不易染色rcc,嗜酸粒细胞腺瘤和错构瘤。在此研究中作者通过数据过滤从8 746个基因中挑选出4 030个差异表达的基因,以皮尓逊相关系数表征基因间的距离,使用非监督分层平均联结聚类算法分析了此基因表达谱,结果30个病例的肿瘤亚型被正确分类。这说明肾癌的肿瘤亚型可以通过截然不同的基因表达谱进行精确的亚型分类,为在分子水平上进行肿瘤诊断提供了一种很有希望的方法。

    3.2   基因聚类在肿瘤标志基因筛选中的应用

    稳健的肿瘤标志基因的鉴定具有重要的研究意义和临床诊断价值,通过肿瘤标志基因设计诊断系统可以进行肿瘤的早期诊断和肿瘤的亚型判断。pal等[14]为鉴定可精确区分肿瘤类型的肿瘤标志物,提出一种用于发现肿瘤标志物的方法。针对有相似组织学特征易导致误诊的肿瘤(成神经细胞瘤、非霍奇金淋巴瘤、横纹肌细胞瘤、尤文氏肉瘤),联合使用特征挑选多层神经网络(fsmlp)和相关模糊聚类鉴定出7个标志基因,这7个标志基因在肿瘤生物学中具有明确的类特异性信号并且扮演着重要的角色,包括细胞增殖,跨血管内皮迁移和mhc类抗原通信等功能,其中包含3个新基因(nab2、lsp1和ehd1)。利用这7个标志基因在训练样本和盲测样本上可对4种亚型进行精确分类,分类正确率可达100%。

    4   存在的问题与解决方法

    产生大量有价值的基因表达谱数据的dna微阵列技术是实验分子生物学的一项创新方法。很多聚类算法被建议用于分析基因表达数据,但是关于聚类算法选择的指导较少。切实可行的聚类算法评价是当今生物信息学研究中的重要课题[15]。gibbons [16]提出使用基因注释的方法来鉴定基因表达聚类方法的质量,多种算法的比较结果显示som聚类有最好的性能。分层聚类经常用于识别共表达的基因簇,然而芯片数据集经常包含遗漏测量的值(mvs)。de brevern等[17]通过研究认为mvs在基因簇的稳定性上具有重要作用,是基因簇稳定性的主要因素,另外聚类效果也依赖于分层聚类算法的使用。所以我们在作聚类分析时必须谨慎选择算法,避免对基因芯片数据的曲解。

    5   总结与展望

    基因表达数据分析是一个需要生物学、计算机科学、数学等多学科合作的新领域,随着基因芯片技术在生物学和医学研究中的应用日益广泛,实验越来越需要精密和科学的数据分析。聚类算法作为一种分析工具在基因表达数据分析中是很重要的手段。对肿瘤进行早期诊断和精确分类是提高患者生存时间的关键。目前根据形态学对肿瘤进行分类有很大的局限性,而基因表达聚类分析表明可以利用肿瘤间不同的基因表达谱进行更精确的肿瘤亚型分类。在肿瘤新标志基因发现中使用聚类算法和其它分析方法已经取得很有价值的发现,使得对肿瘤的机制有了更清晰的解释,对肿瘤的早期诊断和患者的生存预判提供了重要的参考。应该看到虽然聚类算法在基因芯片分析中有很广泛的应用,但是也存在一些需要解决的方面,如如何选择最佳聚类方法等。作为生物信息学研究的一部分,这些问题的解决依赖于多学科领域的通力合作。随着研究的深入一些问题将得到解决使基因表达聚类分析在研究和应用中更完善和实用。

【参考文献】
  [1] schena m,shalon d,heller r,et al. parallel human genome analysis: microarray-based expression monitoring of 1000 genes[j]. biochemistry, 1996, 93(20): 10614-10619.

[2] ladanyi m, chan wc, triche tj, et al. expression profiling of human tumors: the end of surgical pathology?[j]. journal of molecular diagnostics, 2001, 3(3):92-97.

[3] tibshirani r, hastie t, narasimhan b, et al. diagnosis of multiple cancer types by shrunken centroids of gene expression[j]. pnas, 2002, 99(10):6567-6572.

[4] khan j, wei js, ringner m, et al. classification and diagnostic prediction of cancers using gene expression profiling and artificial neural networks[j]. nat med, 2001, 7(6):673-679.

[5] finocchiaro g,francesco mm,cittaro d, et al. graph-based identification of cancer signaling pathways from published gene expression signatures using publime[j]. nucleic acids research, 2007, 35(7): 2343-2355.

[6] kong f, nicole white c, xiao x, et al. using proteomic approaches to identy new biomarkers for detection and monitorung of ovarian cancer[j]. gynecol oncol, 2006, 100(2): 247-253.

[7] eisen mb, spellman pt, brown po, et al. cluster analysis and display of genome-wide expression patterns[j]. genetics, 1998, 95(25): 14863-14868.

[8] getz g, levine e, domany e. coupled two-way clustering analysis of gene microarray data[j]. pnas, 2000, 97(22): 12079-12084.

[9] traca al, carey vj, chen xw, et al. machine learning and its applications to biology[j]. plos comput biol, 2007, 3(6):e116.

[10] sorensen jg,nielsen mm, kruhoffer m, et al. full genome gene expression analysis of the heat stress response in drosophila melanogaster[j]. cell stress chaperones, 2005, 10(4): 312-328.

[11] wang j,bo th, jonassen i, et al. tumor classification and marker gene prediction by feature selection and fuzzy c-means clustering using microarray data[j]. bmc bioinformatics, 2003, 4:60.

[12] golub tr, slonim dk, tamayo p, et al. molecular classification of cancer: class discovery and class prediction by gene expression monitoring[j]. science, 1999, 286(5439):531-537.

[13] schuetz an, yin-goen q, amin mb, et al. molecular classification of renal tumors by gene expression profiling[j]. j mol diagn, 2005, 7(2): 206-218.

[14] pal nr, aguan k, sharma a, et al. discovering biomarkers from gene expression data for predicting cancer subgroups using neural networks and relational fuzzy clustering[j]. bmc bioinformatics, 2007, 8:5.

[15] yin l, huang ch, ni j. clustering of gene expression data: performance and similarity analysis[j]. bmc bioinformatics, 2006, 7(suppl 4):s19.

[16] gibbons fd, roth fp. judging the quality of gene expression-based clustering methods using gene annotation[j]. genome res, 2002, 12(10):1574-1581.

[17] de brevern ag, hazout s, malpertuy a. influence of microarrays experiments missing values on the stability of gene groups by hierarchical clustering[j]. bmc bioinformatics, 2004, 5:114.

  • 上一个医药学论文:
  • 下一个医药学论文:
  •  作者:11665 [标签: 基因表达 聚类分析 肿瘤 中的 应用 ]
    姓 名: *
    E-mail:
    评 分: 1分 2分 3分 4分 5分
    评论内容:
    发表评论请遵守中国各项有关法律法规,评论内容只代表网友个人观点,与本网站立场无关。
    汉黄芩素对胶质瘤U251细胞Survivin mRNA及C
    重组结核分枝杆菌Mr 38 000蛋白的表达、纯化
    mTOR和eIF4E蛋白在大肠癌组织中的表达及临床
    深圳地区学龄前儿童β-肾上腺素受体基因多态
    不同剂量放射线对大鼠涎腺Rad 50表达的影响
    骨形成蛋白-2局部基因治疗牙周骨缺损的研究
    益脑胶囊对大鼠脑缺血再灌注后脑组织细胞间
    HLA-DRB基因多态性与慢性髓性白血病关联的M
    非小细胞肺癌CT灌注成像与PDGF-BB和HGF及其
    口腔鳞癌中Ets-2、MMP-9表达及其意义
    nm23基因在消化道肿瘤研究中的应用
    大肠癌组织RhoE、p53的表达及临床意义
    | 设为首页 | 加入收藏 | 联系我们 | 网站地图 | 手机版 | 论文发表

    Copyright 2006-2013 © 毕业论文网 All rights reserved 

     [中国免费论文网]  版权所有