• 热线电话:010-56107385

联系方式

地 址:北京市昌平区北清路生命科学园博雅CC -9号楼2层
电 话:010-56107385
传 真:
邮 箱:support@ori-gene.cn

技术资料

您现在的位置:首页 > 技术支持 > 技术资料
简单的聚类分析--自己做主

 今天我们就来谈谈什么是聚类分析?

聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。 聚类分析也叫分类分析(classification analysis)或数值分类(numerical taxonomy)。按照个体或样品(individuals, objects or subjects)的特征将它们分类,使同一类别内的个体具有尽可能高的同质性(homogeneity),而类别之间则应具有尽可能高的异质性(heterogeneity)。

聚类分析是一种重要的多变量统计方法,实质是一种数据分析方法,不能进行统计推断的。它能够从样本数据出发,自动进行分类,聚类分析所使用方法的不同,常常会得到不同的结论。不同研究者对于同一组数据进行聚类分析,所得到的聚类数未必一致。

为了得到比较合理的分类,首先要采用适当的指标来定量地描述研究对象(样本或变量,常用的是样本)之间的联系的紧密程度。常用的指标为“距离”和“相似系数”,假定研究对象均用所谓的“点”来表示。聚类分析一般的规则是将“距离”较小的点或“相似系数”较大的点归为同一类,将“距离”较大的点或“相似系数”较小的点归为不同的类。计算聚类——距离指标D(distance)的方法非常多:按照数据的不同性质,可选用不同的距离指标。欧氏距离(Euclidean distance)、欧氏距离的平方(Squared Euclidean distance)、曼哈顿距离(Block)、切比雪夫距离(Chebychev distance)、卡方距离(Chi-aquare measure) 等;相似性也有不少,主要是皮尔逊相关系数。

聚类分析前所有个体或样本所属的类别甚至类别个数都是未知的,分析的依据就是原始数据,没有任何事先的有关类别的信息可参考。聚类分析一般都涉及不到有关统计量的分布,也不需要进行显著性检验。聚类分析更像是一种建立假设的方法,而对假设的检验还需要借助其它统计方法。


聚类方法的特点:

1. 简单、直观;

2. 主要应用于探索性的研究,其分析的结果可以提供多个可能的解,选择最终的解需要研究者的主观判断和后续的分析;

3. 不管实际数据中是否真正存在不同的类别,利用聚类分析都能得到分成若干类别的解;

4. 聚类分析的解完全依赖于研究者所选择的聚类变量,增加或删除一些变量对最终的解都可能产生实质性的影响;

5. 研究者在使用聚类分析时应特别注意可能影响结果的各个因素;

6. 异常值和特殊的变量对聚类有较大影响;

7. 当分类变量的测量尺度不一致时,需要事先做标准化处理。

 

我们再来看看,聚类分析不能做的事情又有哪些?

它不会自动发现和告诉你应该分成多少个类——属于非监督类分析方法;不要别期望能很清楚的找到大致相等的类;样本聚类,变量之间的关系需要研究者决定;它不会自动给出一个最佳聚类结果。

 在高通量测序与芯片检测数据分析中,常对差异mRNA/lncRNA/circRNA/miRNA 进行非监督层次聚类。计算多个样品两两之间的距离,构成距离矩阵,合并距离最近的两类为一新类,计算新类与当前各类的距离,再合并、计算,直至只有一类为止,用挑选的差异 mRNA/lncRNA/circRNA/miRNA 的表达情况来计算样品直接的相关性,一般来说,同一类样品能通过聚类出现在同一个簇中,聚在同一个簇中的 mRNA/lncRNA/circRNA/miRNA 可能具有相似的生物学功能。


 


 

今天就来和大家一起来用MEV软件做一下miRNA芯片数据的聚类分析。

推荐理由:MEV软件无需安装,无需解压,但需要在使用该软件之前安装JAVA,点击文件夹中的JAVA软件安装即可。如果想要这些软件或资料,就留言给我们吧!留下您的联系方式,我们会将软件发送您。


第一步:打开MeV,点击File--load Data导入数据,导入文件格式.txt。


 

点击打开后,界面如下:第一列是可以是基因或miRNA名称,也可以是probe ID、gene symbol、miRNA等,第二列往后,是相应样本的标准化的信号值。



点击左上角第一个数据,如上图红色标记,load数据。


第二步:数据中位化(一般需对gene进行中位化)


注意:该步骤点击完成软件中不会出现任何变化,但实际上内部已经运算完成,切忌重复点击。

第三步:进行聚类分析


 

点击HCL,出现以下界面,选择欧式全连接,如红色标记处。



第四步: 数据参数设置如下:

 

点击Set Color Scale Limits后,出现以下界面,请点击下面划红色标记的地方进行参数修改设置,可以设置为-N、0和N。


 

点击OK按钮,出现以下界面:


 

去掉红色划圈部分,对基因与样本两种红色标记处,设置参数如下:不要勾选“Show node height scale”的选框。

 

第五步:保存图片

点击File下面的Save image,可以保存成 .png、.tiff和.jpg等格式的文件。


第六步:保存gene order

 

就是这么简单,你是不是开始准备使用了呢?


369看片-在线看片,手机看片,你懂的,电影天堂