多元统计方法在城市经济竞争力
分析中的应用
——2012年浙江省各市经济发展评估
原文作者: Peter Trebuna, Jana Halcinovaacute;
单位: Department of Industrial Engineering and Management, Technical University of Ko?ice, Ko?ice, Slovakia
摘要:本文主要研究的是聚类分析方法以及关于各种聚类分析方法之间的比较。聚类分析方法属于一种多元的统计方法。聚类分析它是指一种一般的逻辑技术或者可以理解为一种程序,它在计算出相似系数和距离系数(不相似系数)的基础上将多种对象(样品)归为不同的群体或者说是类别中。聚类分析作为一种计算程序,它的目的和意义在于使得类间对象的同质性最大化和类与类之间的对象的异质性最大化。简单的说,就是把相似的研究对象归为一类。研究对象的相似程度可以通过相似度(相关系数和关联系数)或不相似度(距离的程度系数)来反映。聚类分析方法的应用是建立在将聚类划分为层次或非层次方法的基础上,就是可以把聚类分析方法分为系统聚类法和非层次的聚类分析方法。
关键词:聚类分析;系统聚类分析方法;非层次聚类分析方法
1.介绍
“聚类分析是一个一般的逻辑程序,根据对象之间的相似性或不同点将他们之中具有相同特征的对象归为同一个集群(类别)。聚类分析就是这样的一个过程。”[1]如果有一个n行p列的 型的数据矩阵:
其中,在矩阵中n是对象或样品的数量,p是变量(特性, 特征)的数量。接下来有一个对于对象(样品)进行分类以后的结果S(k), S(k)将n个对象(样品)分为k个群体(类别)
每一个群体用C表示,例如C1表示第一个群体,C2 表示第二个群体hellip;那么分类后的结果可以表示为:
,
其中,就是分类后每一个的群体中都有对象(样品)而包含了所有的对象(样品)。
如果在所有的集群中,其中有一个集群(类别)O的对象(样品)可以如下表示:
如果用符号D表示在集群(类别)中的对象(样品)的任意的距离系数,用符号p表示另一个集群(类别),那么对于任意集群(类别)p中的对象(样品)和O集群(类别)中的对象(样品)的距离系数存在如下不等式[2]:
其中:,
上式就意味着属于一个群体的对象间最大的距离要小于该群体中的任意对象(样品)和不同的类中的任意对象(样品)之间的距离。
在具体的聚类操作时由上述提到的数据矩阵输入,可以得到聚类完成后的集群(类别)的输出结果。输入矩阵X的具体表示为n行和p列的n*p型矩阵
在矩阵中任意的表示对象(样品)的第j个特性:例如表示第二个对象(样品)的第一个特性(变量)所代表的值,这样矩阵中每一元素都有其代表的含义。
2.聚类分析方法
聚类分析方法的分类简单的说,可以分为系统聚类分析方法和非层次的聚类分析方法,其中系统聚类分析方法又可以根据不同的求距离系数的方法分为简单连结法,完整联结法,平均联结法,中位数方法,重心法,离差平方和法。非层次的聚类分析方法可以分为K均值聚类和模糊聚类方法。如图1所示。
聚类分析
非层次聚类分析方法
系统聚类方法
K均值聚类
模糊聚类方法
简单联结法
完整联结法
重心法
中位数法
聚合集群方法
分割方法
平均联结法
离差平方和
图1.聚类分析方法的分类
2.1.系统聚类分析方法
系统聚类分析方法是将把要分析的对象(样品)划分到不同的系统集群(类别)中。这个所谓的系统集群(类别)被定义为由一些原来相互不同的对象所组成的非空子集的系统集群(类别)。这个系统聚类分析方法的主要特征是创建一组分解的原始对象,接下来的步骤就是使得每个部分的分解都改进下一个或前面的分解结果。分解直到最后想要的结果。
根据创建分解的方式(图2)划分,可以将层次聚类方法分成两组:
图2.系统聚类方法聚类的原则
(1)聚合聚类方式是在开始时把所有的单个个体都看作一集群(类别)。接下来的步骤将是计算对象(样品)之间的两两距离,将距离最短的两类合并为一个集群(类别)。相似的,分类操作直到指定集群(类别)结合成更大的集群(类别)质量标准分解实现。最后可以将所有的对象(样品)都归结为一个集群(类别)中。
(2)分区聚集是在集群(类别)的开始过程中,所有的对象(样品)都划分在一个集群(类别)里。然后通过相应的距离公式计算类之间的距离,根据距离将这集群(类别)划分成更小的集群(类别)。可以一直划分到每一对象(样品)都独自为一个集群(类别)。
若聚合系统聚类方法分配给组对象O的序列分解集群,在这里真正的非负数是分配给每个集群。
(1)分解组在初始时的集群分类对象的单个对象,即每一元素集群(类别)属于每一个元素的数量。对象, 是集群(类别) 中的单个元素。.
(2)有分割集,对象集, 分配到集群(类别)中。选择最小的距离系数的两个集群(类别)聚为为一类,这意味着,他们之间是最相似的。这些集群组合起来形成一个新的集群,传递到下一个分解过程。其他集群保持不变,他们直接传递给下一个分解。
2.1.1.简单联结方法
简单的联结方法可以定义如下:如果D是一个随机不相似系数(距离系数),符号C1,C2是两个不同的集群(类别),对象Ai属于集群(类别)C1和对象Aj属于集群(类别)C2然后以下公式就是简单联结法中两个集群(类别)之间的距离表示:
(2.1)
2.1.2.完整联结方法
其实完整的联结方法是一种与简单的联结方法十分类似的方法,只是求解距离的方式有所不同,它的原则可以表示如下[3]:
如果D是一个随机的不相似系数(距离系数),符号C1,C2是两个不同的集群(类别),对象Ai属于集群(类别)C1和对象Aj属于集群(类别)C2,那么以下公式就可以表示为是完整联结法两个集群(类别)之间的距离:
(2.2)
2.1.3.平均联结方法
平均联结法集群(类别)之间的距离的定义如下[3]:
如果D是一个任意的距离系数,符号C1,C2 是两种不同的集群(类别), 对象Ai属于集群(类别)C1和对象Aj属于集群(类别)C2然后以下公式(2.3)就是平均联结法两个集群(类别)之间的距离表示。
(2.3)
其中n1,n2分别表示集群(类别)C1,C2中对象的数目。
2.1.4.类平均法(重心法)
类平均法(重心法)就是用这些集群簇的质心的距离来表示2个类之间的差异性。每个集群(类别)由平均的元素呈现出来,这被称为“重心”。集群(类别)之间的距离是由Lance-William相关函数决定的, 简单的说,它就是两个重心之间的距离。其距离的表达式如(2.4)所示:
(2.4)
其中:,,分别是,,集群(类别)中的对象的数目
2.1.5中位数法
如果集群(类别)的大小是不同的,即不同的集群所包含的对象数目是不同的,新的重心集群(类别)可以包含在一个大集群(类别)或附近的大集群 (类别)中。中位数方法就是试图减少这种缺陷那样,它没有反映出集群的大小,但它反映了其平均水平。新集群(类别)和其他集群(类别)之间的距离可以通过以下等式计算[3]:
(2.5)
2.1.6离差平方和法
离差平方和法是由Ward提出的,也称Ward法。它就是使得同类样品的一个误差平方和的增加最小化的方法。它是基于根据某些优化集群(类别)的同质性标准,减少从质心点的偏差的误差平方和的增加。这就是为什么这种方法不同于前面的的聚类方法的原因。前面的方法是基于优化的层次聚类集群(类别)之间的距离之上[4]。
每个级别的聚类都决定了信息的丢失量,这些丢失量表示为总量的增加的变异广场的每个集群(类别)点误差平方和的值。然后连接的集群(类别)有一个最小的误差增加平方和[5]。
误差平方和函数的准确计算的公式为(2.6)所示[5]:
(2.6)
其中:
2.2.非层次聚类分析方法
非层次聚类分析方法是典型的分类方法,与系统聚类方法不同,它分类的对象划分到预定的号码分隔的集群(类别)。这些聚类方法可以分为以下2组[6]:
快速聚类方法(k-均值法)-------把一个对象聚为一个集群(类别)的任务是明确的;
模糊聚类分析--------计算集群(类别)中对象的相关性系数。
3.结论
近年来,许多企业、机构和组织收集全面的数据库。这一收集积累数据的过程有一个爆炸性的特征,这就是为什么重要的是要找到一个办法在这些数据和提取相关信息。也是聚类方法的重要性增加的原因。
4.参考文献
[1] M. Palumbo, C. N. Lauro and M. J. Greenacre, “Data Analysis and Classification,” Springer, Berlin, 2010, p.505. doi:10.1007/978-3-642-03739-9
[2] L. Kaufmann, “Finding Groups in Data: An Introduction in Cluster Analysis,” Wiley, Hoboken, 2005, p. 342.
[3] B. S. Everitt, S. Landau, M. Leese and D. Stahl, “Cluster Analysis,” Wiley, London, 2011, p. 348.
[4] J. Bacher, A. Poge and K. Wenzig, “Clusteranalyse—Anwendungsorientierte Einfuhrung in Klassifikationsverfahren,” Oldenbourg, Munchen, 2010, p. 432. doi:10.1524/9783486710236
[5] J. Han and M. Kamber, “Data Mining—Concepts and Techniques,” MK Publisher, San Francisco, 2006, p. 772.
[6] P. Trebuňa and J. Halčinovaacute;, “Experimental Modelling of the Cluster Analysis Processes,” Procedia Engineering, Vol. 48. 2012, pp. 673-678. doi:10.1016/j.proeng.2012.09.569
外文文献出处:
Copyright copy; 2013 Peter Trebuňa, Jana Halčinovaacute;. This is an open access article distributed under the Creative Commons Attribution License, which permits unrestricted use, distribution, and reproduction in any medium, provided the original work is properly cited.
附外文文献原文:
Mathematical Tools of Cluster Analysis*
Peter Trebuna, Jana Halcinovaacute; 剩余内容已隐藏,支付完成后下载完整资料
Mathematical Tools of Cluster Analysis*
Peter Trebuna, Jana Halcinovaacute;
Department of Industrial Engineering and Management, Technical University of Koscaron;ice, Koscaron;ice, Slovakia
Email: peter.trebuna@tuke.sk, jana.halcinova@tuke.sk
Received March 1, 2013; revised April 5, 2013; accepted April 12, 2013
Copyright copy; 2013 Peter Trebuňa, Jana Halčinovaacute;. This is an open access article distributed under the Creative Commons Attribution License, which permits unrestricted use, distribution, and reproduction in any medium, provided the original work is properly cited.
ABSTRACT
The paper deals with cluster analysis and comparison of clustering methods. Cluster analysis belongs to multivariate statistical methods. Cluster analysis is defined as general logical technique, procedure, which allows clustering variable objects into groups-clusters on the basis of similarity or dissimilarity. Cluster analysis involves computational procedures, of which purpose is to reduce a set of data on several relatively homogenous groups-clusters, while the condition of reduction is maximal and simultaneously minimal similarity of clusters. Similarity of objects is studied by the degree of similarity (correlation coefficient and association coefficient) or the degree of dissimilarity-degree of distance (distance coefficient). Methods of cluster analysis are on the basis of clustering classified as hierarchical or non-hierarchical methods.
Keywords: Cluster Analysis; Hierarchical Cluster Analysis Methods; Non-Hierarchical Cluster Analysis Methods
- Introduction
“Cluster analysis is a general logic process, formulated as a procedure by which groups together objects into groups based on their similarities and differences.” [1] Having a data matrix X type n times; p, where n is the number of objects and p is the number of variables (features, characteristics). Next there is a decomposition S(k) of set n objects to k certain groups (clusters), i.e.
,
,
comprises all the space.
If that set of objects and any dissimilarity coefficient of objects D, then a cluster is called a subset of p sets of objects o to which it applies [2]:
whereand
This means that the maximum distance of objects belonging to the cluster must always be less than the minimum distance any object from the cluster and object outside cluster.
The input for the clustering of the input data matrix and output are specific identification of clusters. The input matrix X of size n times; p contains the i-th row of charactersobject , where i = 1, 2, , hellip; ,n and j= 1, 2, hellip; ,p .
Therefore
2. Cluster Analysis Methods
Classification of cluster analysis methods is shown in Figure 1.
Cluster analysis
Non-hierarchical custering
hierarchical custering
K-means
Fuzzy clustering
Simple linkage method
Complete linkage method
The Median Method
Centroidrsquo;s Method method
Agglomerative clustering
Divisional
Average linkage method
Wardrsquo;s Method
Figure 1. Classification of cluster analysis methods.
2.1. Hierarchical Cluster Analysis Methods
Hierarchical cluster analysis methods included of the analyzed objects into a hierarchical system of clusters. This system is defined as a system of mutually distinct non-empty subsets of the original set of objects. The main characteristic of hierarchical methods of cluster analysis is creating a decomposition of the original set of objects, in which each of the partial decomposition refines next or previous decomposition.
According to the way of creating decompositions (Figure 2) the hierarchical clustering methods are divided into several groups:
Agglomerative clustering—at the beginning of clustering are considered individual objects as separate clusters. The next steps will then be the most similar clusters combine into larger clusters until the specified criteria of quality decomposition is fulfilled.
Divisional clustering—at the beginning of the clustering process all objects are in one cluster. This cluster is then divided into smaller clusters.
Agglomerative hierarchical clustering methods assign to set of objects O the sequence of its decomposition to clusters and hereby the real non- negative number is assigned to each cluster
1) The decomposition of the set of objects are its individual objects, i.e., single element clusters where by
the number for belongs to each single element cluster .
2) There is a decomposition and the numbers for are assigned to clusters. A pair of cluster which has the minimal dissimilarity of coefficient D is chosen, it means,they are the most similar. These clusters are combined to form one cluster. Other clusters stay unchanged and they pass to next decomposition.
Figure 2. Principle of the agglomerative hierarchical cluster analysis methods.
2.1.1. Simple Linkage Method
The simple linkage method can be defined as follows: D is a random coefficient of dissimilarity, symbols C 1 , are two different clusters, A i object belongs to a cluster
C 1 and object A j belongs to cluster C 2 then
determines the distance of clusters for the Simple linkage method [3].
2.1.2. Complete Linkage Method
The complete linkage method is a dual method to the simple linkage method its principle is following [3]:
If D is a random coefficient of dissimilarity, symbols C 1 , C 2 are two different clusters, A i object belongs to cluster C 1 and object A j belongs to cluster C 2 then
determines
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[287168],资料为PDF文档或Word文档,PDF文档可免费转换为Word
课题毕业论文、文献综述、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。