二阶聚类(Two Step Cluster),也常被称为两步聚类,是一种分层群集算法(Hierarchical Algorithms),目前多用于资料采矿与多元统计的交叉领域,其算法适用于任何尺度的变数。此种算法主要处理非常大的数据,可自动确定类的数目,能够处理连续变量和分类变量的混合数据。二阶聚类算法是分前后两步进行的,也即“二阶段”的意义所在。
二阶聚类分析是揭示自然类别的探索性工具,该方法的算法与传统聚类技术相比有一些显著的特点:它可以基于类别变量和连续变量来进行聚类;自动选择聚类结果的最佳类别数,具备有效分析大量数据的能力。
同其他统计方法一样,二阶聚类也有严苛的适用条件,它要求模型中的变量独立,类别变量是多项式分布,连续变量须是正态分布。
计算集群之间的距离,可以使用欧式距离和对数似然距离。
欧式距离只有所有变量是连续的情况下可以使用。欧式距离是在m维空间中两个点的真实距离。对于集群来说,两个集群之间中心之间的距离被定义为欧式距离。集群中心被定义为集群中变量的容器。
而对数似然距离用来分析连续和分类变量。两个集群之间的距离与似然函数的自然对数的减少是相关的,因此他们会被分组到一个集群。计算对数似然距离,假定连续变量正态分布和分类变量的多项式分布,以及变量是相互独立的。
距离变化的衡量采用对数似然距离,定义i和j两个集群之间的距离为:
其中
在公式(2)中
是i和j两个集群之间的距离;索引代表通过集群i和j的结合后生成的新的集群;是所有连续变量的总数;是所有分组变量的总数;是第k个分类变量的数量;是S集群中所有数据记录的数量;是S集群的数量,分类变量k分成了l个分组;是分组变量k分成l个分组的记录的数量;对整个数据集来说,是对连续变量k的方差(离散)的估计,在集群j中,对于连续变量k的方差估计。
为了自动确定集群的数量,利用赤池信息准则(Akaike’s Information Criterion, AIC)和贝叶斯信息准则(Bayesian Information Criterion, BIC)两种常用信息准则进行自动计算划分族类的个数。
对于J集群,两个指示器通过公式(4)和(5)计算得出,过程如下
其中
这里的模型用的是极大似然法,所以是似然函数的最大值,而是模型参数的个数。
二阶聚类的整个聚类过程分为前后两个大的板块来完成:
1)预聚类(pre-clustering)阶段。采用了BIRCH算法中CF树生长的思想,逐个读取数据集中数据点,在生成CF树的同时,预先聚类密集区域的数据点,形成诸多的小的子簇(sub-cluster)。开始时,把某个观测量放在树的根结点处,它记录有该观测量的变量信息,然后根据指定的距离测度作为相似性依据,使每个后续观测量根据它与已有结点的相似性,放到最相似的结点中,如果没有找到某个相似性的结点,就为它形成一个新的结点。
2)聚类(clustering)阶段。以预聚类阶段的结果即子簇为对象,利用凝聚法(agglomerative hierarchical clustering method),逐个地合并子簇,直到期望的簇数量。将以第一步完成的预聚类作为输入,对之使用分层聚类的方法进行再聚类。每一个阶段,利用信息准则评价现有分类是否适合现有数据,并在最后给出符合准则的分类方案。
二阶聚类算法的关键步骤如图1所示:
图1 二阶聚类算法的关键技术及流程
二阶聚类分析用来揭示数据集中的自然分组(或聚类),如果不揭示,这些分组是不明显的。此算法有多个不错的特征使其区分于传统聚类技术:
输入:二阶聚类处理连续变量也处理分类变量。个案代表要聚类的对象,变量代表聚类所基于的属性。
输出:输出文件受使用软件与设置的限制,其中,大部分软件可输出全部类型的分析过程,特别是CF树。
二阶聚类的优点在于能够完成海量自动标准化数据处理,且可处理分类变量和连续变量的混合数据,可自动丢弃异常值或者将异常值归入最近的类以及可自动确定或者根据业务需要人工指定分类数目;但当分类变量较少时,二阶聚类容易受其分布影响。
如下图显示为三种聚类方法的对比:
图2 三种聚类方法对比
供给我们研究的数据集是从一家银行提供的公共数据库中的信息,数据真实可靠,在SPSS中,大致有14000条记录。这个表包含信用卡还款的的持续时间信息,信用历史,信用卡申请用途,信贷金额,储蓄账户,工龄,还款周期,个人状态、居住权、财产、年龄、住房、银行信用额度,工作,家属和信用批准状态等等。表1中给出这个数据的一部分。
数据库包含3个分类变量和4个连续变量。默认情况下,连续变量被标准化。因为我们使用混合数据,我们在距离度量上只有对数似然的选择,并且选用BIC确定聚类数量。关于对于我们数据集的噪声处理方面,我们决定不检查噪声。异常值定义为在CF树的情况下,其他的叶子不超过规定的最大叶大小的百分比。自动聚类统计表可以用来评估我们的分析中最佳聚类的数量。
在左图中,虽然最低的BIC系数是四簇,根据统计算法,最佳聚类数是三,因为距离最大的比率是三簇。集群分布如右图所示。
图3 预测变量重要性
经过两步聚类的方法,我们得出三个集群所占的比例,并根据数据内的信息分析客户组成,通过分析他们申请信用卡的目的以及通过率,来得出指导现实的结论,由此,我们可以看出二阶聚类在海量数据中标准化数据以及处理混合数据的巨大作用。
服务2200万用户,覆盖1000+服务
支持企业对公账户打款
采购交易三流(合同、发票、资金)合一
付款后资金将全程处于锁定
验收通过后服务商才可提现
企业服务交易全流程线上保障
交易过程中产生纠纷官方100%介入