由于判别函数和判别准则方法的不同,就有各种不同的判别分析方法,其中距离判别法就是离哪个中心距离最近,就属于哪一类。
在距离判别分析方法中,通常使用的距离是马氏(Mahalanobis)距离。根据已知分类的数据,分别计算各类的重心即分类的均值,判别准则是对任给的一次观测,若它与第i类的重心距离最近,就认为它来自第i类。用来比较到各个中心距离的数学函数称为判别函数(discriminant function)。
设有两个总体(或称两类),从第一个总体中抽取个样本,从第二个总体中抽取个样本,每个样本测量p个指标,如下表
总体 |
|
总体 |
||||||||
样本\变量 |
… |
|
样本\变量 |
… |
||||||
|
|
|
||||||||
|
|
|
||||||||
… |
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||
均值 |
|
|
均值 |
|
现任取一个样本,实测指标值为,问X应判归为哪一类?
第一步:计算X到总体的距离,分别记为
第二步:根据距离最近准则判别分类,即:
输入:不同样本的各个属性值。
输出:不同样本的分类值。
分类准确性。
根据6个经济社会发展指标把31个省分为三类,把北京、天津、…、甘肃28个地区作为训练样本,把青海、宁夏和新疆三个地区作为待判分类样本,试对其进行判别分析。
指标 |
人均GDP |
人均地方财政收入 |
人均进出口贸易总额 |
城市人均可支配收入 |
农村人均纯收入 |
移动电话普及率 |
Y |
单位 |
元 |
元 |
元 |
元 |
元 |
部/百人 |
|
北京 |
44774.45 |
5976.59 |
8160.34 |
17652.95 |
7346.26 |
94.89 |
1 |
天津 |
35451.77 |
3182.17 |
5108.05 |
12638.55 |
5579.87 |
48.19 |
2 |
河北 |
14736.7 |
752.74 |
234.56 |
9107.09 |
3481.64 |
26.06 |
3 |
山西 |
12457.59 |
1097.76 |
165.31 |
8913.91 |
2890.66 |
27.01 |
3 |
…. |
|
|
|
|
|
|
|
甘肃 |
7455.59 |
476.1 |
101.39 |
8086.82 |
1979.88 |
33.72 |
3 |
青海 |
10005.89 |
622.47 |
76.06 |
8057.85 |
2151.46 |
20.58 |
|
宁夏 |
10169.46 |
800.34 |
162.25 |
8093.64 |
2508.89 |
13.66 |
|
新疆 |
12956.17 |
897.01 |
395.02 |
7990.15 |
2482.15 |
20.2 |
|
模型的输入是各个省份的人均GDP、人均地方财政收入、人均进出口贸易总额、城市人均可支配收入、农村人均纯收入和移动电话普及率。模型的输出为样本的分类值,模型的评价标准为分类准确性等指标。
服务2200万用户,覆盖1000+服务
支持企业对公账户打款
采购交易三流(合同、发票、资金)合一
付款后资金将全程处于锁定
验收通过后服务商才可提现
企业服务交易全流程线上保障
交易过程中产生纠纷官方100%介入