一种基于物元分析关联度的聚类分析方法

资源类型:pdf 资源大小:380.00KB 文档分类:环境科学、安全科学 上传者:刘松竹

相关文档

批量下载下列文档

文档信息

【作者】 董吉文  曲朝霞  周劲 

【关键词】物元分析 关联度 聚类分析 

【出版日期】2005-04-25

【摘要】通过物元分析方法与聚类分析相结合,提出一种基于物元分析关联度的聚类分析方法。该方法的实质是以物元分析中的关联度作为样品(或指标)间的相似性统计量,并据此按传统的聚合归类原则来实现样品(或指标)的聚类。实例表明该方法用于河流环境监测优化布点是可行的。

【刊名】济南大学学报(自然科学版)

全文阅读

环境监测优化布点是环境监测中一个重要课题,国内外学者对此进行了大量的研究,到目前为止,先后提出了主成分集合选择法[1]、系统聚类法[2]、网格布点和数据相关分析法[3]、模糊聚类分析法[4]以及物元分析法等。我们把物元分析中待优化物元和标准物元之间的综合关联函数值定义为物元分析关联度。若将它作为不同采样点之间的相似性统计量,并按传统的聚类分析方法的聚合归类原则进行聚类,则得到一种新的聚类分析方法,我们称它为基于物元分析关联度的聚类分析方法。1物元分析原理环境监测优化布点一般涉及到多项污染指标,而由单项污染指标优选出的点往往是不相容的,蔡文教授创立的物元分析理论正是用于处理不相容问题的一种有效方法[5],我们首先根据物元分析理论,求出待优化采样点对应的物元分析关联度。①根据全部采样点的各项污染指标监测值。对于正向型指标集,监测值越大,污染越重;对于负向型指标集,监测值越大,污染越轻。据此拟定出“最佳点”a、“最劣点”b和“期望点”c作为物元分析的参考值如下:最佳点a:{minixij|j∈J;maxixij|j∈J′}(1)最劣点b:{maxixij|j∈J;minixij|j∈J′}(2)期望点c:{xj=1n∑ni=1xij}(3)式中:i=1,2,…n;j=1,2,…m;xij—i采样点的j指标监测值;J—正向型指标集;J′—负向型指标集。②将最佳点a与期望点c以及期望点c与最劣点b分别看成两个标准事物,由它们的各项污染指标的量值范围分别构成两个标准物元矩阵:Rac=Macθ1<a1,c1>θj<aj,cj>θm<am,cm>(4)Rcb=Mcbθ1<c1,b1>θj<cj,bj>θm<cm,bm>(5)③由最佳点a与最劣点b组成的事物,其各项污染指标量值范围扩大化了,其量值范围构成的节域物元矩阵为:Rab=Mabθ1<a1,b1>θj<aj,bj>θm<am,bm>(6)④将每个采样点作为一个事物,其污染指标监测值构成一个待优化事物的物元矩阵:Ri=Miθ1xi1θjxijθmxim(7)⑤计算物元分析关联度。对各采样点,分别建立各项污染指标对标准物元a、b的现行关联函数:Ka(xij)=xij-cjcj-aj(8)Kb(xij)=xij-cjcj-bj(9)那么,采样点i全部污染指标对a、b的综合关联函数为:Kia=∑mj=1wjKa(xij)(10)Kib=∑mj=1wjKb(xij)(11)式中,xij——i采样点j污染指标的监测值;wj——j污染指标的权值。2聚类分析原理聚类分析是对事物按一定要求进行分类的数学方法[6],我们用采样点的全部污染指标对最佳点a和最劣点b的综合关联函数值,即物元分析关联度作为分类依据,可以实现对采样点的聚类分析。①由n个采样点的综合关联函数值构成矩阵:K=K1aK1bKiakibKnaKnb(12)②数据标准化:计算Kia和Kib的平均值:Kt=1n∑ni=1Kit(13)计算标准差:St=1n∑ni=1(Kit-Kt)2(14)数据标准化:K′it=Kit-KtSt(15)压缩到[0,1]之间:K″it=K′it-K′tminK′tmax-K′tmin(16)其中,t=a,b;K′tmax和K′tmin分别是(i=1…n)的最大值和最小值。③用欧几里德距离减数法构造关联度矩阵:rij=1-12∑t=a,b(K″it-K″jt)2(17)式中:i,j=1,2,…n。即得到一个n×n阶的关联度矩阵R:R=r11r12…r1n r21r22…r2n…………rn1rn2…rnn(18)它满足等价矩阵的要求,即:自反性:rii=1;对称性:rij=rji;传递性:若rij≥rik,rik≥rit,则rij≥rit④对采样点进行聚类以R为分类矩阵,采用一次形成聚类结构的计算方法,按以下原则进行聚合归类:(1)若选出的两个采样点在已经分好的组中都未出现过,则它们形成一个新组;(2)若选出的两个采样点中,有一个已经在分好的某个组中出现过,则把另一个也加入该组中;(3)若选出的两个采样点,都已经出现在两个分好的组中,则把这两个组合并;(4)若选出的两个采样点都出现在同一组中,则不需要再做分组操作了。按以上原则反复进行,直到把所有的样品分类聚合。3实例表1列出了海河流域上马颊河的11个监测点(采样点)在溶解氧、化学需氧量(COD)、氨氮、挥发酚和石油类5项水质污染指标数据。表1监测点数据mg·L-1监测点溶解氧COD氨氮挥发酚石油类11.096381.3611.1260.15822.59226.24466.843.3960.00481.18632.296215.625.2600.01861.88845.42655.843.5660.00640.76255.97276.582.3700.02320.71061.06677.761.7840.01520.61275.84886.543.7580.00180.65888.500114.925.4200.04960.77392.478436.0410.8140.06960.714108.234109.001.7490.00160.340117.972195.603.8490.00120.500对表1中数据用式(1)、(2)、(3)计算各项污染指671济南大学学报(自然科学版)第19卷标所对应的“最佳点”、“最劣点”和“期望点”数值,从而得到各项污染指标对应的物元分析参考值,见表2。用下式计算各项污染指标的归一化权值wj:wj=cj/sj∑mj=1cj/sj表2物元分析参考值mg·L-1溶解氧COD氨氮挥发酚石油类a1.09655.841.7490.00120.340b11.066436.0411.1260.15822.592c5.921165.104.8260.03180.976此处水污染分级标准(Sj)统一采用Ⅳ级标准,所得各项污染指标的归一化权值wj,见表3。表3污染指标的归一化权值污染指标sjcj/sjwj溶解氧31.9740.125R=10.050.3100.030.080.030.270.760.020.2010.750.950.970.960.980.780.290.970.8510.690.730.770.730.960.540.720.8910.970.910.960.730.240.970.8010.940.990.760.270.970.8310.950.810.320.940.8810.760.270.980.8310.510.750.9310.260.4410.8214结论取截值为0.95的情况作为最后结果,编号为1、3、7、9、11的5个监测点作为优化后的结果,与原来11个监测点所测结果相比误差较小,并且能相对均匀的分布在整条河流上。这说明以物元分析关联度作为相似性统计量进行聚类分析是可行的。一种基于物元分析关联度的聚类分析方法@董吉文$济南大学信息科学与工程学院!山东济南250022 @曲朝霞$济南大学信息科学与工程学院!山东济南250022 @周劲$济南大学信息科学与工程学院!山东济南250022物元分析;;关联度;;聚类分析通过物元分析方法与聚类分析相结合,提出一种基于物元分析关联度的聚类分析方法。该方法的实质是以物元分析中的关联度作为样品(或指标)间的相似性统计量,并据此按传统的聚合归类原则来实现样品(或指标)的聚类。实例表明该方法用于河流环境监测优化布点是可行的。[1]庄世坚.用主成分子集合选择法优选大气环境监测[J].中国环境科学,1990,10(2):148-151. [2]许榕.大气环境监测优化布点研究[J].中国环境监测,1994,10(5):1-3. [3]张书贵.芜湖市空气质量监测优化布点研究[J].安徽师范大学学报(自然科学版),2001,24(3):274-277. [4]韩玉成.模糊数学在优化布点中的应用[J].中国环境监测,1988,4(4):1-4. [5]蔡文.物元分析[M].广州:广东高等教育出版社,1987. [6]张弘,纪德云.模糊聚类分析法[J].沈阳大学学报,2000,12(2):73-79.

1

问答

我要提问