|
数据挖掘在水文天气中的运用
本文介绍了数据挖掘的产生、任务、特点、过程和方法分类 , 介绍了数据挖 掘的一些主要方法及其在天气预报中的应用前景。数据挖掘在天气预报中有很多应用领 域 , 随着数据挖掘在天气预报应用领域的深入研究, 必将进一步推动天气预报的进展。
基于属性约简的方法 ,放弃以往复杂的规则匹配算法 ,提出将约简后的多种属性组进行析取 ,筛选特征项 ,并构造分类器.实验结果表明 ,此算法不仅简单 ,还能降低维数和提高分类结果.
目前 ,数据分类的研究已经趋于成熟 ,各种分类器显示出各自不同的性能.但研究者没有放弃通过对数据的预处理来提高分类结果. 详细研究了数据的特征提取算法 ,并给出了各种提取算法的分类效果; 提出对数据的向量空间模型进行潜在语义分析 ,不仅消除数据特征词的斜交现象 ,而且还降低了数据向量空间模型的维度; 提出运用粗糙集属性约简的思想对数据向量空间模型先进行属
性约简(去除对分类没有作用的特征项) ,然后提取规则 ,最后用测试集匹配规则来确定测试数据的类别.
本文针对传统粗糙集属性约简的思想 ,首先对数据向量空间模型进行离散化并属性约简;然后对约简后的多种属性组 ,选取属性个数最多的一组属性 ,同时也将所有属性组中的属性进行析取 ,筛选特征项 ,重新构造向量空间模型 ,使原来的维数得到了一定程度的降低 ,放弃了以往复杂的规则匹配算法 ,简化了算法思想 。
同时提高了分类结果.
关键词: 数据分类; 向量空间模型; 粗糙集; 属性约简
3 分类算法的实现
3. 1 基于粗糙集属性组合的数据分类系统的结构
传统的数据分类结构流程包含预处理、 训练及测试分类 3 个阶段.基于粗糙集的数据分类主要在数据的
预处理之后对特征项进行约简,根据约简后的决策表提取规则,最后对测试数据进行规则匹配.主要的思路
在于考虑约简后的多种约简可能,对属性(特征项)进行筛选,构造分类器,具体流程如图 1 所示.
3. 2 分类算法的设计
3. 2. 1 特征提取及建立模型
期望交叉熵虽然不是最好的特征提取方式 ,但是比较稳定[ 1 - 2 ],作者采用期望交叉熵的方法提取特征 ,并对训练集建立向量空间模型.
3. 2. 2 属性约简
运用粗糙集理论处理决策表时 ,要求决策表中的值用离散数据(如整型、 字符串型、 枚举
型)表达.如果某些条件属性或决策属性的值域为连续值(如浮点型数) ,则在处理前必须进行离散化处理.由
于向量空间模型的条件属性均为归一化后的连续浮点型数 ,所以在属性约简前可以对之进行离散化.具体的
离散化算法[8 ]
如下:
(1)根据 a( x)的值,由小到大排列实例 x ∈U ;
(2)从上到下扫描,设 xi 和 x j 代表两个相邻的实例,如果 a ( xi ) = a ( x j ) ,则继续扫描;如果 d ( xi ) =
d ( x j ) ,即决策相同,则继续扫描;否则得到一个断点 c , c = ( a( xi ) + a( x j ) ) / 2 ;
(3)对于每一个候选点 c , xi 和 x j 代表两个相邻的属性值, Di 代表 x i 所属的等价类所对应的决策中出
现频率最多的决策值的集合,如果有两个以上的决策值出现的频率相同,则| Di | > 1 ;
(4)如果 Di ΑDj 或者 D j ΑDi ,则不选取此断点;否则,选取此断点.
对经过离散化后的决策表进行属性约简,其算法如下:
(1)根据决策表计算区分矩阵;
(2)提取出区分矩阵中只有一个属性的元素,组成核属性组;
(3)找出所有不包含核属性的属性组合,将组合表示为合取范式的形式;
(4)将合取范式转换为析取范式,每一个析取项加上核属性组中的属性就为约简后的一个属性组.
3. 2. 3 建立模型
经过上述属性约简后产生许多属性组 ,根据以往粗糙集对数据分类的经验 ,通过约简后的决策表进一步提取规则 ,最后利用规则匹配对测试数据分类.但这种方法不仅速度慢 ,而且算法复杂 ,作者提出一种新的思路 ,避免用复杂的规则匹配算法 ,而是对约简后的属性组进行考虑 ,具体过程如下:
1)选取包含属性个数最多的一组属性组 ,记录这些属性 ,并将与训练集数据的向量空间模型中每一个特征号相对应;
2)将所有的属性组析取 ,提取出这些属性中包含的所有属性 ,记录这些属性 ,同样将与向量空间模型中每一个特征号相对应;
3)根据对应的特征号 ,将之前建立好的模型重新筛选 ,保留筛选后特征项的权重;
4)运用分类器对新的模型进行训练.
此设计包括:源程序,论文。 |