为帮助制造企业处理积累的海量制造过程质量数据,数据挖掘方法可以帮助企业从中发现有用的知识和模式进行有效的质量分析及改进。制造过程质量数据的特点如下:混合型数据、分布不均衡、维度灾难及数据耦合。提出一种基于等价关系的数据预处理算法对原始数据做属性选取,解决混合型数据的特征选取及数据预处理问题。针对数据分布不均衡、维度灾难特点,提出基于优化核空间的混合流形学习及支持向量机算法(Optimized kernel based hybrid manifold learning and supportvector machines algorithm,KML-SVM)。在KML-SVM算法中,使用流形学习算法解决采集的质量数据的维度灾难问题,用支持向量机对低维嵌入数据分类预测,并优化支持向量机的核空间以达到分类精度最大化。以某制造企业实际制造过程数据为例对算法进行仿真验证。通过对仿真结果的分析找出质量数据的质量因素关系并提出质量改进方案。试验结果表明提出的ISOMAP核空间是最优核空间,提出的KML-SVM算法能够有效处理制造过程质量数据。
提出一种基于等价支持子集的重要度计算方法(Support subset significant based on equivalence relation,S3ER)用于计算质量特性的重要度。S3ER算法首先定义条件属性值对决策属性值的支持度,并定义条件属性值的区分能力,通过计算条件属性值区分能力的均值,得到条件属性对决策属性的重要度。S3ER算法还能够预测未知样本类别,并获得决策属性的支持子集,通过对支持子集的分析抽取决策规则。试验对比KNN算法和带有权重的KNN算法的分类精度,验证S3ER算法所得属性重要度的有效性;对比S3ER算法、带有权重的KNN算法和C4.5算法在UCI数据库上5个分类数据集的分类精度,验证S3ER算法分类的有效性。将S3ER算法应用于某航空制造企业加工数据,得出该企业的重要质量特性的属性重要度、预测样本的质量结论,并抽取质量决策规则,以改进产品质量。
为了有效地分析高维决策表,提出了基于流形学习降维的决策分析算法(decision analysis algorithm based on manifold learning,DAML).算法使用等距映射法(ISOMAP)对原始数据做降维处理,在得到的主坐标数据上进行决策分析.根据核主成分分析法与ISOMAP方法的关系得到主成分与主坐标的转换关系式,并计算原始数据主成分.提出了基于等价支持子集的决策算法用于计算主成分属性重要性、属性区分能力及等价支持子集.在得到等价支持子集的基础上抽取决策规则,根据决策规则预测算法预测未知数据.选取UCI数据库中标准分类数据集作为仿真实验样本,并对比C4.5决策树算法、K最近邻居算法(KNN)与提出的决策规则预测算法在Iris、Breast cancer、Wine、Spectf heart和Ionosphere数据集上的分类精度来验证算法的有效性.