国家高技术研究发展计划(2006AA01Z183) 作品数:4 被引量:15 H指数:3 相关作者: 宋擒豹 沈钧毅 海振 何亮 朱晓燕 更多>> 相关机构: 西安交通大学 更多>> 发文基金: 国家自然科学基金 国家高技术研究发展计划 教育部“新世纪优秀人才支持计划” 更多>> 相关领域: 自动化与计算机技术 更多>>
一种新的基于信息熵的属性选择算法 属性选择是提高分类器性能的一种有效的方法.然而已有的属性选择算法要么假设数据无噪声,要么没有考虑属性间的交互作用,不能用于数据集中既有噪声又存在属性交互作用的情况.提出一种基于信息熵的属性选择算法,该算法用条件熵来评价属... 王广涛 宋擒豹 车蕊关键词:条件熵 文献传递 一种新的组合k-近邻预测方法 被引量:4 2009年 针对传统是一近邻(k-NN)算法基于单一k值预测难以兼顾不同样本的个性,从而导致总体预测精度不够理想的问题,提出了一种组合Bk-NN预测方法.首先通过Boosting理论建立了个性化预测模型集,然后分别采用每个模型对样本进行独立预测,最后各模型预测值的加权和将作为最终预测结果.Bk-NN预测充分考虑了不同类型的样本可能要求不同的预测模型与之相适应的情况,有效降低了预测误差.与其他方法不同的是,Bk-NN预测对数据集的属性类型没有特殊要求.在标准数据集上的实验结果表明,Bk—NN预测精度比传统k—NN方法平均提高了6.44%~15.25%. 何亮 宋擒豹 沈钧毅 海振基于Bagging的组合k-NN预测模型与方法 被引量:4 2010年 k-近邻方法基于单一k值预测,无法兼顾不同实例可能存在的特征差异,总体预测精度难以保证.针对该问题,提出了一种基于Bagging的组合k-NN预测模型,并在此基础上实现了具有属性选择的Bgk-NN预测方法.该方法通过训练建立个性化预测模型集合,各模型独立生成未知实例预测值,并以各预测值的中位数作为组合预测结果.Bgk-NN预测可适用于包含离散值属性及连续值属性的各种类型数据集.标准数据集上的实验表明,Bgk-NN预测精度较之传统k-NN方法有了明显提高. 何亮 宋擒豹 海振 沈钧毅关键词:BAGGING 基于排序的关联分类算法 被引量:6 2009年 提出了一种基于排序的关联分类算法。利用基于规则的分类方法中择优方法偏爱高精度规则的思想和考虑尽可能多的规则,改进了CBA(Classification Based on Associations)只根据少数几条覆盖训练集的规则构造分类器的片面性。首先采用关联规则挖掘算法产生后件为类标号的关联规则,然后根据长度、置信度、支持度和提升度等对规则进行排序,并在排序时删除对分类结果没有影响的规则。排序后的规则加上一个默认分类便构成最终的分类器。选用20个UCI公共数据集的实验结果表明,提出的算法比CBA具有更高的平均分类精度。 朱晓燕 宋擒豹关键词:关联规则 排序 根据序列变化率预测软件阶段成本 被引量:1 2009年 针对软件阶段成本因少数据、不确定性使得用现有方法(如回归)难以预测的问题,文中提出一种新颖的预测方法,该方法从项目已完成阶段的成本序列中,通过变换得到反映序列变化快慢的"变化率",并用机器学习方法从历史项目中学习得到变化率阈值,然后用不同的灰色模型进行预测.在10个现实世界软件工程数据集上的实验结果表明,该方法平均预测误差比线性回归方法低20%~80%,显示出较大的潜力. 王勇 宋擒豹 沈钧毅