桑雨
- 作品数:11 被引量:24H指数:3
- 供职机构:大连理工大学更多>>
- 发文基金:辽宁省教育厅高等学校科学研究项目国家自然科学基金教育部“新世纪优秀人才支持计划”更多>>
- 相关领域:自动化与计算机技术天文地球更多>>
- 连续数据离散化方法研究
- 随着数据量的爆炸性增长以及信息技术的高速发展,数据挖掘与机器学习已成为当今研究的热点。目前,现实世界中往往呈现连续属性值的数据,而很多数据挖掘与机器学习分类算法仅仅适用离散属性值的数据。因此,必须将连续属性值的数据进行离...
- 桑雨
- 关键词:高维数据降维
- 基于支持向量机和粗糙集的图像检索算法被引量:1
- 2009年
- 研究基于支持向量机和粗糙集的相关反馈图像检索算法。利用粗糙集理论,通过对训练集的学习,构造分类规则,对支持向量机反馈后的结果再次进行处理。实验显示,与现有方法相比,该方法在图像检索的性能和时间上都有明显的改善。
- 张文娇闫德勤桑雨
- 关键词:图像检索支持向量机粗糙集
- 基于连续属性离散化和SVM的分类预测方法
- 2010年
- 提出一种基于粗糙集中连续属性离散化和支持向量机(SVM)的分类预测算法。首先,提出一种新颖的Improved Chi2离散化技术,将其作为预处理器将连续属性数据离散化,然后应用粗糙集理论进行属性约简和规则提取,删去冗余的属性和样本,在横向和纵向均大大降低了数据的维度,降低了样本的存储要求,而且没有失去原始决策表所表达的信息。应用支持向量机进行分类建模预测,大大降低了SVM分类过程中的复杂度,不会降低分类能力。仿真实验表明了本文算法的有效性,不仅分类预测精度高,且训练速度快了。
- 刘志磊桑雨
- 关键词:离散化粗糙集支持向量机属性约简
- 连续属性离散化的Imp-Chi2算法被引量:4
- 2008年
- 连续属性离散化是机器学习和数据挖掘领域中的一个重要问题,离散化是否合理决定着表达和提取相关信息的准确性。经过研究Chi2系列算法,提出一种新的基于属性重要性的连续属性离散化方法——Imp-Chi2算法,该算法依据属性重要性程度对属性离散化的顺序进行了合理的调整,能够更准确地对连续属性进行离散化。文章通过C4.5和支持向量机分别对离散化后的结果进行了实验,在实验过程中,提出一种训练集类比例抽取方法,避免了训练集随机抽取的不均匀性。实验结果证明了所提算法的有效性。
- 桑雨闫德勤刘磊梁宏霞
- 关键词:连续属性离散化CHI2算法
- 一种基于类-属性关系依赖度的数据离散化方法
- 本发明公开了一种基于类-属性关系依赖度的数据离散化方法,属于数据挖据领域。其特征是首先在CAIM算法的基础上综合考虑了属性重要性和决策表不一致率对离散化结果的影响,提出了一种改进的CAIM算法;其次,采用λ相关系数作为衡...
- 李克秋王哲桑雨申严明
- 文献传递
- 基于改进χ2统计的数据离散化算法被引量:4
- 2012年
- 在基于χ2统计独立性的离散化算法中,自由度与期望频数的选取直接影响χ2计算的准确性,从而影响离散化的性能.为此,提出了一种基于改进χ2统计的数据离散化算法,提高了基于统计独立性离散化算法的质量.首先,分析了χ2函数中自由度选取的不足,给出了自由度选取的修正方案;其次,根据数据类分布等特点,提出了期望频数的改进方案,克服了不同数据集赋予相同期望频数的缺陷,提高了χ2计算的准确性.实验结果表明,改进的方法显著提高了C4.5决策树与Naive贝叶斯分类器的学习精度.
- 桑雨李克秋闫德勤
- 关键词:离散化数据挖掘
- 基于局部保持投影和主成分分析的地震数据去噪方法被引量:2
- 2018年
- 随着地震勘探需求的增加和地震采集技术的发展,地震数据的维度逐渐加大,传统去噪方法已不能适应高维数据空间的非线性模式,导致对地震弯曲或倾斜同相轴的处理效果不佳,即容易损伤其有效反射波信号。为此,提出一种基于局部保持投影(LPP)和主成分分析(PCA)的地震数据随机噪声衰减方法。首先,利用LPP具有较好处理高维非线性数据的优良特性,用它对每个地震采样点由其近邻点进行重构,使得在地震数据去噪过程中能够有效地保留弯曲或倾斜同相轴信息;然后,使用PCA提取出特征值较大的有效反射信号,去除特征值很小的随机噪声;最后,在人工合成地震数据上的实验结果表明:与两种经典的基于曲波变换阈值去噪和基于小波变换阈值去噪方法相比,提出的方法能很好地适用于弯曲或倾斜同相轴,可以有效地去除随机噪声,且不损伤有效信号。此外,在实际地震CMP道集和叠加剖面上进行处理也得到了很好的效果。
- 魏嘉铖桑雨桑雨杜磊
- 关键词:局部保持投影主成分分析地震数据去噪
- 对Chi2系列算法的改进方法被引量:2
- 2009年
- Chi2系列算法是基于概率统计理论的连续属性离散化重要方法.论文对Chi2相关算法进行了深入分析,指出其中的不足,提出一种新的连续属性离散化方法:Rectified Chi2算法.新算法给出一种新的区间合并依据,能够更合理更有效地对连续属性进行离散化.在此基础上,考虑仅以最大差异为区间合并标准存在不合理性,提出一种基于差异序列为标准的区间合并方法,该方法可以大大提高Chi2系列算法的离散化效果.实验结果证明了上述算法的有效性.
- 桑雨闫德勤梁宏霞李克秋
- 关键词:连续属性离散化CHI2算法粗糙集
- 粗糙集连续属性离散化方法研究
- 传统的粗糙集理论只能对数据库中的离散属性进行处理,所以对存在连续属性的数据库必须进行离散化处理。连续属性离散化是机器学习和数据挖掘领域中的一个重要问题,对后继阶段的机器学习或数据挖掘过程具有非常重要的意义。离散化是否合理...
- 桑雨
- 关键词:粗糙集连续属性离散化
- 文献传递
- 连续属性离散化的Bayesian-Chi2算法被引量:1
- 2008年
- 连续属性离散化在机器学习和数据挖掘领域中有着重要的作用。连续属性离散化方法是否合理决定着对信息的表达和提取的准确性。Chi2算法在对连续属性进行离散化处理时,无冲突的数据能够得到较好的结果,但是,对不协调和不完全的数据实验结果不是很理想。利用了Bayseian模型允许一定程度错误分类存在的性质,对Chi2算法进行了改进。改进后的Chi2算法不仅更适合不协调和不完全的数据,还使得区间的合并更加合理。实验结果证明了算法的有效性。
- 刘磊闫德勤桑雨
- 关键词:连续属性离散化CHI2算法贝叶斯