江苏省自然科学基金(BK2005135)
- 作品数:31 被引量:293H指数:9
- 相关作者:吉根林杨明杨萍凌霄汉程学云更多>>
- 相关机构:南京师范大学南通大学北京大学更多>>
- 发文基金:江苏省自然科学基金国家自然科学基金江苏省高校自然科学研究项目更多>>
- 相关领域:自动化与计算机技术更多>>
- 决策表中基于条件信息熵的近似约简被引量:46
- 2007年
- 属性约简是粗糙集理论的重要研究内容,已有效应用于机器学习、数据挖掘等领域.基于条件信息熵的属性约简可有效推广代数观下的属性约简,但存在抗噪声弱且某些情况下冗余属性多的不足.为此,本文在引入决策表中基于条件信息熵的近似约简概念后,提出决策表中基于条件信息熵的近似约简算法,该算法可有效增强抗噪性,且可依据实际应用的需要有效地对冗余属性进行取舍.最后,本文侧重通过选择不同精度下的约简属性子集在Bench- mark上进行了分类器的性能测试.
- 杨明
- 关键词:粗糙集属性约简条件信息熵近似约简
- 差别矩阵浓缩及其属性约简求解方法被引量:13
- 2006年
- 属性约简是粗糙集理论的重要研究内容之一,已出现大量的属性约简算法,其中基于差别矩阵的属性约简算法是高效属性约简算法之一,但这些算法主要针对一致决策表,而对于不一致决策表,某些情况下不能得到属性约简。为此,本文提出改进的差别矩阵及其属性约简求解方法,统一考虑决策表一致和不一致情况两种情况下的属性约简,有效改进经典的基于差别矩阵求解属性约简的不足。同时,为适应大数据集属性约简需要,提出一种新的差别矩阵浓缩策略,以此提高属性约简的效率。
- 杨明杨萍
- 关键词:粗糙集差别矩阵属性约简
- 一种高效的最大频繁Embedded子树挖掘算法被引量:2
- 2007年
- 提出了一种高效的最大频繁Embedded子树挖掘算法--CMPETree Miner。该算法采用先序遍历序列存储树,并将节点的范围属性加入该序列,采用伪投影技术对频繁子序列进行投影,并对投影序列中的每个节点编码。在挖掘带编码的频繁子序列过程中,对频繁子序列进行高效剪枝,得到最大频繁Embedded子树,无需生成所有频繁Embedded子树。实验结果表明,CMPETree Miner算法是高效可行的。
- 朱颖雯吉根林
- 关键词:频繁子树数据挖掘
- ID-DC:基于分布式聚类的入侵检测方法
- 2007年
- 提出了基于分布式聚类的异常入侵检测方法ID-DC,通过对训练集进行分布式聚类产生聚簇模型,采用基于双参考点的标识算法Double-Reference标记异常簇,不需要具有类别标签的训练集且可自动确定聚簇模型的个数.实验中采用了网络入侵检测数据集KDD-CUP-99来训练模型.实验结果表明:通过采用分布式聚类算法建立的分布式入侵检测模型可有效地检测攻击,检测率高,误警率低.
- 郑苗苗吉根林
- 关键词:入侵检测分布式入侵检测聚类分布式聚类
- 快速挖掘可变支持度约束的闭合与最大频繁Induced子树
- 国内外学者提出了许多频繁子树挖掘算法.这些算法使用的均是固定最小支持度.一般说来,具有较高支持度的短子树通常是有趣的;而对于长子树,即使支持度相对低一些也可能有趣.这就要求挖掘过程中最小支持度的值随着树中节点数的增加而减...
- 朱颖雯吉根林俞单庆
- 关键词:数据挖掘
- 文献传递
- 一种基于集成学习的分布式聚类算法被引量:3
- 2007年
- 基于集成学习的思想,提出一种分布式聚类模型.该模型的分布式处理过程分为2个阶段:先在局部站点局部聚类,然后在全局站点全局聚类.局部站点的局部聚类看作是一种基于数据子集的学习过程,所有的局部聚类结果组成了聚类集成系统的个体学习器,全局聚类采用平均法对局部结果进行集成,并定义了一个准则函数来度量集成的精度.把K-means算法推广到分布式环境,提出一种基于该模型的分布式K均值算法DK-means,该算法对局部数据的分布有较强的伸缩性.实验结果表明,DK-means在同等条件下能达到集中式聚类的精度水平,是有效可行的,从而验证了基于集成学习的分布式聚类模型的有效性.
- 吉根林凌霄汉杨明
- 关键词:K-MEANS分布式聚类数据挖掘
- 一种处理混合型属性的无监督异常入侵检测方法被引量:3
- 2008年
- 针对目前入侵检测技术训练时处理类别型数据能力欠缺、误报率高的问题,提出一种处理混合型属性的无监督异常入侵检测方法,定义了类别型属性各取值之间的差异度,使得在对训练集进行无监督学习、生成检测模型过程中,能够同时有效地处理数值型属性和类别型属性.理论分析表明所定义的类别型属性值差异度既保留了类别型属性各取值之间的本质特征,同时也没有改变数据集的原始维数.实验中采用了网络入侵检测数据集KDD-CUP-99来训练模型.实验结果表明,采用的混合型属性处理方法进行聚类所建立的入侵检测模型,与现有方法相比,检测率高.
- 郑苗苗吉根林
- 垂直分布多决策表下基于条件信息熵的近似约简被引量:11
- 2008年
- 目前粗糙集理论研究主要针对单个决策表,而有关分布式环境下的核求解和属性约简研究的报道不多,为此提出垂直分布多决策表下基于条件信息熵的近似约简算法.该算法在各局部站点并行求相应的条件信息熵,并通过传送部分等价类的策略,可有效降低通讯代价,提高垂直分布多决策表下基于条件信息熵的近似约简效率.算法分析和实验结果表明,所提出的算法是有效可行的.
- 杨明杨萍
- 关键词:粗糙集条件信息熵近似约简
- 基于模糊聚类的入侵检测系统的实现
- 2007年
- 传统的入侵检测技术在扩展性和适应性上已不能应付越来越复杂的攻击方式,利用模糊聚类方法可以在入侵检测中生成更好的检测规则,提出了FCM的改进算法SFCM,设计并实现了基于SFCM的入侵检测系统FCIDS,利用KDD CUP99数据进行实验,结果表明能够显著提高检测率和降低误报率。
- 王小军
- 关键词:入侵检测模糊聚类数据挖掘
- 一种基于垂直分布的多决策表全局属性核求解算法被引量:6
- 2006年
- 针对分布式环境下粗糙集理论研究的重要性,引入全局决策表和局部决策表的概念,并提出一种基于垂直分布的多决策表全局属性核求解算法.该算法可充分利用求得的局部不一致对象和局部差别矩阵,有效提高垂直分布的多决策表全局属性核求解效率.分析结果表明本文算法是有效的,可行的.
- 杨明杨萍
- 关键词:粗糙集差别矩阵