淦文燕 作品数:22 被引量:598 H指数:11 供职机构: 解放军理工大学 更多>> 发文基金: 国家自然科学基金 国家重点基础研究发展计划 中国博士后科学基金 更多>> 相关领域: 自动化与计算机技术 自然科学总论 电子电信 军事 更多>>
高维聚类中的一种特征筛选方法 被引量:19 2003年 聚类分析是数据挖掘领域中一个基础而活跃的研究课题。由于大多数的聚类方法在处理高维数据时会出现高维失效问题,维简约成为高维聚类中一个非常重要的处理步骤。通过分析对象间相似性度量与原始数据分布间的关系,提出一种基于熵的特征筛选方法。该方法通过构造一个基于对象间相似度的熵度量,对原始特征集中的每个特征进行重要性评估,从而获得重要特征子集。实验结果显示,该方法可以有效剔除高维数据集中的不重要或噪声特征,改善聚类算法的性能和聚类结果的可理解性。 淦文燕 李家福 李德毅关键词:聚类分析 相似度 一种聚类算法改进及其在税源分析中的应用 被引量:1 2010年 面对大量的涉税数据,为揭示纳税个体间内在的分类特性,发现其中偏离常规的异常纳税行为等,有效提高税源监管力度,针对税源监管的应用需求,分析了数据挖掘中常用聚类算法的特性,提出了基于DENCLUE密度聚类的改进方法。该方法不仅可以发现数据分布的典型聚簇模式,而且可以揭示对税源监管更有价值的离群模式。应用实践验证了该方法的有效性。 郑垂勇 徐利 淦文燕 赵敏关键词:数据挖掘 聚类 税源分析 正态云模型研究回顾与展望 被引量:100 2018年 不确定性信息的表达和处理是人工智能的一个重要研究问题.目前有多种理论模型从不同的角度研究不确定性问题,包括模糊集、粗糙集、概率论、证据理论等.1995年,李德毅院士在概率论和模糊集理论两者的基础上,提出了一种处理不确定性问题的双向认知模型——云模型,即通过正向云变换和逆向云变换算法进而实现定性概念与定量数值的双向转换.经过20多年的研究与发展,该模型逐渐得到完善,并在不确定性信息处理方面得到了广泛应用.该文回顾了正态云模型理论的研究现状和进展.并在此基础上分析了其存在的挑战和问题:(1)双向认知计算方面,虽然多步逆向云能够实现稳定的双向认知变换,但是它是基于单个云概念的,尚未有多粒度云模型双向认知变换的研究成果;(2)云模型相似性度量方面,由于不同的领域问题需要不同的评价标准,需要开展针对特定问题的云模型相似性度量研究;(3)粒计算机制方面,高斯云变换能够实现由细到粗的粒度变换以及多粒度概念的自适应生成,解决了云模型的变粒度问题.但是没有体现不同云概念以及不同粒度层次之间的关联;(4)多维云模型方面,目前在这方面的研究工作相对较少,缺乏较有效的多维云表示方法.该文针对以上问题,围绕当前的研究热点——大数据存在的挑战,进一步提出了大数据的云模型研究框架,深入探讨了未来的研究方向,并指出未来的工作需要以大数据为中心,结合粒计算、机器学习以及统计学的思想,进一步完善云模型的理论机制,该文的工作对于大数据和云模型理论的研究提供了重要的参考价值. 杨洁 王国胤 刘群 郭毅可 刘悦 淦文燕 刘玉超关键词:云模型 粒计算 不确定性 大数据 基于拓扑势的社会通信网局域中心性分析 被引量:5 2010年 针对社会通信网络中心性度量问题,在CDMA手机通话数据的基础上构建社会通信网络,引入新的局域影响力度量指标——拓扑势,结合度、介数和接近度等经典参数,对社会通信网络局域中心性进行实证分析.发现社会通信网络节点度、介数和拓扑势的累积分布均服从漂移幂律分布,接近度为正态分布;另外,随着用户局域影响范围σ的增大,其局域中心性大小与其联系人数目和连接中介能力的正相关性逐渐减弱,而与其在网络中拓扑位置的正相关性增强. 江健 淦文燕 赵东杰 张海粟关键词:复杂网络 基于词共现网络的海量文本分析与热点话题发现 被引量:11 2015年 在语言学领域,词与词之间的关系具有很强的规则性,基于词共现网络的文本表示可以最大程度捕捉文本结构信息,揭示其内在的组织原则与语言学规律。论文以取自凤凰网环球军事、新浪网中国军事、中华网中国军事的海量军事语料为研究对象,构建军事领域词共现网络,通过词频统计、结点度分布分析以及命名实体抽取,揭示其小世界特性和无标度特性,实现海量文本的热点话题发现。实验结果显示了相关方法的有效性。 张海龙 淦文燕 陈刚 姜博关键词:小世界特性 一个小型演员合作网的拓扑性质分析 被引量:17 2006年 从著名的网络电影社区--MTime网站,获取了国内(大陆、香港、澳门、台湾)近6年来(2001~2006年)拍摄电影的数据.应用复杂网络的理论和方法,对其中的演员合作关系所形成的网络进行了初步研究.分析结果表明:与其他广义合作网络类似,中国电影演员合作网络也具有明显的聚类效应和小世界特性.此外,对历年网络及其最大连通群组也进行了网络简约和社区分析,相关研究结果与实际情况相符,对中国电影发展趋势的预测也有一定的参考价值. 赫南 淦文燕 李德毅 康建初关键词:复杂网络 合作网络 小世界 数据挖掘 面向战争模拟的作战实时信息系统研究与实现 被引量:3 2011年 作战实时信息系统是战争模拟系统中的重要分系统,为不同角色的参演人员提供训练所需的各种实时作战信息。提出了作战实时信息的概念建模思想,基于作战实时数据仓库为系统构建了一个统一的数据存储与管理平台,实现了该系统并在实践中通过了测试。 刘洋 胡晓峰 吴琳 淦文燕关键词:数据仓库 数据建模 基于核密度估计的层次聚类算法 被引量:40 2004年 聚类分析是统计、模式识别和数据挖掘等领域中一个非常基础且非常重要的研究课题,具有广泛的应用前景。在众多的聚类方法中,基于密度的方法是一种相当有效的聚类方法,能够发现任意形状的聚类,对噪声数据不敏感,但是聚类结果严重依赖于用户参数的合理选择。以DENCLUE算法为基础,一种基于核密度估计的层次聚类算法被提出,该算法首先优选窗宽s产生较好的核密度估计结果,然后以密度函数的局部极大值点为聚类中心形成数据的初始划分,最后根据密度函数的鞍点递归合并初始聚类产生不同层次的划分模式。理论分析和仿真实验结果显示,该算法能够发现任意形状、大小和密度的聚类,能够有效处理噪声数据,而且聚类结果不依赖于用户参数的仔细选择。 淦文燕 李德毅关键词:核密度估计 鞍点 一种基于数据场的层次聚类方法 被引量:91 2006年 聚类分析是统计、模式识别和数据挖掘等领域中一个非常重要的研究课题,具有广泛的应用前景.受物理学中场论思想的启发,提出一种基于数据场的层次聚类方法.该方法将物质粒子间的相互作用及其场描述方法引入抽象的数域空间,通过模拟对象在虚拟数据场中的相互作用和运动实现数据对象的自组织层次聚集.实验显示,该方法不依赖于用户输入参数的仔细选择,能够发现任意大小和密度的非球形聚类,对噪声数据不敏感,且具有近似线性的收敛速度. 淦文燕 李德毅 王建民关键词:聚类分析 层次聚类 数据场 一种改进的搜索密度峰值的聚类算法 被引量:16 2017年 聚类是大数据分析与数据挖掘的基础问题。刊登在2014年《Science》杂志上的文章《Clustering by fast search and find of density peaks》提出一种快速搜索密度峰值的聚类算法,算法简单实用,但聚类结果依赖于参数dc的经验选择。论文提出一种改进的搜索密度峰值的聚类算法,引入密度估计熵自适应优化算法参数。对比实验结果表明,改进方法不仅可以较好地解决原算法的参数人为确定的不足,而且具有相对更好的聚类性能。 淦文燕 刘冲关键词:数据挖掘 聚类算法 核密度估计