淦文燕
- 作品数:22 被引量:582H指数:10
- 供职机构:解放军理工大学更多>>
- 发文基金:国家自然科学基金国家重点基础研究发展计划中国博士后科学基金更多>>
- 相关领域:自动化与计算机技术自然科学总论电子电信军事更多>>
- 高维聚类中的一种特征筛选方法被引量:19
- 2003年
- 聚类分析是数据挖掘领域中一个基础而活跃的研究课题。由于大多数的聚类方法在处理高维数据时会出现高维失效问题,维简约成为高维聚类中一个非常重要的处理步骤。通过分析对象间相似性度量与原始数据分布间的关系,提出一种基于熵的特征筛选方法。该方法通过构造一个基于对象间相似度的熵度量,对原始特征集中的每个特征进行重要性评估,从而获得重要特征子集。实验结果显示,该方法可以有效剔除高维数据集中的不重要或噪声特征,改善聚类算法的性能和聚类结果的可理解性。
- 淦文燕李家福李德毅
- 关键词:聚类分析相似度
- 一种聚类算法改进及其在税源分析中的应用被引量:1
- 2010年
- 面对大量的涉税数据,为揭示纳税个体间内在的分类特性,发现其中偏离常规的异常纳税行为等,有效提高税源监管力度,针对税源监管的应用需求,分析了数据挖掘中常用聚类算法的特性,提出了基于DENCLUE密度聚类的改进方法。该方法不仅可以发现数据分布的典型聚簇模式,而且可以揭示对税源监管更有价值的离群模式。应用实践验证了该方法的有效性。
- 郑垂勇徐利淦文燕赵敏
- 关键词:数据挖掘聚类税源分析
- 正态云模型研究回顾与展望被引量:87
- 2018年
- 不确定性信息的表达和处理是人工智能的一个重要研究问题.目前有多种理论模型从不同的角度研究不确定性问题,包括模糊集、粗糙集、概率论、证据理论等.1995年,李德毅院士在概率论和模糊集理论两者的基础上,提出了一种处理不确定性问题的双向认知模型——云模型,即通过正向云变换和逆向云变换算法进而实现定性概念与定量数值的双向转换.经过20多年的研究与发展,该模型逐渐得到完善,并在不确定性信息处理方面得到了广泛应用.该文回顾了正态云模型理论的研究现状和进展.并在此基础上分析了其存在的挑战和问题:(1)双向认知计算方面,虽然多步逆向云能够实现稳定的双向认知变换,但是它是基于单个云概念的,尚未有多粒度云模型双向认知变换的研究成果;(2)云模型相似性度量方面,由于不同的领域问题需要不同的评价标准,需要开展针对特定问题的云模型相似性度量研究;(3)粒计算机制方面,高斯云变换能够实现由细到粗的粒度变换以及多粒度概念的自适应生成,解决了云模型的变粒度问题.但是没有体现不同云概念以及不同粒度层次之间的关联;(4)多维云模型方面,目前在这方面的研究工作相对较少,缺乏较有效的多维云表示方法.该文针对以上问题,围绕当前的研究热点——大数据存在的挑战,进一步提出了大数据的云模型研究框架,深入探讨了未来的研究方向,并指出未来的工作需要以大数据为中心,结合粒计算、机器学习以及统计学的思想,进一步完善云模型的理论机制,该文的工作对于大数据和云模型理论的研究提供了重要的参考价值.
- 杨洁王国胤刘群郭毅可刘悦淦文燕刘玉超
- 关键词:云模型粒计算不确定性大数据
- 基于拓扑势的社会通信网局域中心性分析被引量:5
- 2010年
- 针对社会通信网络中心性度量问题,在CDMA手机通话数据的基础上构建社会通信网络,引入新的局域影响力度量指标——拓扑势,结合度、介数和接近度等经典参数,对社会通信网络局域中心性进行实证分析.发现社会通信网络节点度、介数和拓扑势的累积分布均服从漂移幂律分布,接近度为正态分布;另外,随着用户局域影响范围σ的增大,其局域中心性大小与其联系人数目和连接中介能力的正相关性逐渐减弱,而与其在网络中拓扑位置的正相关性增强.
- 江健淦文燕赵东杰张海粟
- 关键词:复杂网络
- 基于词共现网络的海量文本分析与热点话题发现被引量:10
- 2015年
- 在语言学领域,词与词之间的关系具有很强的规则性,基于词共现网络的文本表示可以最大程度捕捉文本结构信息,揭示其内在的组织原则与语言学规律。论文以取自凤凰网环球军事、新浪网中国军事、中华网中国军事的海量军事语料为研究对象,构建军事领域词共现网络,通过词频统计、结点度分布分析以及命名实体抽取,揭示其小世界特性和无标度特性,实现海量文本的热点话题发现。实验结果显示了相关方法的有效性。
- 张海龙淦文燕陈刚姜博
- 关键词:小世界特性
- 基于数据场的图像数据挖掘研究被引量:18
- 2004年
- 论文采用数据场和“势”的概念,提出了一种把非结构化数据转化为结构化数据场的思想。通过提取数据场不同层次的局部极大值点,实现概念粒度的跃升,达到图像数据的降维和简约1。文章比较了图像数据经不同的非线性变换后对局部极大值大小和位置分布的影响,找到了合适的变换函数。试验证明该方法突出了人脸的局部特征,有利于反映人脸的表情,为人脸表情的特征提取提供了一种新的思路。
- 戴晓军淦文燕李德毅
- 关键词:数据场特征提取表情识别
- 一种新的基于数据场的语音增强算法
- 语音增强是消除噪声干扰的主要手段,在语音处理系统中得到广泛应用。传统语音增强算法认为相邻帧语音幅度谱之间是相互独立的,而研究表明语音幅度谱时频点之间存在相互依赖关系。缺乏对邻域时频结构信息的利用使得传统增强算法的性能难以...
- 黄建军张雄伟张亚非淦文燕邹霞
- 关键词:语音增强数据场噪声估计
- 一个小型演员合作网的拓扑性质分析被引量:17
- 2006年
- 从著名的网络电影社区--MTime网站,获取了国内(大陆、香港、澳门、台湾)近6年来(2001~2006年)拍摄电影的数据.应用复杂网络的理论和方法,对其中的演员合作关系所形成的网络进行了初步研究.分析结果表明:与其他广义合作网络类似,中国电影演员合作网络也具有明显的聚类效应和小世界特性.此外,对历年网络及其最大连通群组也进行了网络简约和社区分析,相关研究结果与实际情况相符,对中国电影发展趋势的预测也有一定的参考价值.
- 赫南淦文燕李德毅康建初
- 关键词:复杂网络合作网络小世界数据挖掘
- 面向战争模拟的作战实时信息系统研究与实现被引量:3
- 2011年
- 作战实时信息系统是战争模拟系统中的重要分系统,为不同角色的参演人员提供训练所需的各种实时作战信息。提出了作战实时信息的概念建模思想,基于作战实时数据仓库为系统构建了一个统一的数据存储与管理平台,实现了该系统并在实践中通过了测试。
- 刘洋胡晓峰吴琳淦文燕
- 关键词:数据仓库数据建模
- 基于核密度估计的层次聚类算法被引量:41
- 2004年
- 聚类分析是统计、模式识别和数据挖掘等领域中一个非常基础且非常重要的研究课题,具有广泛的应用前景。在众多的聚类方法中,基于密度的方法是一种相当有效的聚类方法,能够发现任意形状的聚类,对噪声数据不敏感,但是聚类结果严重依赖于用户参数的合理选择。以DENCLUE算法为基础,一种基于核密度估计的层次聚类算法被提出,该算法首先优选窗宽s产生较好的核密度估计结果,然后以密度函数的局部极大值点为聚类中心形成数据的初始划分,最后根据密度函数的鞍点递归合并初始聚类产生不同层次的划分模式。理论分析和仿真实验结果显示,该算法能够发现任意形状、大小和密度的聚类,能够有效处理噪声数据,而且聚类结果不依赖于用户参数的仔细选择。
- 淦文燕李德毅
- 关键词:核密度估计鞍点