江苏省自然科学基金(BK2006095)
- 作品数:11 被引量:134H指数:7
- 相关作者:倪巍伟孙志挥陆介平王桂平陈耿更多>>
- 相关机构:东南大学江苏科技大学南京审计大学更多>>
- 发文基金:江苏省自然科学基金国家教育部博士点基金国家自然科学基金更多>>
- 相关领域:自动化与计算机技术经济管理电气工程更多>>
- 多维数值敏感属性隐私保护数据发布方法被引量:6
- 2010年
- 为避免多维数值敏感属性数据发布中的近似猜测攻击,基于分解思想提出了一种有效的数据发布方法(l-MNSA).首先通过按敏感属性值均匀间隔分组的方法,提出针对单维数值敏感属性的l-SNSA算法;然后提出最小距离的思想,通过将敏感属性统一化并按最小距离均匀间隔分组,提出适用于多维数值敏感属性的l-MNSA算法.与以往仅针对单敏感属性的发布算法相比,该算法同时能对多维敏感属性提供较好的保护.实验结果表明,采用l-MNSA算法发布的数据,其组内最小差异与l-SNSA算法针对各维属性分别发布的结果相比,平均降低10%左右,算法时间复杂度仍为O(nlgn).该算法可以较好地均衡发布数据的安全性和可用性,是有效可行的.
- 刘腾腾倪巍伟崇志宏张勇
- 关键词:隐私保护数值型数据数据发布
- 我国断路器技术的专利状态分析被引量:1
- 2009年
- 通过对断路器技术专利的检索和统计分析,分析断路器技术各发展阶段的专利申请情况、专利申请趋势、专利状态分布、专利申请人所属国、主要申请人等,从而得出该领域科技产品研发情况,了解我国企业在领域内所处地位及核心技术拥有情况,进而为我国断路器企业提升科技竞争力,促进断路器产业快速发展提供参考。
- 王桂平陆介平董三明赵康
- 关键词:断路器申请量
- 基于邻域属性熵的隐私保护数据干扰方法被引量:17
- 2009年
- 隐私保护微数据发布是数据隐私保护研究的一个热点,数据干扰是隐私保护微数据发布采用的一种有效解决方法.针对隐私保护聚类问题,提出一种隐私保护数据干扰方法NETPA,NETPA干扰方法通过对数据点及邻域点集的分析,借助信息论中熵的理论,提出邻域属性熵和邻域主属性等概念,对原始数据中数据点的邻域主属性值用其k邻域点集内数据点在该属性的均值进行干扰替换,在较好地维持原始数据k邻域关系的情况下达到保护原始数据隐私不泄露的目的.理论分析表明,NETPA干扰方法具有良好地避免隐私泄露的效果,同时可以较好地维持原始数据的聚类模式.实验采用DBSCAN和k-LDCHD聚类算法对干扰前后的数据进行聚类分析比对.实验结果表明,干扰前后数据聚类结果具有较高的相似度,算法是有效可行的.
- 倪巍伟徐立臻崇志宏吴英杰刘腾腾孙志挥
- 关键词:隐私保护聚类挖掘
- 一种面向专利文献数据的文本自动分类方法被引量:15
- 2008年
- 中文专利文献自动分类目前尚无成熟适用的方法。分析了文本自动分类的关键技术,并结合专利数据的特点对无词典分词和权重计算进行了改进,提出了一种适用于专利数据分类的层次分类方法,给出了面向专利文献数据的文本自动分类系统的框架模型。实验表明,该系统具有较好的分类精度与效率。
- 蒋健安陆介平倪巍伟孙志挥
- 关键词:文本分类K-近邻
- 一种面向聚类的隐私保护数据发布方法被引量:15
- 2010年
- 隐私保护微数据发布技术可以在保护敏感数据隐私的同时,维持数据的可用性.但已有的多数发布方法都局限于类别属性数据集,发布后数据可用性以维持数据聚集查询可用性和频繁项集分析、分类挖掘可用性为主.针对数据挖掘领域另一重要任务——聚类分析,以及聚类分析中常处理的数值属性数据隐藏发布问题,提出隐藏算法NeSDO,算法对数据记录关于聚类可用性的特征进行分析,引入个性数据记录和共性数据记录的定义.采用合成数据替换扰动方法,为个性数据记录定义相应的正邻域记录集和负邻域记录集.对共性数据记录用其k最近邻域数据记录的均值替换;对个性数据记录分别采用其正邻域记录集或负邻域记录集内记录的均值进行置换,实现隐藏处理.理论分析和实验结果表明,算法NeSDO能够较好地保护敏感数值不泄露,同时能够有效保持发布后数据的聚类可用性.
- 崇志宏倪巍伟刘腾腾张勇
- 关键词:聚类
- 基于k均值分区的数据流离群点检测算法被引量:30
- 2006年
- 离群知识发现是数据挖掘研究的一个重要方面,数据流离群点挖掘更因其挖掘对象具有动态性、不可复读性、数据量大等特点而成为离群知识发现研究的一个难点.提出一种基于k均值分区的流数据离群点发现算法,先对数据流进行分区做k均值聚类生成中间聚类结果(均值参考点集),随后在这些均值参考点中,根据离群点的定义找出可能存在的离群点.理论分析和实验结果表明,算法可以有效解决数据流离群点检测问题,算法是有效可行的.
- 倪巍伟陆介平陈耿孙志挥
- 关键词:数据挖掘离群点检测
- 扬中工程电器行业的专利现状与发展对策被引量:9
- 2009年
- 通过中国专利数据库对工程电器行业专利进行检索并分析扬中工程电器行业专利现状,找出与国内外专利的差距、专利工作存在的不足,提出了解决问题的对策,为企业和科研机构的研发、创新活动以及开展知识产权战略提供参考和帮助,以期促进扬中工程电器行业的可持续发展。
- 王桂平陆介平董三明周云祥
- 一种基于密度的文本聚类挖掘算法被引量:7
- 2009年
- 针对DBSCAN算法需用户设置参数值、易产生挖掘结果偏差等不足,提出改进算法DBTC(density-basedtext clustering),该算法不仅能够发现任意形状的簇,还有效地解决了基于密度的DBSCAN聚类算法在文本挖掘中参数设置困难和高密度的簇被相连的低密度簇包含的问题。理论分析和实验结果表明,算法是有效可行的。
- 赵康陆介平倪巍伟王桂平
- 关键词:分词文本聚类向量空间模型
- 扬中工程电器行业专利的SWOT分析及对策研究
- 2010年
- 专利申请数量可以作为行业科技进步的风向标。本文将对扬中工程电器行业的专利进行SWTO分析,找出其优势、劣势、机会和威胁,提出解决问题的对策,将对企业和科研机构的研发、创新活动以及开展知识产权战略提供参考和帮助,以期促进扬中工程电器行业的可持续发展。
- 王桂平陆介平董三明周云祥
- 关键词:SWOT分析
- 基于局部信息熵的加权子空间离群点检测算法被引量:29
- 2008年
- 离群点检测作为数据挖掘的一个重要研究方向,可以从大量数据中发现少量与多数数据有明显区别的数据对象."维度灾殃"现象的存在使得很多已有的离群点检测算法对高维数据不再有效.针对这一问题,提出基于局部信息熵的加权子空间离群点检测算法SPOD.通过对数据对象在各维进行邻域信息熵分析,生成数据对象相应的离群子空间和属性权向量,对离群子空间中的属性赋以较高的权值,进一步提出子空间加权距离等概念.采用基于密度离群点检测的思想,分析计算数据对象的子空间离群影响因子,判断是否为离群点.算法能够有效地适应于高维数据离群点检测,理论分析和实验结果表明算法是有效可行的.
- 倪巍伟陈耿陆介平吴英杰孙志挥
- 关键词:高维数据离群点检测信息熵权向量