王倩倩 作品数:18 被引量:50 H指数:4 供职机构: 安徽大学 更多>> 发文基金: 国家自然科学基金 安徽省自然科学基金 国家重点基础研究发展计划 更多>> 相关领域: 自动化与计算机技术 经济管理 农业科学 文学 更多>>
覆盖算法下文本分类特征选择的研究 被引量:2 2008年 文本分类是信息检索和数据挖掘的基础,被广泛应用于网络数据挖掘及搜索引擎等方面。首先对文本进行分词,对分词的结果分别使用x2统计量(CHI)方法与相关系数法(CC法)进行降维,并使用维数调节的思想进行特征提取。在得到特征集后,使用覆盖算法作为文本分类器进行学习。实验结果表明,通过结合相关系数法、覆盖算法以及维数调节方法,可实现一个效果较好的文本分类器。 段震 王倩倩 张燕平 张铃关键词:文本分类 基于商空间的多层粒化社区发现方法 社区发现旨在挖掘复杂网络的社区结构,现有的社区发现方法普遍存在着划分速度和精度不均衡的问题.商空间理论是一种粒度计算理论,通过粒度变换来降低问题求解复杂度,同时保持问题求解精度.提出一种基于商空间的多层粒化社区发现方法(... 段震 闵星 王倩倩 陈洁 张燕平 赵姝关键词:数据挖掘 商空间 阜阳市金融支持现代农业发展研究 农业在国民经济发展中处于基础性地位,对整个国民经济发展具有基础支撑作用,加快推进现代农业发展对稳增长、调结构、惠民生意义重大。伴随新型城镇化的不断推进,城乡关系的处理和进城农民工的市民化问题、三农问题是我国当前建设社会主... 王倩倩关键词:现代农业 金融支持 基于商空间的多层粒化社区发现方法 被引量:2 2017年 社区发现旨在挖掘复杂网络的社区结构,现有的社区发现方法普遍存在着划分速度和精度不均衡的问题.商空间理论是一种粒度计算理论,通过粒度变换来降低问题求解复杂度,同时保持问题求解精度.提出一种基于商空间的多层粒化社区发现方法(multilayer granulation community detection method based on quotient space,MGQS).该方法首先通过快速粒化操作对复杂网络进行多层次粒化,形成逐层粒化、逐层抽象的多粒度商空间,再依据所求问题选择最佳粒层作为最终划分结果.在公用数据集上的系列实验结果表明,相比于其他算法,该方法既能快速划分不同类型和规模的网络,也能获取多粒度的社区结构并根据所求问题选择最佳粒层,取得较高的模块度值和NMI值. 段震 闵星 王倩倩 陈洁 张燕平 赵姝关键词:商空间 多粒度 基于覆盖算法的垃圾邮件过滤 被引量:4 2009年 电子邮件系统分类的正确性与风险性是评价邮件系统好坏的关键因素,邮件过滤是文本分类问题的一种特殊应用。将神经网络中的覆盖算法引入到邮件过滤中,结合多种特征降维方法进行邮件分类实验,并与SVM方法进行了比较。给出一个结合覆盖算法、合适的特征选择与降维方法的分类器,可以实现较好的效果。另外,根据垃圾邮件过滤在实际使用中的最小风险性的要求,从风险角度分析了覆盖算法对测试样本进行分类时的过程。根据分析结果提出对其拒识样本的处理过程进行改进,通过改变非垃圾邮件所属覆盖的影响范围降低了垃圾邮件过滤时的风险。 段震 王倩倩 张燕平 张铃关键词:垃圾邮件过滤 特征降维 基于三支决策的非重叠社团划分 被引量:5 2017年 基于三支决策理论,提出了一种基于三支决策的非重叠社团划分算法(N-TWD),该方法将初始聚类形成的重叠社团进行二次划分以形成最终的非重叠社团。N-TWD算法首先利用层次聚类形成有重叠的社团结构,将两个存在重叠的社团的左边社团中非重叠部分定义为正域,右边社团中非重叠部分定义为负域,而两个社团的重叠部分定义为边界域。然后,针对边界域中的节点,分别计算边界域中节点与正域和负域的社团归属度B_P、B_N进行二次划分。对于二次划分后仍然留在边界域中的节点将利用投票的方法决定其最终归属,最终获得非重叠的社团结构。本文选取4个经典社交网络数据集和1个真实世界数据集对N-TWD算法进行了验证,相比较其他社团划分算法(GN、NFA、LPA、CACDA),N-TWD时间复杂度较低,总体获取的社团模块度值更高。 方莲娣 张燕平 陈洁 王倩倩 刘峰 王刚关键词:复杂网络 社团划分 层次聚类 社团结构 基于覆盖算法的中文垃圾邮件过滤 Internet的发展给人们带来了全新的网络体验,其中的电子邮件技术也成为一种快捷、经济的现代通信手段。然而电子邮件在为人们提供便利的通信手段的同时,也日益成为广告、病毒、恶意程序、不良信息等内容传播的重要载体,给人们的... 王倩倩关键词:垃圾邮件 模式识别 文本分类 邮件过滤 文献传递 基于神经网络的垃圾邮件过滤 被引量:2 2006年 垃圾邮件的过滤是一个具有重要现实意义的课题.将交叉覆盖学习算法和向量空间模型等技术相结合可得到一种新的垃圾邮件过滤方法.实验结果表明该方法识别率较高,具有较强的实用价值. 王倩倩 段震关键词:交叉覆盖算法 垃圾邮件 邮件过滤 向量空间模型 基于交叉覆盖算法的文本分类 被引量:5 2007年 分类是文本信息搜索和挖掘的核心内容,被广泛应用于搜索引擎的设计以及数据挖掘的研究中。首先对文本进行分词,对分词的结果采用x2统计量的方法提取特征,再使用前向神经网络的交叉覆盖算法作为分类器进行文本分类。实验表明,x2统计量可大规模降低特征维数,在此基础上结合交叉覆盖算法的优秀分类能力,可在特征维数较低的情况下获得一个性能较好的文本分类器。 王倩倩 段震 张燕平关键词:文本分类 交叉覆盖算法 安徽省承接国际服务外包的现状及发展对策研究 全球社会经济目前正处于重新整合的时期,以IT为标志的新兴技术的兴起,带动了整个社会经济的迅速发展。服务外包是以现代网络技术和高层次人才为支撑的新型产业,是高端的现代服务业,随着全球产业转移的升级和通讯技术的飞速发展,全球... 王倩倩关键词:国际服务外包 评价指标