教育部科学技术研究重点项目(03070) 作品数:14 被引量:172 H指数:7 相关作者: 王明文 曾雪强 廖海波 万中英 左家莉 更多>> 相关机构: 江西师范大学 南昌工程学院 南昌大学 更多>> 发文基金: 教育部科学技术研究重点项目 江西省自然科学基金 江西师范大学青年成长基金 更多>> 相关领域: 自动化与计算机技术 理学 环境科学与工程 更多>>
基于项目平滑和聚类的协同过滤推荐算法 1引言随着近年来Internet的普及,电子商务得到飞速的发展。推荐系统作为电子商务的重要内容之一,正得到越来越广泛的关注和研究,它是根据用户的历史评价信息向用户推荐其感兴趣的商品或信息。 陶红亮 王明文 曹瑛关键词:CLUSTERING SMOOTHING MAE 文献传递 基于遗传算法的动态文本聚类 被引量:4 2006年 为了解决动态文本聚类中聚类中心陷于局部极值点的问题,该文提出了基于遗传算法的动态文本聚类方法.采用二进制编码方式对聚类中心进行编码、类内中的点与其类中心的欧氏距离作为适应度函数.通过遗传算子的操作对类中心进行逐步迭代,直至适应度函数收敛,得到使聚类划分效果最好的聚类中心.实验表明该方法可以克服局部极值点的问题,且聚类结果的评价指标Purity(纯度)也比较好. 乐兵 王明文关键词:文本聚类 遗传算法 二进制编码 欧氏距离 纯度 网页与文本自动分类综述 被引量:5 2005年 文本自动分类是组织和管理文本信息的有力手段,可以在较大程度上解决信息杂乱无章的问题,使用户更容易更准确地定位所需的信息.目前,文本自动分类是信息检索领域中最前沿的研究热点之一,国内外均有大量学者从事这方面的研究.研究组对文本自动分类进行了深入细致的研究,针对文本自动分类目前存在的问题,提出了一些新的模型,大规模数据集上的实验表明该模型性能优异,表现优于很多方法. 王明文 付雪峰 左家莉关键词:文本分类 维数约简 信任函数组合与局部冲突处理 被引量:21 2004年 在证据理论框架中,数据融合是将几个来自不同证据源的信任函数组合成一个信任函数,Dempster组合规则是人们常用的方法,但由于此规则是通过按比例放大组合后焦元的基本信任指派值而使其满足信任函数的标准定义,尽管这一标准化方法有逻辑上的解释,但还是招致诸多批评,并提出了一些修正的组合规则。Dempster组合规则尤其在较强冲突情形下其组合结果是不符合常理的,因此不同证据源的冲突处理是信息融合的主要问题。该文通过分析比较已有的主要组合规则,提出了一种处理冲突的新方法--局部冲突处理法,此方法可克服已有方法的缺点,而且组合结果更加合理。 吴根秀关键词:证据理论 信任函数 基于核方法的潜在语义文本分类模型 被引量:9 2005年 在信息检索中,潜在语义索引模型直接应用于文本分类时,由于对分类贡献大的特征可能丢失而效果不佳。而考虑了文本特征及分类信息的潜在语义文本分类模型(LSC)也因为本质上是线性模型而性能不高。为了提高分类性能,通过引入核函数,给出了一种非线性的潜在语义文本分类模型。该模型比LSC模型能更好地表示文档空间的潜在语义结构信息。在R eu ter-21578文档集上的实验结果表明,潜在语义文本分类模型有很好的分类性能。 罗远胜 王明文 曾雪强关键词:文本分类 核方法 潜在语义索引 基于Markov网络的信息检索扩展模型 被引量:14 2005年 为了解决信息检索性能较差的问题,查询扩展将索引项之间的关系以及文档之间的相似度引入到检索中,这个过程可以通过构造知识网络来进行。M arkov网络是一种有效的知识关联图形表示方法,可以从实例数据训练获得。本研究提出并实现了基于M arkov网络的信息检索扩展模型,通过对文档集的学习,构造了关于索引项和文档的M arkov网络,将有利于检索的信息加入到检索中。实验表明,基于M arkov网络的信息检索扩展模型优于BM 25模型。 左家莉 王明文 王希关键词:查询扩展 MARKOV网络 信息检索 基于投影寻踪回归文本自动分类的模型 被引量:6 2005年 文本被表示为向量空间模型后,是维数非常高的数据,对其进行维数约简是必要的。投影寻踪正是一种稳健的、非参数化的维数约简方法。提出了一种基于投影寻踪回归的文本自动分类模型。应用该模型,可以真实地描述高维数据的客观内在规律,从而达到提高文本分类精度的目的,岭函数拟合函数的合理选择是提高分类精度的关键,故对拟合函数的选取做了初步的研究。采用标准文档集R eu ters-21578进行了分类实验,同时在相同的预处理条件下,与目前常用的方法进行了对比实验。实验结果表明,该模型对文本自动分类具有较高的召回率和准确率。 廖海波 万中英 王明文关键词:文本分类 维数约简 基于随机森林的文本分类模型研究 被引量:62 2006年 随着WWW的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术.随机森林模型是决策树的集成,并且由一随机向量决定决策树的构造.当森林中决策树的数目增大,随机森林的泛化误差将趋向一个上界.将随机森林模型应用于文本分类,在Reuter21578数据集上的实验表明,分类效果比较好,性能比较稳定,将其同C4.5,KNN,SM0,SVM 4种典型的文本分类器进行了比较,结果显示它的分类性能胜于C4.5,同KNN,SMO和SVM方法相当. 张华伟 王明文 甘丽新关键词:文本分类 决策树 泛化误差 文本分类中的类别信息特征选择方法 被引量:7 2006年 随着网上电子文档的急剧增长,文本分类技术在信息检索中的应用变得日益重要.特征维数增加会使样本统计特性的评估变得更加困难,从而降低分类器的泛化能力,出现“过学习”的现象.因此,文档特征的选择和提取是文本分类的必要前提.提出一种基于类别信息的特征选择方法,该方法在尽量保留文档信息的同时,考虑了文档的类别信息.实验表明,这种方法的分类性能比较好,特别是在微平均指标上,与OCFS以及卡方统计量相比有较大幅度的提高. 余俊英 王明文 盛俊关键词:文本分类 数据库安全中间件(DBSAPI)研究 被引量:2 2005年 针对当前数据库系统数据信息安全问题提出了一种通过中间件技术设计集身份认证、访问控制、数据加密和保密传输于一体的密文数据库解决方案,即通过中间件对数据库系统加密,并将该中间件应用到数据库应用系统. 吴水秀 曾庆鹏关键词:信息安全 数据库加密 加密粒度 中间件 访问控制