国家自然科学基金(713732001) 作品数:11 被引量:82 H指数:6 相关作者: 刘怀亮 杜坤 王亚民 李晓军 李颖 更多>> 相关机构: 西安电子科技大学 更多>> 发文基金: 国家自然科学基金 更多>> 相关领域: 自动化与计算机技术 文化科学 理学 政治法律 更多>>
一种基于复杂网络的中文文本表示算法 被引量:3 2014年 【目的】为解决基于向量空间文本表示模型中语义信息缺失问题,提出一种基于复杂网络的中文文本表示算法。【方法】利用维基百科中所蕴涵的概念、链接结构和类别体系信息进行词语间相关度的计算,然后以此为基础将文本表示为以特征词为节点、词语相关关系为边及其相关度为权重的加权文本复杂网络。【结果】实验结果表明,该文本表示方法可以提高文本相似度计算结果,改善文本分类效果。【局限】文本网络中共现窗口的选择及跨度的选择规则借鉴的是已有研究。【结论】该文本表示方法可以较好地保留文本的结构信息及词汇间的关联信息,且利用基于维基百科的词语相关度计算方法使文本网络所表示的语义信息更加准确。 杨志墨 刘怀亮 赵辉关键词:文本表示 复杂网络 维基百科 文本相似度 一种基于复杂网络模型的作者身份识别方法 被引量:9 2015年 [目的 /意义]作者身份识别是语言文体学的重要研究方向,利用文本特征的身份识别也是文本挖掘的重要任务。在开放和虚拟网络环境下海量信息的作者身份或发布者的识别难题和传统作者身份识别方法在处理效率和成本等方面存在的问题有待解决。[方法 /过程]将复杂网络理论引入该研究领域,在利用传统文体学特征识别作者身份方法的基础上结合文本词共现网络模型及其指标特征改进相关算法,使用文本文体学特征和文本网络模型度量指标构建作者风格特征集合,通过计算文本间风格相似度进行作者识别。[结果 /结论]基于复杂网络模型的作者身份识别方法可以有效的利用作者风格特征,提高识别的精度,与其他算法的对比试验表明其识别结果的准确性更高。 李晓军 刘怀亮 杜坤关键词:文本分类 复杂网络 词共现 文体学 基于科学知识图谱的替代计量研究进展分析 被引量:5 2016年 [目的/意义]替代计量作为文献计量学新的研究领域,受到越来越多的关注和研究,为揭示其研究主题和演变途径。[方法/过程]文章运用科学知识图谱分析软件对Web of Science数据库收录的以替代计量为主题的文献数据进行分析研究,探讨了著作者和机构的分布及其合作网络情况与共被引关系情况等。[结果/结论]从研究人员的分布和合作情况看,科研人员间范围内合作程度较高,团体间合作比较少。美国、英国的研究成果多,相关研究进度较为领先。从研究阶段来看,替代计量的研究已经完成基础理论的研究,转向学术评价模型和指标数据来源的研究。[局限]分析数据集的样本容量有限,需要在更多数据集上进一步验证。 李晓军 刘怀亮 杜坤关键词:科学知识图谱 引文分析 可视化 基于语义相关度的中文文本聚类方法研究 被引量:9 2016年 [目的/意义]在基于向量空间模型的文本聚类中,文本相似度计算忽略特征项间语义关联,针对此问题,提出一种改进的语义文本相似度计算方法。[方法/过程]新方法利用维基百科知识库计算语义相关度,结合特征项在文本中的表示权重,构造文本相似度语义加权因子,并进行K-means文本聚类实验。[结果/结论]与传统的余弦相似度相比,改进后的语义文本相似度应用在文本聚类上,能有效提高聚类的准确度。[局限]语义相关度的计算没有对词语进行消歧处理。 杜坤 刘怀亮 王帮金关键词:维基百科 语义相关度 文本相似度 文本聚类 基于标签网络聚类的个性化资源推荐模型研究 被引量:6 2014年 将社会化标签之间的关系抽象为一种复杂网络。将复杂网络中用于发现社区的连边社团检测算法应用于社会化标签的聚类分析中,利用其能够发现重叠簇的特性,以解决标签的语义模糊性,同时有效缓解了数据稀疏性问题。最后,以形成的标签簇为中介,通过计算用户对标签簇的兴趣度和资源与标签簇的相关度实现个性化资源推荐。实验结果表明了所提模型的优越性。 赵艳 王亚民 刘怀亮关键词:个性化推荐 语义模糊 数据稀疏 基于知网语义相似度的中文文本分类研究 被引量:15 2015年 【目的】准确计算中文文本间的相似度,以提升文本分类的精度。【方法】利用TF-IDF算法计算特征词项权值,并借助知网分析词项间的语义关系,提出一种基于知网语义相似度的文本相似度加权算法,并对该算法进行中文文本分类实验。【结果】实验结果表明,该方法较传统的文本相似度计算方法在文本分类性能上有所提高。【局限】该算法的时间复杂度较高,文本分类的处理速度有待提高。【结论】该方法考虑特征项间的语义关系,能够有效提升中文文本的分类精度。 刘怀亮 杜坤 秦春秀关键词:文本分类 语义相似度 知网 结合复杂网络的特征权重改进算法研究 被引量:6 2015年 【目的】为了更准确计算特征权重,以提高文本相似度计算的准确性。【方法】考虑特征项间的语义关联构造文本复杂网络并进行特征选择,定义类别相关系数并结合特征选择结果,提出一种改进的特征权重计算方法,并进行中文文本分类实验。【结果】对比实验结果表明,本文提出的特征权重改进算法较之TFIDF算法能够取得较好的分类效果。【局限】特征选择评估函数中的参数需要人工给定。【结论】相较于传统的TFIDF算法,该算法能够更加准确地计算特征权重。 杜坤 刘怀亮 郭路杰关键词:复杂网络 文本分类 大数据在图书情报领域的研究现状及趋势分析 被引量:17 2016年 为揭示大数据在国内外图书情报领域的发展脉络和最新进展,文章运用科学计量法,采用可视化分析技术从关键词共现及文献共被引角度对Web of Science及CSSCI中收录的图书情报领域的以大数据为主题的文献进行梳理分析。从分析结果来看,在图书情报领域,国内外研究现状有其相似之处,从热点归纳来看,目前研究主要围绕以数据挖掘和云计算为核心的大数据分析处理技术、大数据与知识管理的结合、来源于社会化网络的大数据以及大数据的隐私问题等方面展开。 刘成山 李玉 王洁良关键词:大数据 图书情报领域 基于信任机制的复杂网络知识共享模型研究 被引量:2 2014年 针对组织成员间知识共享效率低、可信关系难以建立等问题,文章将信任机制应用到知识共享中,提出了一种基于复杂网络的知识共享模型,分析了模型中各模块的主要功能、信任机制的建立以及知识共享社区的形成过程。通过实例验证了该模型能够有效促进节点间信任关系的建立,使具有相似知识兴趣、知识类型和信任值高的节点聚集形成不同的知识共享社区,同时进一步验证了知识共享社区的"小世界"特性。 李颖 王亚民关键词:复杂网络 知识共享 信任模型 信任计算 基于兴趣社区的知识库构建 被引量:1 2014年 文章从知识管理得到启发,将兴趣社区的思想引入到知识库中,通过对用户的知识兴趣和偏好进行聚类来划分兴趣社区,构建基于兴趣社区的知识库。最后通过Matlab仿真实验验证了该方法能够实现对知识的分类存储和管理,解决了虚拟社区中知识存储混乱、分散等问题,促进了同一兴趣社区成员间的知识流通和共享。 李颖 王亚民关键词:知识共享 知识库