中国博士后科学基金(20070420700) 作品数:20 被引量:85 H指数:4 相关作者: 徐建民 吴树芳 陈振亚 武晓波 刘清江 更多>> 相关机构: 河北大学 天津大学 河北软件职业技术学院 更多>> 发文基金: 中国博士后科学基金 河北省自然科学基金 国家自然科学基金 更多>> 相关领域: 自动化与计算机技术 文化科学 更多>>
基于WB-MMSB模型的微博网络社区发现 被引量:1 2015年 提出了一个用于微博网络社区发现的模型WB-MMSB,该模型考虑了微博网络中节点存在的单向关系,节点的社区隶属度从链入主题隶属度和链出主题隶属度两个方面表示。用指数族分布和平均场变分推理方法推导了模型中各变量的表示,并用SVI算法计算模型涉及的参数。实验在新浪微博数据集上进行,采用归一化互信息和困惑度进行评估,结果表明,WB-MMSB模型的社区发现能力优于aMMSB模型,并且其收敛速度快于aMMSB模型。 徐建民 武晓波 吴树芳 粟武林基于同义词关系改进的局部共现查询扩展 被引量:3 2010年 基于局部共现的查询扩展是一种比较优秀的检索方法,但是这种方法只考虑了术语之间的共现关系,并没有考虑术语之间的同义词关系。合理考虑术语之间的同义词关系可以有效提高系统检索性能。在局部共现查询扩展方法基础上加入了同义词的因素,将初始查询术语与其同义词表示为一个集合,利用词语和这个集合在局部文档集中的共现频度来选取扩展词。实验结果表明,改进方法检索效果要优于局部共现查询扩展方法。 徐建民 崔琰 刘清江关键词:信息检索 查询扩展 同义词 利用本体关联度改进的TF-IDF特征词提取方法 被引量:30 2011年 针对传统TF-IDF方法提取文本特征词时未考虑词语间关系的不足,提出一种利用本体关联度改进的文本特征词提取方法。该方法首先利用传统的TF-IDF方法构建候选特征词集合和非候选特征词集合,然后根据领域本体知识在非候选特征词集合中提取候选特征词的本体关联词,利用候选特征词与其本体关联词之间的本体关联度以及本体关联词本身的权重调整候选特征词的权重,得到新的候选特征词权重排序。实验证明,该方法能够有效提高文本特征词提取的准确度。 徐建民 王金花 马伟瑜关键词:TF-IDF 动态话题追踪中的时序权重 被引量:3 2015年 在贝叶斯信念网络的基础上,给出了一个新的动态话题追踪模型作为文章的表示模型。依据时间距离量化动态话题追踪中的时序信息,并将其应用于特征权重的动态调整。考虑到较长时间没有再现的特征权重应该衰减,给出了权重衰减函数,若衰减后的特征权重低于一定的阈值,则将其视为冗余信息。实验采用TDT4测试集合和DET曲线进行评测,通过反复实验获得基于TDT语料的最优时间距离阈值α和决定是否为冗余特征的阈值β。实验证明,使用时序权重后可有效提高动态话题追踪模型的追踪性能。 吴树芳 徐建民关键词:贝叶斯信念网络 利用术语本体关系扩展SBN检索模型 被引量:1 2013年 合理利用术语关系可以提高信息检索系统的性能.针对简单贝叶斯网络模型未有效利用术语间关系的不足,利用本体概念得到的索引术语之间的本体关联关系,实现对简单贝叶斯网络模型的扩展.词语间的本体关联关系可以用它们之间的本体关联度来度量,本体关联度可以通过词语间的语义相似度和语义相关度来计算.扩展模型中用两层术语节点和节点之间的弧表示术语之间关系,并用本体关联度对这种关系实现量化.节点的概率利用估算方法得到,文档与用户查询之间的相关度通过推理获得.实验结果表明扩展模型的性能有一定的提高. 陈振亚 徐建民 吴树芳关键词:本体 贝叶斯网络 信息检索 语义 一种基于本体的文本特征选取方法 被引量:3 2011年 传统的文本特征选取方法和赋权方法没有考虑术语之间语义关系,由此引起的特征项权重变化得不到合理反映。针对这个不足,提出一种基于本体的文本特征选取方法。通过将本体引入到特征选取中,将特征项映射到概念,对特征项的权重进行加权调整,使得选取的文本特征能够更好地反映文本内容。最后通过实验,说明该方法的有效性,能够在一定程度上提高特征提取的准确性。 陈振亚 陈光辉 徐建民关键词:特征选取 本体概念 映射 An Adaptive Framework of Dynamic Web Service Composition Based on Dynamic Workflow Because of the complex and changeful business needs of modern enterprise,a dynamic Web services composition fr... Zhenpeng Liu关键词:SEMANTICS 基于共现分析法改进的PFIBF方法 被引量:1 2010年 PFIBF方法是一种基于Wikipedia链接关系建立关联词典的方法。该方法仅仅对Wikipedia中的概念进行分析,而忽略了出现在概念解释文档中的术语与概念间的关系。本文利用共现分析法提取在解释文档中出现的术语并将提取出的术语定义为PFIBF分析的对象,扩展了PFIBF法分析的范围,从而实现了对PFIBF法的改进。使用改进后的方法建立关联词典,与原PFIBF方法建立的词典比较,改进后的方法能在不改变准确率的情况下提高关联词典的术语数量和关联关系数量,完善关联词典。 徐建民 田晋坤 付婷婷关键词:WIKIPEDIA 基于量化同义词关系的改进特征词提取方法 被引量:5 2010年 提出一种基于量化同义词关系的改进的TF-IDF文本特征词提取方法.该方法将在同一文本中出现的某个词的同义词做为一个集合,在传统TF-IDF方法计算的词语权重的基础上对同义词集合中的词语及其相关词进行权重调整,通过相似度对同义词集合中的词语进行了合并加权.实验证明该方法对文本中的同义词及其相关词进行了有效处理,提高了文本特征词提取的准确性. 徐建民 刘清江 付婷婷 戴旭关键词:特征提取 知网 基于话题的事件相似度计算 被引量:4 2014年 为了解决传统事件相似度计算方法在TDT(topic detection and tracking)领域计算同一话题下事件相似度时存在不够精确的问题,根据模板知识提出了一种新的基于话题的事件相似度计算方法。该方法综合考虑了事件的内容相似度、事件和话题的相似度、事件的时间相似度。实验结果表明,与传统方法相比,该方法能更准确地判断出同一话题下的事件相似性。 徐建民 张猛 吴树芳关键词:相似度计算