唐国瑜 作品数:4 被引量:8 H指数:2 供职机构: 清华大学计算机科学与技术系 更多>> 发文基金: 国家科技部专项基金 国家自然科学基金 更多>> 相关领域: 自动化与计算机技术 更多>>
基于词义类簇的文本表示模型 词和多义词现象是文档表示任务面临的重要挑战。因此本文提出了词义类簇模型fSense ClusterMocIel,SCM),在词义类簇空问上表示文档。SCM首先构造词义类簇空问,然后将文档表示在词义类簇空问,获得每篇文档在... 唐国瑜 夏云庆 张民 郑方基于跨语言广义向量空间模型的跨语言文档聚类方法 被引量:6 2012年 跨语言文档聚类主要是将跨语言文档按照内容或者话题组织为不同的类簇。该文通过采用跨语言词相似度计算将单语广义向量空间模型(Generalized Vector Space Model,GVSM)拓展到跨语言文档表示中,即跨语言广义空间向量模型(Cross-Lingual Generalized Vector Space Model,CLGVSM),并且比较了不同相似度在文档聚类下的性能。同时提出了适用于GVSM的特征选择算法。实验证明,采用SOCPMI词汇相似度度量算法构造GVSM时,跨语言文档聚类的性能优于LSA。 唐国瑜 夏云庆 张民 郑方关键词:文档聚类 跨语言信息检索 基于词义类簇的文本聚类 被引量:2 2013年 文档表示是文本聚类的重要组成部分,该文旨在通过改进文档表示改进文本聚类。同义词和多义词现象是文档表示所面临的重要挑战。为此该文提出了词义类簇模型(Sense Cluster Model,SCM),在词义类簇空间上表示文档。SCM首先构造词义类簇空间,然后将文档表示在词义类簇空间上,获得每篇文档在每个词义类簇的概率。在词义类簇空间构造这一步骤中,首先利用词义归纳技术从文本中自动发现词义,接着采用词义聚类技术识别相同或者相似的词义从而获得词义类簇。词义类簇空间构造后,该文首先进行词义消歧,然后利用词义消歧的结果将文档表示在词义空间上。实验表明,SCM在标准测试集上的性能优于基线系统以及经典话题模型LDA。 唐国瑜 夏云庆 张民 郑方关键词:文档聚类 基于跨语言广义向量空间模型的跨语言文档聚类方法 跨语言文档聚类主要是将跨语言文档按照内容或者话题组织为不同的类簇。本文通过采用跨语言词相似度计算将单语广义向量空间模型(Generalized Vector Space Model,GVSM)拓展到跨语言文档表示中,即跨... 唐国瑜 夏云庆 张民 郑方关键词:文档聚类 跨语言信息检索 文献传递