国家自然科学基金(61003206)
- 作品数:2 被引量:10H指数:2
- 相关作者:张宜浩金澎孙锐更多>>
- 相关机构:乐山师范学院更多>>
- 发文基金:国家自然科学基金四川省教育厅科学研究项目四川省教育厅资助科研项目更多>>
- 相关领域:自动化与计算机技术更多>>
- 谓词自动识别中的特征选择度量研究被引量:2
- 2012年
- 谓词的自动识别是浅层句法分析的重要内容。本文提出了基于支持向量机分类算法的谓词自动识别方法,重点描述了在特征构建过程中基于信息增益的特征筛选方法与基于同义词词林的特征词度量方法。信息增益方法选取对分类影响较大的特征,降低了特征维度;同义词词林的度量方法将特征词映射为深层次的语义概念,增强了特征的表达能力,强调了属性特征与模型的相关度。在小规模语料库上的实验表明,谓词识别的最好F-Score达到了84.0%,相较于对数据无任何处理的情况F-Score提高了4.6%。结果表明,这种新的特征筛选与特征度量方法在谓词识别中十分有效,可以极大提高分类器的性能。
- 张宜浩金澎
- 关键词:同义词词林信息增益支持向量机
- 基于改进k-means算法的中文词义归纳被引量:8
- 2012年
- 汉语中一词多义现象普遍存在,词义归纳就是对在不同语境中具有相同语义的词进行归类,本质上是一聚类问题。目前广泛采用无指导的聚类方法对词义归纳进行研究,提出一种改进的k-means算法,该算法主要从初始簇中心的选取以及簇均值的计算两个方面进行改进,在一定程度上克服了其对"噪声"和孤立点数据的敏感。在特征表示上用同义词词林中词的分类编号来降低特征维度。实验表明改进k-means算法在性能上有较大的提升,F-Score达到了75.8%。
- 张宜浩金澎孙锐
- 关键词:K-MEANS算法聚类同义词词林