北京市教委科技发展计划(KM201010772023)
- 作品数:2 被引量:3H指数:1
- 相关作者:施水才甘润生杨永红李渝勤王涛更多>>
- 相关机构:北京信息科技大学北京拓尔思信息技术股份有限公司中山大学更多>>
- 发文基金:北京市教委科技发展计划北京市自然科学基金国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于特征分选策略的中文共指消解方法被引量:2
- 2011年
- 针对基于机器学习的中文共指消解中不同类别名词短语特征向量的使用差异,提出一种基于特征分选策略的方法。该方法在选择特征向量时对人称代词和普通名词短语分别处理,充分利用不同名词短语的已有特征进行共指消解,并减少部分无效特征在共指消解过程中产生的"噪声"。实验结果表明,该中文共指消解方法能提高共指消解的性能,F值达到80.72%。
- 李渝勤甘润生杨永红施水才
- 关键词:共指消解自然语言处理支撑向量机数据词典
- 基于MapReduce的术语权重计算方法研究被引量:1
- 2011年
- 术语识别在本体构建、词典构建等领域应用广泛,而术语权重计算是术语识别中的关键步骤。本文通过改进TF-IDF公式,将组成术语词条的长度作为权重因素之一,同时考虑术语在文档集中的领域相关性。整个过程基于MapReduce编程模型实现,在Hadoop云平台中以分布式方式计算候选领域术语的权重。实验结果表明,该方法不仅简化了术语权重计算的实施步骤,也提高了算法执行效率。
- 王锴施水才王涛吕学强
- 关键词:TF-IDFMAPREDUCE分布式