闻玉彪
- 作品数:3 被引量:29H指数:2
- 供职机构:云南大学信息学院更多>>
- 发文基金:云南省自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 一种改进的最大匹配中文分词算法被引量:16
- 2011年
- 最大匹配算法包括正向最大匹配和逆向最大匹配两种算法,是中文分词领域的基础性算法,目前被广泛应用于众多领域。文中在详细分析了最大匹配算法的优缺点的基础上,提出了一种改进的最大匹配分词算法。改进算法在分词前先对词库进行了规范化预处理,分词时由汉字检索到该字开头的词组,再按词组长度由长到短的顺序使用传统最大匹配算法检索词库。目的是解决传统方法匹配效率低下和不能切分长词的问题。经算法分析结果表明,改进的算法较传统的最大匹配算法高效,分词能力更强。
- 闻玉彪贾时银邓世昆李远方
- 关键词:索引词库分词
- Hadoop-MapReduce下的PageRank矩阵分块算法被引量:13
- 2011年
- PageRank是Web结构挖掘的经典算法,已在Google搜索引擎中取得了巨大成功。但其迭代次数多,时空消耗大,执行速度和收敛速度都还较慢。文中详细讨论了Hadoop-MapReduce的执行流程及其内部实现机制后,提出了一种并行MapReduce实现矩阵分块的PageRank算法,其实质是减少MapReduce框架结构中Map阶段和Reduce阶段的迭代次数,从而减少时空开销。最后搭建Hadoop-MapReduce开源平台,模拟Web结构爬取,比较了传统算法和改进算法的性能。结果表明,改进后的算法迭代次数低,并行效率较高,在模拟环境中PageRank标识网页等级显示其优越性。
- 李远方邓世昆闻玉彪韩月阳
- 关键词:PAGERANKMAPREDUCEHADOOP矩阵分块
- 一种基于组合模型的中文未登录词词性猜测方法
- 在当今信息时代,伴随社会、经济、文化等的飞速发展,生活中不断涌现了大量的中文未登录词语。这些未登录词语在丰富了语言色彩的同时,也给中文信息处理领域带来了前所未有的挑战,因为中文未登录词语没有统一、规范的定义,并且用法灵活...
- 闻玉彪
- 关键词:文字处理未登录词