国家自然科学基金(60272088)
- 作品数:23 被引量:560H指数:11
- 相关作者:黄河燕陈肇雄代六玲冯冲张亮更多>>
- 相关机构:中国科学院南京理工大学中国科学技术大学更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术经济管理电子电信更多>>
- 词性标注中生词处理算法研究被引量:22
- 2003年
- 词性兼类是自然语言理解必须解决的一类非常重要的歧义现象,尤其是对生词的词性歧义处理有很大的难度。文章基于隐马尔科夫模型(HMM),通过将生词的词性标注问题转化为求词汇发射概率,在词性标注中提出了一种生词处理的新方法。该方法除了用到一个标注好的单语语料库外,没使用任何其他资源(比如语法词典、语法规则等),封闭测试正确率达97%左右,开放测试正确率也达95%左右,基本上达到了实用的程度。同时还给出了与其他同样基于HMM的词性标注方法的测试比较结果,结果表明本文方法的标注正确率有较大的提高。
- 张孝飞陈肇雄黄河燕蔡智
- 关键词:中文信息处理自然语言理解隐马尔科夫模型语料库
- 语言工程的软件体系结构研究综述被引量:3
- 2004年
- 语言工程的软件体系结构已经逐渐发展成为语言工程的主要研究领域之一。它面向通用的自然语言应用 ,为其提供架构层次的参考方案。研究内容涵盖与体系结构相关的计算资源、语言资源、方法和应用等多个方面。在一定意义上 ,可以把它看作是在语言工程领域内的特定领域软件体系结构 (DSSA)。本文概要介绍了该领域的发展历程和研究意义 ,然后对其基本概念和当前主要研究进展进行了阐述和分析 ,并展望了进一步的发展趋势。
- 冯冲陈肇雄黄河燕
- 关键词:人工智能自然语言处理软件体系结构自然语言处理
- 基于Multigram语言模型的主动学习中文分词被引量:8
- 2006年
- 分词是中文处理中的重要基础问题。为了克服Web文本分析中传统方法在适应繁杂的专业领域和多变的语言现象时存在的困难,本文以无督导分词方法为基本框架,使用EM算法建立n元multigram语言模型,提出了一种基于置信度的主动学习分词算法,使得系统在主要利用大量未标注数据的同时,还能够主动选择少量最有价值的数据提交人工标注。实验结果表明算法性能优于相关的几种无督导分词算法。
- 冯冲陈肇雄黄河燕关真珍
- 关键词:中文信息处理分词EM算法
- 一种用于文本分类的语义SVM及其在线学习算法被引量:3
- 2004年
- 该文利用SVM在小训练样本集条件下仍有高泛化能力的特性,结合文本分类问题中同类别文本的特征在特征空间中具有聚类性分布的特点,提出一种使用语义中心集代替原训练样本集作为训练样本和支持向量的SVM:语义SVM。文中给出语义中心集的生成步骤,进而给出语义SVM的在线学习(在线分类知识积累)算法框架,以及基于SMO算法的在线学习算法的实现。实验结果说明语义SVM及其在线学习算法具有巨大的应用潜力:不仅在线学习速度和分类速度相对于标准SVM及其简单增量算法有数量级提高,而且分类准确率方面具有一定优势。
- 代六玲黄河燕陈肇雄
- 关键词:文本分类支持向量机
- 基于多知识分析的汉盲转换算法
- 本文,提出了一种基于多知识一体化分析的汉盲翻译转换算法,该算法根据汉语特征与盲文特征的内在联系,设计了多种知识的统一形式化描述和相应的规则处理机制,有效地解决了转换过程中的汉语分词歧义和连写问题,实现了汉语到盲文的高效自...
- 黄河燕陈肇雄黄静
- 最大熵模型的树-栅格最优N解码算法被引量:1
- 2005年
- 最大熵模型已被广泛应用于多种自然语言处理任务,但一些现有研究工作在解码算法上存在有待改进的地方。本文提出了一个最大熵模型的树-栅格最优N解码算法,并对算法性能进行了分析和比较。算法的另一优点在于可以在解码过程中检测并控制潜在的标注冲突。
- 冯冲陈肇雄黄河燕王江伟
- 关键词:最大熵模型解码最大熵模型解码算法栅格自然语言处理
- 中文问答系统模型研究被引量:18
- 2006年
- 问答系统是信息检索的高级形式,也是该领域的研究重点和热点。本文较全面地分析了中文问答系统所涉及的关键技术和知识资源平台,提出了一个完整的中文问答系统处理模型,对系统的运行机制和处理流程作了清晰的描述,最后详细讨论了问答系统中的两个关键算法,即形式化扩展算法和答案抽取算法。
- 张亮黄河燕胡春玲
- 关键词:问答系统信息检索语义分析ONTOLOGY
- 基于本体的专业机器翻译术语词典研究被引量:12
- 2007年
- 在专业机器翻译系统的设计和实现中,要解决的一个关键问题是如何有效地组织面向不同专业领域的专业术语,以及如何根据当前所处理的文本选择相应的术语定义。本文首先分析现有专业机器翻译系统在术语词典组织和建设方面存在的主要问题,以及基于本体(Ontology)的领域知识概念体系的特点;其次,探讨面向专业机器翻译的术语词典研究的几个重要方面,包括通用领域本体的设计、专业术语的描述和向本体的映射、双语或多语MT专业词库的组织和应用等;最后,介绍我们初步已完成的工作,主要包括机器翻译专业领域分类系统设计、专业词典向专业分类系统的映射I、CS标准向专业领域分类系统的映射等。映射实验结果表明,专业领域分类系统对于机器翻译专业词典具有良好的覆盖性。
- 黄河燕张克亮张孝飞
- 关键词:人工智能机器翻译本体
- 一种改进的多关键字匹配算法被引量:4
- 2005年
- 基于多关键字匹配的Sun Wu算法进行的分析,结合QS算法的思想,设计了一种改进的多关键字匹配算法:QMS(quick multi-pattern searching)。算法使用散列技术和前缀表减少发生部分匹配时实际进行的关键字比较次数。在计算跳跃距离时,充分考虑当前窗口的紧邻下一个字符带来的信息,进而使用更加精确的跳跃距离计算方法以获得更大的平均跳跃距离,从而获得更高的扫描效率和空间利用率。在真实文本上的对比实验表明,在通常应用环境中,该算法显著的缩短了扫描时间,取得了很好的效果。
- 代六玲王树梅黄河燕陈肇雄
- 关键词:BM算法QS算法SUN
- 基于知识融合的在线文本分类算法——语义SVM被引量:2
- 2004年
- 为使支持向量机(SVM)更加适用于在线文本分类应用。利用SVM在小训练样本集条件下仍有高泛化能力的特性,结合文本特征向量在特征空间中具有聚类性的特点,提出一种用语义中心集代替原训练样本集作为训练样本和支持向量的SVM:语义SVM.文中给出了语义中心集的生成步骤、语义SVM的在线学习算法框架。以及基于SMO算法的在线学习算法的实现.实验结果表明,相对于标准SVM,语义SVM及其在线学习算法不仅在线学习速度和分类速度有数量级提高,而且在分类准确率方面具有一定优势.
- 代六玲李雪梅黄河燕陈肇雄
- 关键词:文本分类支持向量机