黄昌宁 作品数:82 被引量:1,747 H指数:24 供职机构: 清华大学信息科学技术学院计算机科学与技术系 更多>> 发文基金: 国家自然科学基金 中国博士后科学基金 国家重点基础研究发展计划 更多>> 相关领域: 自动化与计算机技术 语言文字 更多>>
基于词性和语义知识的汉语句法规则学习 被引量:17 2001年 本文提出了一种汉语句法规则学习的新方法。本方法的特点是 :在规则的学习和表示上都利用了词性、语义以及上下文相关的信息。它不仅能自动学习上下文无关的二元规则 ,而且还能自动发现词类搭配中的歧义结构 ,并利用语义和上下文相关信息将歧义规则在句法分析之前进行排除。实验结果表明 ,该方法较好地解决了汉语句法规则的自动获取及排歧问题并极大地降低了句法分析的难度 ,显示了很好的应用前景。 苑春法 陈刚 黄昌宁关键词:句法分析 汉语 卷首语 1999年 基础研究与应用研究既有分工又相互依赖,好比带动一个学科发展的两个车轮,缺一不可。它们之间的关系又好比理论与实践的关系。没有理论指导的实践是盲目的实践,经不起实践检验的理论则是贫乏的理论。《语言文字应用》杂志创刊八年来,把办刊宗旨定位在语言文字的应用研... 黄昌宁关键词:语言文字 理论思维 研究方法 亚太地区的自然语言处理 1996年 1995年12月4-7日第3届环太平洋自然语言处理研讨会(Natural Language ProcessingPacific Rim Symposium,简称NLPRS)在韩国首都汉城隆重举行,来自19个国家和地区的270位代表出席了本届大会。会议发表论文123篇,内容包括句法分析、情报检索、语料库、语音、机器翻译、语义学、词库、词法学、语言生成、话语等方面。 黄昌宁 周明关键词:计算机 自然语言 基于转换的汉语基本名词短语识别模型 被引量:63 1999年 基本名词短语的识别在自然语言信息处理领域具有重要作用。本文首先从语言学的角度提出了汉语基本名词短语的概念,然后从语言信息处理的角度将用于基本名词短语识别的知识分为两部分,即表示基本名词短语句法组成的基本结构模板(静态知识)与表示基本名词短语出现的上下文环境特征的转换规则(动态知识)。在此基础上设计了一种基于转换的基本名词短语识别模型,该模型可同时结合这两类知识识别基本名词短语。 赵军 赵军关键词:自然语言处理 知识获取 汉语 一种有效的概率上下文无关文法分析算法 被引量:10 1998年 句法分析的研究是自然语言处理领域的一个重要组成部分.该文提出并实现了一种有效的概率上下文无关文法SCFG(stochasticcontext-freegrammar)的分析算法.首先对原有的GLR分析表加以改造,以便能够利用分析过程的控制结构来计算有关的概率;然后对分析过程中的每个状态增设了下标,以区分不同的归约路径.通过上述手段,成功地引入了状态的前向(Forward)概率和内(Inner)概率.利用这两个概率可以计算输入句子的所有可能分析树的概率,用于选择最佳的分析结果.通过对大规模真实文本进行实验,结果表明,这种算法具有较高的分析效率. 朱胜火 周明 刘昕 黄昌宁关键词:自然语言处理 句法分析 形容词直接修饰动词的“a+v”结构歧义 被引量:13 2009年 一般认为,定语是体词性中心语前边的修饰成分,状语是谓词性成分前边的修饰成分。近年来,形容词直接修饰动词的"a+v"词组大量涌现,如"大量研究、初步调查、重大调整、严格训练、严肃批评"等。它们究竟是状中结构还是定中结构,一般需依据上下文来判定。本文通过真实语料的实例分析了这种歧义结构的语法特点和分布,并建议把"a+v"定中词组中心语的词性标注为名词,即把"v"视为动、名兼类词。这样做的目的是让"定语"名正言顺地成为汉语"体词性中心语前边的修饰成分"。本文还对三个带标语料库进行了动、名兼类词的调查,动、名兼类的比例大约在7%(国家平衡语料库)到32%(北大语料库)之间,不会构成汉语"词无定类"的威胁。 黄昌宁 姜自霞 李玉梅关键词:定语 兼类词 结构歧义 汉语中的兼类词、同形词类组及其处理策略 被引量:15 1989年 本文从计算语言的角度,系统地总结了汉语中的歧义现象——兼类词和同形词类组,对之进行了比较深入的研究,并且结合汉语自动句法分析,给出了相应的处理策略。 孙茂松 黄昌宁关键词:兼类词 谓词性成分 歧义现象 计算语言 句法现象 基于自动抽取词汇信息的双语句子对齐 被引量:22 1998年 双语语料库句子对齐已成为新一代机器翻译研究中的一个至关重要的问题.对齐方法主要有基于长度的方法和基于词汇的方法,两者各具特点:前者实现简单、效率高,但精度低;后者精度高但实现复杂.本文提出一种新的对齐方法,首先利用基于长度的方法对文本进行粗对齐,然后在双语平行文本中确定锚点并自动抽取双语对应的关键词汇,降低了对齐问题的复杂度并减少了错误的蔓延.最后再利用所得到的词汇对应信息进行句子的对齐.这种方法融合了基于长度和基于词汇方法的优点,实验表明,它很大程度地提高了对齐的精度. 刘昕 周明 朱胜火 朱胜火关键词:双语语料库 句子对齐 机器翻译 结合句法组成模板识别汉语基本名词短语的概率模型 被引量:25 1999年 文中首先给出了汉语基本名词短语(baseNP)的形式化定义,并通过抽取baseNP句法组成模板,显示了这个定义的可操作性.文中指出,句法组成模板只是识别baseNP的必要条件,而非充要条件,仅靠句法组成模板并不能解决baseNP识别中的边界模糊歧义和短语类型歧义问题.据此,把体现baseNP内部组成的句法组成模板与体现上下文约束条件的N 元模型结合起来,形成了汉语baseNP识别的新模型.实验证明,该模型的性能优于单纯基于词性标记的N 赵军 黄昌宁关键词:自然语言处理 语料库 汉语自动分词和词性标注一体化系统 被引量:9 1996年 沈达阳 孙茂松 黄昌宁关键词:汉语自动分词 词性标注 汉字处理 信息处理