国家重点基础研究发展计划(G1998030507)
- 作品数:12 被引量:474H指数:9
- 相关作者:孙茂松苑春法邹嘉彦周强朱小燕更多>>
- 相关机构:清华大学香港城市大学香港中文大学更多>>
- 发文基金:国家重点基础研究发展计划国家自然科学基金重庆市科技攻关计划更多>>
- 相关领域:自动化与计算机技术语言文字电子电信更多>>
- 基于标注语料库的现代汉语句子语义结构研究
- 我们对包含228960个句子、计420万字的《人民日报》语料库进行了人工语义标注,从中归纳出不同的现代汉语句子语义结构共3542种。进一步给出了其分布,并阐述了标注句子语义结构的意义。
- 亢世勇孙茂松田珍都
- 关键词:中文信息处理
- 文献传递
- 多值因果图的推理算法研究被引量:9
- 2003年
- 针对多值因果图存在的两个困难 :(1)不严格满足概率论 ;(2 )将其用于实际问题时 ,推理结果可能出现错误 ,提出了一种基于因果影响可能性分配的推理算法 .该算法将多值因果图的推理分成 3个阶段 ,首先对多值因果图进行补充定义 ,使多值因果图能够兼容单值因果图 ;接着将多值因果图转化为单值因果图进行概率计算 ;最后对多值因果图进行可能性计算 ,将单值因果图计算得到的概率按多值因果图计算得到的可能性进行分配 .以核电站二回路系统中蒸汽发生器故障诊断因果图为例 ,展示了该算法推理计算的全过程 .实例表明 ,该算法能够有效地克服多值因果图存在的困难 ,其推理过程严谨 ,计算结果符合实际情况 .在前面提出的推理算法基础上 ,针对其不能处理模糊情况的局限性 ,提出了一种模糊推理算法 .该算法对多值因果图进行了模糊扩展定义 ,在读数变量和事件变量之间建立了用于表达模糊知识的模糊对应关系 ,在事件变量上定义了一个等价的虚拟模糊状态 ,使读数变量取值对应一个模糊状态 ,把读数的模糊推理转化为对应模糊状态的非模糊推理 .通过本文的工作 。
- 樊兴华张勤孙茂松黄席樾
- 关键词:信度网人工智能
- 汉语自动分词研究的若干最新进展——清华大学相关工作简介
- 清华大学智能技术与系统国家重点实验室一直致力于汉语自动分词的研究.现将最近几年在这方面的主要研究成果向大家扼要汇报一下,希望得到学者们的指正.1.信息处理用现代汉语分词词表国家技术监督局于1993年发布了中华人民共和国国...
- 孙茂松
- 文献传递
- 基于字串内部结合紧密度的汉语自动抽词实验研究被引量:48
- 2003年
- 自动抽词是文本信息处理中的重要课题之一。当前比较通行的解决策略是通过评估候选字串内部结合紧密度来判断该串成词与否。本文分别考察了九种常用统计量在汉语自动抽词中的表现 ,进而尝试将它们组合在一起 ,以期提高性能。为了达到尽可能好的组合效果 ,采用了遗传算法来自动调整组合权重。对二字词的自动抽词实验结果表明 ,这九种常用统计量中 ,互信息的抽词能力最强 ,F measure可达 5 4 77% ,而组合后的F measure为 5 5 4 7% ,仅比互信息提高了 0 70 % ,效果并不显著。我们的结论是 :( 1)上述统计量并不具备良好的互补性 ;( 2 )通常情况下 ,建议直接选用互信息进行自动抽词 ,简单有效。
- 罗盛芬孙茂松
- 关键词:计算机应用中文信息处理自动抽词遗传算法
- 基于奥运语料的语义成分标注规范
- 本文首先拟定23类语义成分的标注符号及标注方法,进而针对初步标注中出现的问题提出可行的处理方法,最终形成一套标注规范,为进行大规模语料标注提供依据。
- 李毅亢世勇孙茂松孙道功
- 关键词:中文信息处理语义成分
- 文献传递
- 中文金融新闻中公司名的识别被引量:77
- 2002年
- 在金融领域信息抽取中 ,公司名扮演着非常重要的角色 ;因此如何正确识别文本中出现的公司名是一个非常重要的研究课题。在对金融新闻文本进行了深入地分析和研究的基础上 ,总结出了公司名的结构特征及其上下文信息 ,建立了六个用于识别公司名的知识库 ,并提出了一个基于两次扫描过程的识别策略。初步实验结果表明 ,在封闭测试中实验系统公司名识别的精确率可以达到 97 3% ,召回率可达 89 3% ;在开放测试中精确率可以达到 6 2 8% ,召回率可达 6 2 1%。
- 王宁葛瑞芳苑春法黄锦辉李文捷
- 关键词:金融领域专名识别信息抽取金融新闻
- 基于神经元网络的汉语短语边界识别被引量:21
- 2002年
- 短语边界的识别是浅层句法分析或组块分析的基础 ,对真实文本的处理具有重要意义。在一个含有 6 442 6词的汉语树库的支持下 ,本文设计并实现了基于神经元网络的汉语短语边界自动识别模型。初步实验结果显示 ,该模型的界定准确率为 93 2 4 % (封闭测试 )和 92 5 6 % (开放测试 )。
- 奚晨海孙茂松
- 关键词:神经元网络中文信息处理浅层句法分析组块分析文字识别
- 参数共享在语音识别中的应用被引量:2
- 2002年
- 参数共享是基于隐 Markov模型 (hidden Markovmodel,HMM)的语音识别系统的参数训练中的一个关键性问题 ,因此在语音识别的诸多领域中都有重要的应用。对参数共享的作用及其使用的聚类算法进行了分析研究 ,在此基础上提出改进合并分级聚类算法 ,并将其应用于 HMM的状态捆绑。实验表明 ,一个大规模词汇量的孤立词语音识别器采用 HMM的状态捆绑后 ,可以大大缩减识别过程的时空消耗 。
- 郭锐朱小燕
- 关键词:语音识别隐MARKOV模型聚类算法
- 基于多种知识的盲文翻译的研究被引量:7
- 2000年
- 盲文到汉字的转换研究 ,分为盲文到拼音和拼音到汉字的转换研究。论文通过引入音码表 ,很好地解决了盲文到拼音转换中的歧义问题。对于拼音到汉字的转换 ,采用Markov模型 ,使用平滑算法解决此模型中的数据稀疏问题 ,并且对通常使用的字级别二元模型的平滑算法进行了改进以适应词级别二元模型。为每一个拼音句子建立一个拼音到汉字转换多部图 ,并在此转换多部图中使用 Viterbi算法搜索一条具有最大似然度的汉语句子 ,或使用 N - Best算法搜索具有头 N大似然度的 N个汉语句子。同时研究了从 1选到 N选的转换判据 ,以进行自动的 N - Best转换。实验表明 ,盲文到汉字转换系统的转换正确率为 94.38% ,若剔除专有名词 ,转换正确率还可上升 2个百分点。对 N - Best搜索算法的测试表明 5选正确率比 1选正确率提高了
- 江铭虎朱小燕夏莹谭刚包塔
- 关键词:拼音汉字
- 短语树到依存树的自动转换研究被引量:16
- 2005年
- 不同标注体系的树库之间的相互转换是计算语言学研究的重要内容之一。本文在总结国内外几种树库标注体系及相互转换实践的基础上,结合清华汉语树库(TsinghuaChineseTreebank ,简称TCT)标注体系的特点,提出了一种将TCT从短语结构转换成依存结构(DependencyStructure)的算法。这种算法充分利用了TCT具有的功能、结构的双重标记,转换得到的依存树不仅包含了各个节点之间相互依存的层次关系,更包含了相互依存的两个节点的具体的依存关系类型。我们对转换的效果进行了抽样评估,准确率可以达到97 37%。
- 党政法周强
- 关键词:人工智能自然语言处理树库自动转换