教育部人文社会科学研究基金(10YJCZH033)
- 作品数:8 被引量:45H指数:4
- 相关作者:扎西加高定国关白才科扎西赵栋材更多>>
- 相关机构:西藏大学西北民族大学更多>>
- 发文基金:教育部人文社会科学研究基金国家自然科学基金国家语委科研项目更多>>
- 相关领域:自动化与计算机技术语言文字更多>>
- 现代藏文音节字自动校对研究被引量:16
- 2012年
- 在现代藏文自动校对中,对音节字(■)的校对是其基础。现代藏文二维的书写格式和独特的文法,还有格助词的黏着现象、音节字搭配规则和音节字中真词和非词错误等众多问题,使得对藏文自动校对的研究有别于英语和汉语的自动校对。针对现代藏文中音节字的特点,通过音节字预处理、字表匹配、混淆集匹配、二元接续关系、最小编辑距离法等方法对现代藏文音节字的自动校对进行详细论述。
- 关白才科扎西
- 现代藏文自动校对现状分析被引量:7
- 2011年
- 虽然现代藏文自动校对技术研究是藏文信息处理技术中一项具有广阔前景和极具挑战性的研究课题,但目前对藏文自动校对技术的研究主要是集中在自动侦错上,对自动纠错的研究要滞后得多,鲜见有专门的研究。文章主要对国内开展藏文自动校对研究的相关工作进行了介绍和评价,在此基础上对现代藏文自动校对的进一步发展进行了展望。
- 关白洛藏才科扎西
- 关键词:现代藏文侦错纠错
- 藏语语料库TEI标记规范探讨被引量:4
- 2011年
- 在语言信息处理过程中,大规模真实文本处理已成为一个研究热点。藏语语料库的标记在汉藏英机器翻译、信息检索、文本数据挖掘、词典编纂的研究工作中占很重要的地位。为了便于数据交换和共享,该文基于TEI编码的藏语语料,对藏语语料库中文本的属性信息和结构信息标记做了系统而全面的探讨。
- 扎西加高定国
- 关键词:藏语语料库
- 藏文文本分词赋码一体化研究被引量:4
- 2012年
- 在藏文文本理解中虚词发挥着重要的句法、语义桥接作用,其规则的有效性在藏文分词处理中扮演着特殊的角色。由于虚词本身及其角色的丰富性,在一定意义上可以说藏文分词处理是虚词识别的过程。因此,虚词识别的正确与否直接影响着藏文文本分词处理的效果。文章依据藏语自身的语法规律和虚词功能的特殊性,首先构建了虚词知识库、虚词兼类库,以及其作为藏文连续文本中识别虚词的依据;其次,研制了标有词汇属性的分词词表和一定规模的训练语料库资源,以基于条件随机域(CRF)的方法进行词性标注,并结合虚词和词性赋码的资源制作了藏文自动分词赋码一体化处理的模型。
- 扎西加高定国
- 关键词:藏文分词
- 自动校对中现代藏文音节字研究被引量:11
- 2011年
- 现代藏文自动校对中,对音节字(■)的校对是其基础。在藏文文本中音节字是用音节点进行间隔的,由于藏文二维的书写特征和音节字形成过程中与其构件之间严格的搭配规则等诸多问题,使得对它的校对又区别于任何一种文字。文章介绍了音节字的构件、结构和搭配规则等问题,列举了藏文音节字中的错误类型,并针对其特殊性给出了一个特有的音节字校对的流程和方法。
- 关白
- 藏语单句的基本句型研究被引量:3
- 2014年
- 藏语基本句型的研究有利于藏语教学,也有利于藏学研究,更有利于计算机的机器翻译、自然语言理解、人工智能等方面的研究。要实现自然语言的机器理解和表达,必须把自然语言抽象化、形式化,建立高度概括、抽象的句型是必然的选择。本文从3000多万字符语料中分离出约7000多句藏文单句进行词性标注,并进行人工校对。按照藏语句中的动词来界定句子,并根据句中的动词把藏文基本句型划分为7类。以基本句型为基础,讨论了藏语基本句型的省略、延伸、语序变化、派生句类和构成复句等变化。
- 高定国扎西加
- 关键词:藏语单句句型
- 计算机识别藏语虚词的方法研究被引量:13
- 2014年
- 藏文虚词的研究是藏文信息处理技术中词、句及语义研究的基础,而计算机自动识别藏文虚词又是藏语虚词研究的前提。该文在论述藏语虚词在藏语文本中的作用和使用方法的基础上,分析了计算机识别藏语虚词的难度,提出了一个计算机识别藏语虚词的方法,并用2 525句典型藏文句子进行了验证,对结果进行分析发现藏文虚词识别的正确率高达97.076 8%。
- 高定国扎西加赵栋材
- 关键词:藏语虚词