国家科技支撑计划(2009BAH41B04)
- 作品数:8 被引量:37H指数:4
- 相关作者:曹晖董晓芳赵小兵邱莉榕赵铁军更多>>
- 相关机构:西北民族大学中央民族大学哈尔滨工业大学更多>>
- 发文基金:国家科技支撑计划甘肃省自然科学基金中央高校基本科研业务费专项资金更多>>
- 相关领域:自动化与计算机技术理学更多>>
- 多民族语言本体知识库构建技术被引量:15
- 2011年
- 语义本体是共享概念模型的显示的形式化规范说明,其目标是将杂乱无章的信息源转变为有序易用的知识源。语义本体知识库的构建是文本自动处理的一个重要环节,跨语言信息检索、信息抽取、自动翻译等领域中都有广泛的应用。该文旨在描述统一标准、统一接口的多民族语言本体知识库的创建思路,以及包含的若干问题,例如:多民族语言中共有概念的一般表示与各民族语言特有的事物表达方式的规律,基于词汇语义的、包括汉语、英语及少数民族语言在内的多民族语言语义本体的表示理论与方法等。
- 赵小兵邱莉榕赵铁军
- 关键词:知识库语义本体本体学习
- 藏文Web网络环境下的搜索策略研究
- 2015年
- 该文分析了藏文Web网络的度分布和最大度优先搜索算法存在的问题,提出了搜索效率更高的二分度搜索算法和双遍历器的二分度与最大度同步搜索算法。根据社区划分原理,设计和构建了藏文Web社区环境下的搜索算法,实验结果表明,其平均搜索步数和平均查询信息量都优于实验中其他搜索算法。
- 陈新一夏建华杜玉祥万福成于洪志
- 关键词:度分布
- 基于短语的藏汉统计机器翻译系统被引量:6
- 2012年
- 本文针对藏文词法及句法的特点,借助开源统计机器翻译平台,搭建起基于短语的藏汉统计机器翻译系统,重点描述了系统中的藏文编码转换和藏文自动分词的实现方法。最后采用500句新闻领域藏文语料对翻译系统进行测试,取得了Bleu值为0.3425的较好结果。
- 董晓芳曹晖江涛
- 关键词:统计机器翻译自动分词
- 藏文语义本体中的上下位关系模式匹配算法被引量:8
- 2011年
- 语义本体是共享概念模型显示的形式化规范说明,其目标是将杂乱无章的信息源转变为有序易用的知识源。目前语义本体还主要依赖于手工创建模式。上下位关系是一种基本的语义关系,常用于语义本体中概念的自动获取和验证。该文首先描述了藏文语义本体的创建方法,进而给出了藏文中的上下位关系模式以及模式匹配算法。上下位关系的模式可以辅助进行概念扩充,也可以作为建立和维护本体的辅助工具,这在一定程度上降低了创建和维护本体的成本。
- 邱莉榕翁彧赵小兵
- 关键词:知识获取语义本体上下位关系
- 面向中英平行专利的双语术语自动抽取被引量:8
- 2014年
- 双语术语自动抽取是自然语言处理领域的重要研究课题之一,对于跨语言检索、机器翻译,以及双语词典的构建等具有重要意义。该文提出了一种面向中英平行专利语料的无监督双语术语自动抽取算法。该算法利用基于短语的统计机器翻译模型中的短语对齐和基于条件随机场的组块分析,实现双语术语自动抽取,同时借助专利语料的领域主题信息进一步提高双语术语抽取的准确率。实验表明:该算法在5 867组电通信技术领域的中英平行专利文档上进行双语术语的自动抽取,准确率达到94.00%。
- 孙茂松李莉刘知远
- 关键词:条件随机场组块分析
- 中学藏语文教材词汇计量统计分析
- 2012年
- 文章对五省(区)藏语文编写委员会编著的初中和高中藏语文教材词汇进行计量统计,包括分体裁用词统计及课文正文用词统计两部分,统计项目包括分体裁词条统计、分册词条、词总、独用词统计、分频段统计等,并对统计数据进行分析说明,为客观评价初、高中教材提供定量标准,为中学阶段的藏文制定量化词汇教学目标提供依据,为今后更好地提高藏语文中学教材的编写质量奠定一定的基础。
- 曹晖韩小斌董晓芳
- 关键词:词汇计量统计
- 藏文报纸词语统计研究被引量:1
- 2012年
- 当前,我国的社会语言生活空前活跃,全面准确地把握语言生活的动态显得十分必要而紧迫.藏族的语言生活是我国社会语言生活的一部分,对于藏语语言生活的调查研究也显得十分重要.通过对平面媒体2010年度四种藏文报纸语料的词语进行分析研究,了解2010年藏文词语的词种、各媒体的独用词种、共用词种、词语覆盖率以及高频词和新词语的使用状况.文章对四种报纸词语的统计研究,不仅可以了解藏文报纸中藏文词汇的使用情况,同时也能根据高频词的统计在一定程度上反映出藏族地区的热点话题、民族风情及发生的重大事件.
- 曹晖董晓芳孟祥和
- 关键词:高频词独用新词
- 藏语/维吾尔语语言资源监测关键技术研究与示范应用
- 2013年
- 本课题充分利用信息处理的现代技术手段,以藏/维语言为研究对象,埘少数民族语言文字(藏语、维吾尔语)的主要媒体语言(网络、报纸、期刊、图书、教材等)资源进行崎测,研究藏/维语常用字/词切分规范和常用词汇表、频度发展变化趋势,突破面向语言监测的藏/维语自然语言处理关键技术,建立藏/维语语言资源监测统一平台及语言资源监测示范基地。
- 关键词:语言文字资源监测维吾尔语藏语自然语言处理信息处理
- 论蒙古语词素切分的实现
- 词素切分即视词根与附加成分为基本词素,自动识别词根的词性及意义、附加成分类型信息。基于词素的切分能有效处理歧义和未登录词,有效缓解数据稀疏问题,促进语言信息处理深层次发展。目前蒙古文信息处理还尚未进入词素切分层面。论文探...
- 通拉嘎赵小兵
- 关键词:词素词根
- 文献传递