刘汇丹
- 作品数:53 被引量:112H指数:6
- 供职机构:中国科学院软件研究所更多>>
- 发文基金:国家自然科学基金中国科学院西部行动计划项目国家科技重大专项更多>>
- 相关领域:自动化与计算机技术语言文字更多>>
- 双语对齐语料的加工方法及装置
- 本发明提供一种双语对齐语料的加工方法及装置,涉及机器翻译技术领域,用于解决现有技术中双语对齐语料加工方法效率低下的问题。所述方法包括:获取第一语种文章的发布日期;提取所述第一语种文章的特征;筛选出发布日期与所述第一语种文...
- 刘汇丹龙从军诺明花安波吴健
- 文献传递
- 一种图形用户界面的多语言自适应方法
- 本发明公开了一种图形用户界面的多语言自适应方法,其方法为根据要显示或要处理的主语言设置布局模式,根据用户交互操作和程序设置计算要显示的各个图形部件的位置和尺寸,然后根据确定的布局模式对各个图形部件的位置和尺寸实施变换,最...
- 芮建武刘汇丹吴健姚延栋姜力郭伟军
- 文献传递
- 用户身份检测方法和系统
- 本发明公开一种用户身份检测方法和系统,涉及网络信息系统安全技术领域,解决了现有技术中网络信息系统的身份安全性不高的问题。所述方法包括:获取用户行为特征数据,所述用户行为特征数据包括多个用户行为特征值;对所述用户行为特征数...
- 蒋建春丁丽萍高畅刘汇丹
- 面向汉藏辅助翻译系统的平行语料库建设
- 本文首先在对目前自然语盲处理中计算机辅助翻译系统的思想和设计做了简要描述的基础上,提出了目前针对于汉藏双语的计算机辅助翻译系统中汉藏双语平行语料库的设计方案,以及在汉藏双语平行语料库设计中所涉及到的各种藏语编码格式的统一...
- 赵维纳刘汇丹于新吴健张普
- 关键词:计算机应用中文信息处理藏文信息处理
- Web藏文文本资源挖掘与利用研究被引量:6
- 2015年
- 该文结合链接分析技术和藏文编码识别技术,使用网络爬虫实现对互联网上藏文文本资源的挖掘,分析了Web藏文文本资源的分布情况。统计数据显示,国内藏文网站50%以上在青海省;约87%的藏文网页集中分布在31个大型网站中;人们正在逐步弃用旧有藏文编码,使用Unicode编码来制作网页。利用HTML标记、栏目归属、标点符号等自然标注信息对这些文本进行抽取,可以构建篇章语料和文本分类语料,可以抽取互联网藏文词库,进行词频统计和训练藏文语言模型,结合双语词典和搜索引擎技术抽取双语平行语料。这些语料可用于藏文分词、命名实体识别、信息检索、统计机器翻译等研究领域。
- 刘汇丹诺明花马龙龙吴健贺也平
- 关键词:WEB文本挖掘信息抽取藏文信息处理中文信息处理
- 一种基于部件的联机手写藏文字符的识别方法
- 本发明属于少数民族语言文字信息处理领域,具体涉及一种基于部件的联机手写藏文字符的识别方法。本发明突破传统的基于统计的识别方法,以部件为基本识别对象,首先对输入字符进行部件分割,得到按一定规则排列的子结构序列,然后利用基于...
- 马龙龙吴健刘汇丹
- 文献传递
- 汉藏短语对抽取中短语译文获取方法研究被引量:7
- 2011年
- 该文从法律法规和公文领域汉藏语料中对待翻译汉语短语提取藏语译文。目前普遍采用的短语对抽取方法需要依赖于词性或句法分析等资源或词对齐技术。考虑现阶段藏文资源不足,词法句法相关技术不成熟,该文提出藏文词串频率统计方法(TSM)和藏文词序列相交算法(TIA)两种方法来获取藏语译文。其中TSM抽取1-1连续和非连续短语准确率达到90%左右,但遗漏1-n情况。TIA能够抽取1-n连续和非连续藏文语块,准确率达到81%。
- 诺明花吴健刘汇丹丁治明
- 关键词:藏文信息处理中文信息处理
- 汉—藏人名用字音译规则研究被引量:3
- 2018年
- 随着信息技术的发展,藏文在互联网上广泛使用,政府主办的报刊、杂志也逐渐有了网络版,大量的汉文材料被翻译成藏文。翻译者在音译汉文人名用字时,未能遵从统一的音译规范,导致同一人名存在多种音译形式。该文统计了五家藏文网站,发现一些公众人物的人名用字音译形式比较混乱,不但影响信息交流,而且不利于藏文自然语言处理。该文详细分析了音译混乱的原因,提出在汉—藏人名用字音译时,需要制定一一对应的音译原则;同时注重原则实践的可行性和一致性。翻译者在音译汉—藏人名用字时必须严格遵从音译原则;推行音译原则还需要依靠相关政府机构和部门。
- 龙从军豆格才让刘汇丹
- 基于关联度的汉藏多词单元等价对抽取方法被引量:1
- 2012年
- 针对为汉藏辅助翻译系统建立汉藏多词单元翻译词典这一任务,该文提出了CMWEPM模型。该模型首先依据关联度和结合度来确定汉语语料中多词单元的边界,然后根据词对齐信息分别抽取严格和约束多词单元等价对,从而形成汉藏多词单元等价对。CMWEPM模型根据不同长度和频次对多词单元进行分类,并为不同类型设定不同阈值,最终提高了汉藏多词单元等价对的召回率,从而能够间接地提高汉藏辅助翻译系统的翻译质量。
- 诺明花刘汇丹吴健丁治明
- 关键词:藏文信息处理
- 基于Qt的国际化图形用户界面设计与实现被引量:19
- 2006年
- 一次开发多语言使用是国际化软件开发的主要目标。但是世界上的文字多种多样,它们的书写方向也有所不同,除了水平从左向右书写的英文、水平从右往左书写的阿拉伯文外,还有类似蒙古文这样垂直排列的文字,这对计算机图形用户界面提出了更高的要求,现有的计算机系统将这类垂直排列的文字沿水平方向输出,极不符合少数民族人民的习惯。在分析现有Qt库对类似阿拉伯文这样从右向左书写的文字的部分支持机制的基础上,我们设计并实现了支持四种方向模式的国际化的图形用户界面,现在它已经能够适应世界上几乎所有的文字。这对于软件国际化以及民族语言信息处理有重要意义。
- 刘汇丹芮建武姚延栋吴健
- 关键词:计算机应用中文信息处理图形用户界面