揭春雨
- 作品数:14 被引量:110H指数:6
- 供职机构:香港城市大学更多>>
- 发文基金:国家自然科学基金香港特区政府研究资助局资助项目河南省教育厅自然科学基金更多>>
- 相关领域:自动化与计算机技术语言文字理学更多>>
- “信息处理用现代汉语分词规范”的若干问题探讨被引量:9
- 1989年
- 汉语信息处理技术的重点已由单个字符处理过渡到词处理和句子处理,过渡的基点是分词,一个统一的分词规范国家标准对于众多信息处理系统之间的兼容性具有不言而喻的重要意义。目前,“信息处理用现代汉语分词规范(国家标准)”正在制订和审定。本文讨论了几个与此相关的问题,分析了汉语信息处理用词的特点,对“分词规范”和汉语拼音正词法作了比较,对“分词规范”和民族语用心理习惯的关系也进行了探讨,在此基础上,作者对“分词规范”提出了一些个人意见和建议。
- 揭春雨
- 关键词:汉语分词自动分词汉语信息处理语言信息处理心理习惯汉语拼音正词法
- 香港“双语法例资料系统”法律术语的统计分析被引量:3
- 2008年
- 本文使用计算机对于香港汉英双语法例资料系统的文本语料和法律词汇进行了用字和用词的统计分析,并且还对文本语料中的标点符号进行了统计分析,指出了香港法律术语中也存在着"术语形成的经济律",并且遵守"Zipf定律",同时也指出了香港法律术语在结构上的某些特点。
- 那日松揭春雨冯志伟
- 关键词:法律术语统计分析语料标点符号
- 香港地区地名中通名的隐喻和转喻:命名认知规律探究
- 2024年
- 目前学界对于地名中的隐喻和转喻在地理命名中的角色和作用尚需给予更多重视。该研究基于认知语言学中隐喻和转喻的概念映射理论,综合运用案例分析和统计分析的方法,对香港地区地名中通名的隐喻和转喻进行研究,揭示两者在香港地区地名形成过程中的认知机制及应用规律,归纳出两大命名倾向,即人文地理类通名转喻命名法和自然类通名隐喻命名法。前者以地理环境作为概念映射的源域,通过转喻利用事物的临近性为人文地理实体命名,后者则以人体、地理环境为源域,通过隐喻利用事物特征的相似性为自然地理实体命名。该研究的结果不仅深化了在认知语言学和术语学上对地理通名的理解,还扩展了概念映射理论的应用范围,为命名和术语生成研究增添新的维度。
- 谢毓揭春雨
- 关键词:隐喻转喻概念映射
- 香港法律汉英双语语料库XML自动标注
- 本文报告对汉英双语香港法律条文内容及层次结构特征进行 XML 自动标注的工作。标注好的语料库的整体结构与实际法律逻辑组织结构相同,并且利用标记信息实现条文内容的检索定位。本文的 XML 双语语料标注遵照国际语料库编码标准...
- 张霞昝红英揭春雨张坤丽范明
- 关键词:双语语料库法律条例
- 基于字依存树的中文词法-句法一体化分析
- 针对中文切分规范定义上的一些困难以及多层次处理的性能下降问题,本文提出了一种直接从字开始的依存关系表示用于中文的基本结构表示和分析。我们的分析表明,这一表示框架可以方便地用于建立一种词法-句法一体化的完整句子结构表示。通...
- 赵海揭春雨宋彦
- 关键词:依存分析
- 文献传递
- 基于知识本体的术语定义(上)被引量:9
- 2009年
- 本文分析了传统术语定义的理论背景和它在术语标准化工作中的积极作用,指出了传统术语定义的局限性,提出了基于知识本体的术语定义。
- 揭春雨冯志伟
- 关键词:知识本体
- 基于双语URL匹配模式可信度的平行网页识别研究被引量:3
- 2018年
- 平行语料是自然语言处理中一项重要的基础资源,在双语平行网页中大量存在。该文首先介绍双语URL匹配模式的可信度计算方法,然后提出基于局部可信度的双语平行网页识别算法,再依据匹配模式的全局可信度,提出两种优化方法:即利用全局可信度,救回因低于局部可信度阈值而被初始算法滤掉的匹配模式;通过全局可信度和网页检测方法,挖出深层网页。进一步,结合网站双语可信度、链接关系,侦测出种子网站周边更多较具可信度的双语网站。除了双语URL匹配模式自动识别,还利用搜索引擎,依据少数高可信度的匹配模式快速识别双语网页。为了提高以上五种方法识别候选双语网页对的准确率,计算了候选双语网页对的双语相似度,并设置阈值过滤非双语网页对。通过实验验证了所提方法的有效性。
- 章成志马舒天揭春雨揭春雨
- 关键词:平行语料库
- 从网络获取香港法律双语语料库
- 本文报告作者从网上获取香港法律英汉双语文本,利用法律文本的原有体系结构和编号机制进行子段级文本对齐,并将对齐结果进行XML标注,构建双语语料库的工作.文章表述上述工作的基本方法和技术.最终获得的双语语料库有10.4M英语...
- 揭春雨刘晓月冼景炬卫真道
- 关键词:双语语料库文本对齐
- 文献传递
- 中文CCG树库的构建被引量:12
- 2012年
- 组合范畴语法(CCG)是一种类型驱动的语法,可以高度词例化(lexicalized)并兼顾句法和一定程度上语义的表达,可为深层次的文本分析提供有效支持。将CCG应用于真实文本分析需要编制大规模的词库,为了避免为此付出的昂贵人力和资源,一个经济有效的解决方案是利用现有短语句法树库来自动生成CCG树库。该文提出在清华中文树库的基础上自动生成CCG树库的方法,在预定义的中文句型和基于清华树库的动词子范畴框架的支持下,通过标准转换算法,得到一个包含32 737句、超过35万词次的中文CCG树库。该树库通过手工和自动评价验证,又与已有文献所报告的多语种CCG树库构建工作比较,均证明该文所述方法的有效性。
- 宋彦黄昌宁揭春雨
- 关键词:树库
- 从网络获取香港法律双语语料库
- 本文报告作者从网上获取香港法律英汉双语文本,利用法律文本的原有体系结构和编号机制进行子段级文本对齐,并将对齐结果进行XML标注,构建双语语料厍的工作。文章表述上述工作的基本方法和技术。最终获得的双语语料库有10.4M英语...
- 揭春雨刘晓月冼景炬卫真道
- 关键词:双语语料库文本对齐
- 文献传递