张桂平 作品数:102 被引量:321 H指数:8 供职机构: 沈阳航空航天大学 更多>> 发文基金: 国家自然科学基金 国家高技术研究发展计划 教育部科学技术研究重点项目 更多>> 相关领域: 自动化与计算机技术 语言文字 文化科学 自然科学总论 更多>>
面向单一双语网页的双语资源挖掘方法 被引量:5 2011年 双语资源是机器翻译和跨语言信息检索等领域的重要资源,但是由于语料库真实性、时效性和语种灵活性等问题,使得现有的双语资源的规模很难满足实际应用的需要。该文提出一种面向单一双语网页的双语资源挖掘方法,该方法重点采用了以频繁序列模式为特征的SVM分类方法,实现了包含双语资源的单一双语网页的筛选与识别,并以此为基础挖掘具有对译的双语资源。实验结果表明,该方法能够有效改进双语资源挖掘的质量。 罗阳 季铎 张桂平 王莹莹关键词:WEB挖掘 网页分类 频繁序列模式 支持向量机 以互联网为知识源的基于语段分析的交互式机器翻译技术的研究 本文以互联网为知识源,从基于语段分析、人机交互机制建立的角度出发,针对目前机器翻译质量和效率等难题,提出了在互联网的开放资源中获取丰富的知识,并在语段分析的基础上,探讨了人机优势互补人机分工协作的交互式的翻译策略,并在英... 张桂平 蔡东风 徐立军 尹宝生 陈建军关键词:人机交互 机器翻译 知识获取 互联网 文献传递 基于统计和规则相结合的科技术语自动抽取研究 被引量:38 2008年 科技术语自动抽取是中文信息处理领域的一个重要研究课题,在信息检索、机器翻译等领域,特别是在专利翻译中有着广泛应用。结合专利翻译任务,主要研究专利中科技术语的识别方法,在分析目前已有方法的基础之上,提出了一种使用条件随机场模型进行标注识别,并结合规则对错误识别结果进行后处理的科技术语识别方法。实验结果表明,提出的统计和规则相结合的识别方法是有效的,开放测试结果F值达到了84.4%。 刘豹 张桂平 蔡东风关键词:条件随机场 一种基于网络的英文缩略语信息的自动抽取方法 面对Internet中丰富的信息资源,本文提出了一种基于互联网,实现缩略语源词组及中文翻译的自动获取方法.本文利用缩略语构词规则来提取候选词组,利用句法规则进行筛选,实现了缩略语源词组的自动抽取;采用基于带有参数的模式匹... 朱江涛 蔡东风 张桂平关键词:缩略语 中文翻译 信息抽取 文献传递 以互联网为知识源的基于语段分析的交互式机器翻译技术的研究 本文以互联网为知识源,从基于语段分析、人机交互机制建立的角度出发,针对目前机器翻译质量和效率等难题,提出了在互联网的开放资源中获取丰富的知识,并在语段分析的基础上,探讨了人机优势互补人机分工协作的交互式的翻译策略,并在英... 张桂平 蔡东风 徐立军 尹宝生 陈建军关键词:人机交互 机器翻译 知识获取 互联网 文献传递 基于SVM的疑问句问点语义角色标注 被引量:5 2006年 SVM(SupportVectorM ach ine)是一种基于结构风险最小化原则的分类算法,由于其完善的理论基础使其在小样本模式识别中表现出比其他算法更好的泛化能力。语义角色标注是一种浅层语义分析的方法。为了加深对问句的理解,对问句的问点进行语义角色标注是必要的。故将问点的语义角色标注视为分类问题,并提出了一种基于SVM的问点语义角色标注方法。在哈工大标准问句集上进行实验,取得了语义角色标注封闭测试91.4%,开放测试71.6%的正确率。实验结果表明本文所采用的方法是有效的。 吕德新 张桂平 蔡东风 朱江涛关键词:SVM 语义角色标注 结构风险最小化 基于SVM的无参考译文的译文质量评测 译文质量评测是译文质量的保证,是机器翻译系统性能最有效的评价。与传统的通过计算候选译文和参考译文的相似度的评测方法不同,本文提出一种基于SVM的无参考译文的质量自动评测方法。首先对译文中的句子按照是否存在错误以及错误类型... 宁伟 苗雪雷 胡永华 季铎 张桂平 蔡东风关键词:支持向量机 句法特征 文献传递 面向专利文献的中文分词技术的研究 被引量:17 2010年 针对专利文献的特点,该文提出了一种基于统计和规则相结合的多策略分词方法。该方法利用文献中潜在的切分标记,结合切分文本的上下文信息进行最大概率分词,并利用术语前后缀规律进行后处理。该方法充分利用了从大规模语料中获取的全局信息和切分文本的上下文信息,有效地解决了专利分词中未登录词难以识别问题。实验结果表明,该文方法在封闭和开放测试下分别取得了较好的结果,对未登录词的识别也有很好的效果。 张桂平 刘东生 尹宝生 徐立军 苗雪雷关键词:计算机应用 中文信息处理 中文分词 上下文信息 一种面向情报服务的交互式主题扩展方法 2016年 情报服务中的主题扩展是指对客户的情报需求主题进行扩展,将扩展主题词作为原主题的补充和解释,是保证情报获取全面性的关键技术之一。面向情报服务中的主题扩展问题,提出了一种交互式扩展方法。该方法通过计算候选扩展词与相关词及不相关词间的相似度差异,利用相似度差异过滤候选扩展词,通过用户对推荐词的确认,更新相关词集和不相关词集。其中,相似度计算采用线性组合的方法融合了文档共现相似度与语义相似度。实验表明该方法具有较好的主题扩展效果。 于福超 卢廷钧 王裴岩 张桂平关键词:情报服务 基于字簇的多模型中文分词方法研究 被引量:2 2020年 字标注分词方法是当前中文分词领域中一种较为有效的分词方法,但由于中文汉字本身带有语义信息,不同字在不同语境中其含义与作用不同,导致每个字的构词规律存在差异。针对这一问题,提出了一种基于字簇的多模型中文分词方法,首先对每个字进行建模,然后对学习出的模型参数进行聚类分析形成字簇,最后基于字簇重新训练模型参数。实验结果表明,该方法能够有效地发现具有相同或相近构词规律的字簇,很好地区别了同类特征对不同字的作用程度。 李对红 王裴岩 张桂平 张少阳关键词:中文分词 构词规律 模型参数 聚类