赵世奇
- 作品数:14 被引量:162H指数:6
- 供职机构:哈尔滨工业大学更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划哈尔滨工业大学校科学研究基金更多>>
- 相关领域:自动化与计算机技术文化科学更多>>
- 基于自动构建语料库的词汇级复述研究被引量:4
- 2009年
- 本文针对词汇级复述问题提出了一种新的方法.该方法首先利用翻译引擎将双语平行语料库自动转换为单语平行语料库,以此构建复述语料库并用于候选复述的抽取.在此基础上,本文提出了一种新的统计模型.该模型根据特定的上下文为待复述词选择最为合适的复述.实验结果表明自动构建的复述语料库对于词汇级复述的抽取是有效的.同时,本文提出的模型明显优于两种传统模型,在准确率和召回率上分别提高10%左右.
- 赵世奇刘挺李生
- 中英文双语例句检索与机器翻译系统
- 刘挺车万翔陈毅恒秦兵张宇高立琦赵世奇赵妍妍宋巍
- 随着全球化步伐的加剧,越来越多的中国人开始学习外语,尤其是英语。该项目针对单纯词典查询方式的不便,提出使用双语例句检索和机器翻译的方式,来满足人们日益增长的英语写作和阅读的需求。该项目所属领域为:电子与信息→计算机软件产...
- 关键词:
- 关键词:机器翻译系统
- 基于网络挖掘的上下文相关词汇级复述研究(英文)被引量:2
- 2009年
- 词汇级复述研究旨在为词汇获取复述.词汇级复述是上下文相关的,即对同一个词在不同上下文中应获取不同的复述词.提出了一种获取上下文相关词汇级复述的方法.该方法包括两部分:基于网络挖掘的候选复述词获取以及基于二元分类的复述词确认.在《人民日报》语料库上的实验结果表明:(1)基于网络挖掘的候选复述词获取方法是切实可行的,平均为每个待复述词在每个给定的上下文句子中获取2.3个正确复述词;(2)利用二元分类的方法进行复述确认是有效的,其F值达到0.6023;(3)利用该方法抽取得到的复述中,有75.11%和98.31%无法通过两种常用的上下文无关方法,即基于辞典和基于聚类的方法来获得.这证明了所提出的上下文相关复述方法可以有效地补充传统的上下文无关方法.
- 赵世奇张宇赵琳刘挺李生
- 关键词:上下文相关网络挖掘
- 融合多类特征的Web查询意图识别被引量:11
- 2012年
- 识别搜索引擎用户的查询意图在信息检索领域是备受关注的研究内容.文中提出一种融合多类特征识别Web查询意图的方法.将Web查询意图识别作为一个分类问题,并从不同类型的资源包括查询文本、搜索引擎返回内容及Web查询日志中抽取出有效的分类特征.在人工标注的真实Web查询语料上采用文中方法进行查询意图识别实验,实验结果显示文中采用的各类特征对于提高查询意图识别的效果皆有一定帮助,综合使用这些特征进行查询意图识别,88.5%的测试查询获得准确的意图识别结果.
- 伍大勇赵世奇刘挺张宇
- 关键词:搜索引擎查询意图
- 面向互联网的计算语言学研究被引量:1
- 2011年
- 近年来,计算语言学(ComputationalLinguistics:CL)在学术界和工业界均得到了越来越多的关注,这主要得益于其在互联网领域越来越广泛的应用,如搜索引擎、在线翻译系统、社交网络等。计算语言学的很多技术在互联网应用中都能找到用武之地。这其中既包括词法、句法、语义等基础技术,也包括问答、翻译、文摘等应用技术。面对海量、高噪声的互联网数据及真实互联网应用需求,计算语言学技术也需要进行调整与改进。本文将主要讨论在互联网大背景下的计算语言学研究,包括新应用、新资源、新挑战,以及新方法等。
- 王海峰赵世奇
- 关键词:计算语言学互联网
- 融合多类特征的Web查询意图识别
- 识别搜索引擎用户的查询意图是在信息检索领域一个备受关注的研究内容。本文提出了一种融合多类特征识别web 查询意图的方法。具体地,本方法将Web 查询意图识别作为一个分类问题,并从不同类型的资源包括查询文本、搜索引擎返回内...
- 伍大勇赵世奇刘挺张宇
- 关键词:搜索引擎信息检索
- 一种基于主题的文本聚类方法被引量:30
- 2007年
- 现有的文本聚类方法难以正确识别和描述文本的主题,从而难以实现按照主题对文本进行聚类。本文提出了一种新的基于主题的文本聚类方法:LFIC。该方法能够准确识别文本主题并根据文本的主题对其进行聚类。本方法定义和抽取了“主题元素”,并利用其进行基本类索引。同时还整合利用了语言学特征。实验表明,LFIC的聚类准确率达到94.66%,优于几种传统聚类方法。
- 赵世奇刘挺李生
- 关键词:人工智能模式识别语言学特征
- 一种基于主题的文本聚类方法
- 现有的文本聚类方法难以正确识别和描述文本的主题,从而难以实现按照主题对文本进行聚类。本文提出了一种新的基于主题的文本聚类方法:LFIC。该方法能够准确识别文本主题并对文本进行聚类。本方法定义和抽取了“主题元素”,并利用其...
- 赵世奇刘挺李生
- 关键词:语言学特征
- 文献传递
- 基于类别特征域的文本分类特征选择方法被引量:28
- 2005年
- 特征选择是文本分类的关键问题之一,而噪音与数据稀疏则是特征选择过程中遇到的主要障碍。本文介绍了一种基于类别特征域的特征选择方法。该方法首先利用“组合特征抽取”[1]的方法去除原始特征空间中的噪音,从中抽取出候选特征。这里,“组合特征抽取”是指先利用文档频率(DF)的方法去掉一部分低频词,再用互信息的方法选择出候选特征。接下来,本方法为分类体系中的每个类别构建一个类别特征域,对出现在类别特征域中的候选特征进行特征的合并和强化,从而解决数据稀疏的问题。实验表明,这种新的方法较之各种传统方法在特征选择的效果上有着明显改善,并能显著提高文本分类系统的性能。
- 赵世奇张宇刘挺陈毅恒黄永光李生
- 关键词:计算机应用中文信息处理文本分类
- Web查询日志研究综述被引量:8
- 2013年
- 本文对查询日志在相关领域内的研究现状与进展进行了总结.首先介绍了web查询日志的常用信息和公开的数据集;进而阐述了查询日志在web搜索、信息抽取等方面的相关研究,并对它们进行了细致的介绍和分析;最后指出基于查询日志研究所面临的问题和挑战.重在对基于查询日志研究的主流方法和前沿进展进行概括、比较和分析,以期对后续研究有所助益.
- 付博赵世奇刘挺
- 关键词:WEB搜索信息抽取