陈肇雄
- 作品数:68 被引量:731H指数:13
- 供职机构:中国科学院计算机语言信息工程研究中心更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划国家杰出青年科学基金更多>>
- 相关领域:自动化与计算机技术语言文字电子电信理学更多>>
- 多语机器翻译及其系列应用系统研究进展
- 多语机器翻译及其系列应用系统是我们设计并实现的一个多语种、多专业机器翻译核心以及面向不同软硬件平台的系列应用解决方案.本文,我们给出了多语机器翻译及其系列应用系统的设计考虑、总体结构设计、关键技术问题及其主要技术特点.
- 陈肇雄黄河燕
- 文献传递
- 一种改进的多关键字匹配算法被引量:4
- 2005年
- 基于多关键字匹配的Sun Wu算法进行的分析,结合QS算法的思想,设计了一种改进的多关键字匹配算法:QMS(quick multi-pattern searching)。算法使用散列技术和前缀表减少发生部分匹配时实际进行的关键字比较次数。在计算跳跃距离时,充分考虑当前窗口的紧邻下一个字符带来的信息,进而使用更加精确的跳跃距离计算方法以获得更大的平均跳跃距离,从而获得更高的扫描效率和空间利用率。在真实文本上的对比实验表明,在通常应用环境中,该算法显著的缩短了扫描时间,取得了很好的效果。
- 代六玲王树梅黄河燕陈肇雄
- 关键词:BM算法QS算法SUN
- 基于知识融合的在线文本分类算法——语义SVM被引量:2
- 2004年
- 为使支持向量机(SVM)更加适用于在线文本分类应用。利用SVM在小训练样本集条件下仍有高泛化能力的特性,结合文本特征向量在特征空间中具有聚类性的特点,提出一种用语义中心集代替原训练样本集作为训练样本和支持向量的SVM:语义SVM.文中给出了语义中心集的生成步骤、语义SVM的在线学习算法框架。以及基于SMO算法的在线学习算法的实现.实验结果表明,相对于标准SVM,语义SVM及其在线学习算法不仅在线学习速度和分类速度有数量级提高,而且在分类准确率方面具有一定优势.
- 代六玲李雪梅黄河燕陈肇雄
- 关键词:文本分类支持向量机
- 受限语言子集的理论研究和探索被引量:6
- 1998年
- 本文在综述受限语言研究成果的基础上,提出受限语言子集的一种形式化描述模型,并给出其相应的语言特性和数学特性,就受限汉语子集的确定方法问题进行了理论研究和探索。作者希望本文提出的表示模型和确定方法能够引起有关的讨论,并在充分认识受限语言研究的必要性和困难的基础上。
- 宗成庆宋今陈肇雄黄河燕
- 关键词:形式化描述模型计算机信息处理
- 基于Multigram语言模型的主动学习中文分词被引量:8
- 2006年
- 分词是中文处理中的重要基础问题。为了克服Web文本分析中传统方法在适应繁杂的专业领域和多变的语言现象时存在的困难,本文以无督导分词方法为基本框架,使用EM算法建立n元multigram语言模型,提出了一种基于置信度的主动学习分词算法,使得系统在主要利用大量未标注数据的同时,还能够主动选择少量最有价值的数据提交人工标注。实验结果表明算法性能优于相关的几种无督导分词算法。
- 冯冲陈肇雄黄河燕关真珍
- 关键词:中文信息处理分词EM算法
- 一种用于文本分类的语义SVM及其在线学习算法被引量:3
- 2004年
- 该文利用SVM在小训练样本集条件下仍有高泛化能力的特性,结合文本分类问题中同类别文本的特征在特征空间中具有聚类性分布的特点,提出一种使用语义中心集代替原训练样本集作为训练样本和支持向量的SVM:语义SVM。文中给出语义中心集的生成步骤,进而给出语义SVM的在线学习(在线分类知识积累)算法框架,以及基于SMO算法的在线学习算法的实现。实验结果说明语义SVM及其在线学习算法具有巨大的应用潜力:不仅在线学习速度和分类速度相对于标准SVM及其简单增量算法有数量级提高,而且分类准确率方面具有一定优势。
- 代六玲黄河燕陈肇雄
- 关键词:文本分类支持向量机
- IHSMTS中实例模式获取机制的设计与实现被引量:3
- 2002年
- IHSMTS是一种交互式多策略机器翻译系统 .给出了该系统中模式知识获取机制的设计和实现方法 ,在这种模式知识获取机制中有机地结合了多种知识获取方式 ,包括 :人机交互方式、基于机器翻译的源译文对照信息的自动获取、模式精炼方式和基于先验双语语料对齐的批量方式等 ,并通过模式验证算法实现对冗余、冲突等的检查 ,从而保证加入到模式库中的模式知识的单调递增性 ,同时实现模式适应性和准确性的平衡 ,使系统能够对实例模式库进行动态添加完善 。
- 黄河燕陈肇雄胡曾剑
- 关键词:知识获取IHSMTS
- 基于类比推理的译文相似解生成
- 如何根据原文模式之间的对比和范例模式的解模式构造出符合目标语语法并能表达原文意义的目标译文一直是基于例子的翻译技术中一个关键的问题.在本文中,我们根据基于类比的分析方法的特点,设计并实现了一种基于类比推理策略的译文相似解...
- 胡春玲胡曾剑黄河燕陈肇雄
- 关键词:翻译技术
- 文献传递
- 最大熵模型的树-栅格最优N解码算法被引量:1
- 2005年
- 最大熵模型已被广泛应用于多种自然语言处理任务,但一些现有研究工作在解码算法上存在有待改进的地方。本文提出了一个最大熵模型的树-栅格最优N解码算法,并对算法性能进行了分析和比较。算法的另一优点在于可以在解码过程中检测并控制潜在的标注冲突。
- 冯冲陈肇雄黄河燕王江伟
- 关键词:最大熵模型解码最大熵模型解码算法栅格自然语言处理
- 一种基于双代理架构的嵌入式Internet计算模型
- 2003年
- 随着芯片技术的发展以及互联网的个性化、移动化趋势,嵌入式Internet系统逐渐成为研究的热点。文章根据嵌入式系统的特点,提出了基于浏览器-代理/智能代理/服务器(双代理)的嵌入式Internet计算模型。该模型通过采用静态、动态缓存管理、页面压缩、协议优化等方法避开了嵌入式系统的弱点。从试验数据看,该模型较为有效地减少了数据传输量,达到了节约有限带宽、提高响应时间的目的。
- 贺琛吴世锋陈肇雄黄河燕
- 关键词:嵌入式互联网代理缓存数据压缩