孟莎 作品数:5 被引量:12 H指数:2 供职机构: 清华大学电子工程系 更多>> 发文基金: 国家自然科学基金 国家高技术研究发展计划 更多>> 相关领域: 自动化与计算机技术 更多>>
基于后验概率词格的汉语自然对话语音索引 被引量:2 2008年 语音索引是语音检索任务的关键问题之一。该文针对汉语自然对话语音索引问题,提出了基于子词的词格索引和融合方法。采用后验概率形式表示的词格取代最优路径进行索引。根据后验概率词格特性,将LVCSR识别得到的基于词的词格分解为基于子词的词格;在汉语自然对话语音关键词检测任务上,采用字、有调音节和无调音节作为子词单元,关键词检测指标品质因数相对基线系统分别提高了3.9%、4.4%和7.4%。根据后验概率词格节点之间、边之间可合并的特性,在词格内部进行合并,并对不同识别器结果词格进行融合,品质因数指标由基线系统的68.3%(用LV SCR得到的)和66.9%(用音节识别器得到的)提高到78.8%。 孟莎 余鹏 Frank Seide 刘加关键词:语音检索 基于格的汉语自然对话语音索引方法研究 被引量:1 2010年 对汉语自然对话语音索引问题进行了研究.比较了不同单元格的识别和检索性能,提出不同单元格的转换方法、格间的融合方法以及格内节点与边的合并方法.格转换实现了识别单元和索引单元的分离,词格转换得到的无调音节格将品质因数(Figure of merit,FOM)从基线系统的69.2%提高到73.7%;格间融合综合利用多个格的信息,将FOM进一步提高到78.6%;格内合并对格进行了有效的压缩,使其可应用于海量语音检索. 孟莎 余鹏 刘加关键词:语音检索 基于后验概率词格的汉语自然对话语音索引 语音索引是语音检索任务的关键问题之一,本文针对汉语自然对话语音索引问题进行研究,提出了基于子词的词格索引和融合方法。通过最优路径索引和词格索引的性能比较,选择词格进行索引,首先将词格进行后验概率表示,根据后验概率词格特性... 孟莎 余鹏 Frank Seide 刘加关键词:语音检索 文献传递 汉语语音检索的集外词问题与两阶段检索方法 被引量:9 2009年 该文针对大规模汉语语音检索任务提出汉语语音检索中的集外词问题和针对集外查询词的两阶段检索方法。汉语语音识别和检索中,集外词可以以词表词序列的形式被识别和检索到,因此被认为不存在集外词问题;该文发现集外查询词性能远远低于集内查询词,将此问题定义为汉语语音检索任务的集外词问题,并提出两阶段的检索方法,第一阶段通过模糊音素匹配的方法提高查全率,第二阶段通过词格修正的方法提高查准率。实验表明,两阶段的检索方法极大的提高了典型集外查询词的检索性能,FOM指标相对基线系统提高了24.1%。 孟莎 刘加关键词:计算机应用 中文信息处理 词格 基于后验概率词格的汉语自然对话语音索引 语音索引是语音检索任务的关键问题之一,本文针对汉语自然对话语音索引问题进行研究,提出了基于子词的词格索引和融合方法。通过最优路径索引和词格索引的性能比较,选择词格进行索引,首先将词格进行后验概率表示,根据后验概率词格特性... 孟莎 余鹏 Frank Seide 刘加关键词:语音检索 文献传递