北京市自然科学基金(KZ201110005005) 作品数:8 被引量:42 H指数:3 相关作者: 刘加 夏善红 陈振锋 鲍长春 张卫强 更多>> 相关机构: 清华大学 中国科学院大学 中国科学院电子学研究所 更多>> 发文基金: 北京市自然科学基金 国家自然科学基金 北京工业大学博士启动基金 更多>> 相关领域: 电子电信 自动化与计算机技术 更多>>
航班预定口语对话系统的设计与实现 2015年 介绍一个航班预定口语对话系统的设计与实现,该系统允许用户通过普通话进行航班信息查询与预定.重点介绍口语对话系统中的口语语言理解.为了克服语音识别引入的识别错误导致语义理解错误的问题,提出基于词混淆网络的两阶段中文口语语言理解方法:首先从词混淆网络中选择N元文法作为分类特征,进行主题分类,并通过语义分类模型解析获取对应的语义树结构;然后利用基于规则的语义槽填充器抽取相应的语义槽属性-值.该方法是数据驱动的,训练数据的标记比较容易.实验在汉语航班预定领域进行,结果表明,在语音识别字错误率很高的情况下,该方法比传统的基于语法规则的语言理解方法更加鲁棒,在语义理解正确率方面有明显改善. 陈振锋 杨晓昊 吴蔚澜 刘加 夏善红关键词:口语对话系统 语义理解 对话管理 基于空间声学特征的说话人分类算法 2013年 针对先验信息缺失情况下的说话人分类问题,可以采用提取基于多距离麦克风的空间声学特征的方法进行说话人分类.为了解决由于空间声学特征维数随麦克风个数的增加而迅速增长带来的计算代价问题,需要对其进行降维处理.用一种基于空间声学特征的优化鉴别式保局投影说话人分类方法,实现了在保留空间声学特征流型结构的同时降低计算代价的效果.实验在多距离麦克风语音会议数据集上进行验证,得到在大部分数据集上本方法的分类误差率(diarization error rate,DER)得分低于传统方法的结果.结果表明:本方法的说话人分类性能比传统方法有所提高. 杨毅 陈国顺 鲍长春基于提升小波分解的低速率波形内插语音编码算法 2011年 提出了一种基于双正交提升小波变换(bi-orthogonal lifting wavelet transform,BLWT)的低速率特征波形内插语音编码方法,其中的特征波形分解算法不需要复杂的特征波形对齐操作和滤波器的卷积运算,其固有的原位运算降低了传统特征波形小波分解算法所需的内存,当前帧边界点替代相邻帧样点的措施有效减少了传统特征波形小波分解算法的时延.同时,该分解方法对分解后的各成分单独重建,并根据人耳的感知特性选择量化参数.基于该分解,分别构建了1.84 kb/s和2.32 kb/s两种速率的BLWT-CWI(characteristic waveform interpo-lation)语音编码器.主观平均意见得分(mean opinin score,MOS)结果表明,2.32 kb/s的BLWT-CWI语音编码质量与2.4 kb/s的MELP声码器相当,1.84 kb/s的BLWT-CWI语音编码质量稍逊于2.4 kb/s的MELP声码器.主观A/B听力测试结果表明,1.84 kb/s的BLWT-CWI语音编码质量优于2 kb/s的LIWI(low-complex improvedwaveform interpolation)声码器. 李如玮 鲍长春关键词:语音编码 小波变换 提升小波 基于声学融合特征的说话人分类方法研究 2013年 说话人分类系统的目的是将声音数据分段并按说话人进行分类。对每个说话人提取基于多距离麦克风的多时延特征,可以进一步提高说话人分类系统性能。但随着麦克风个数增加,多时延特征向量维数迅速增长。针对该问题,采用保留特征流形结构并降低计算代价的方法,提出一种基于多距离麦克风融合声学特征的多分量鉴别式保局投影算法,利用支持向量机分类器进行两说话人分类系统的训练和测试,实现会议场景下的说话人分类。实验结果证明,与传统DLPP等算法相比,该算法在大部分数据集上的分类性能较优,可将分类误差率降低至20%以下。 杨毅 陈国顺 鲍长春低数据资源条件下基于Bottleneck特征与SGMM模型的语音识别系统 被引量:9 2015年 语音识别系统需要大量有标注训练数据,在低数据资源条件下的识别性能往往不理想.针对数据匮乏问题,本文先研究子空间高斯混合声学模型通过参数共享减少待估计的参数规模,并使用基于最大互信息准则的区分型训练技术提高识别精度;而后在特征层面应用基于深度神经网络的Bottleneck特征来达到特征提取和降维的目的;最后将上述研究成果结合并构建了低资源条件下的语音识别系统.在国际标准的Open KWS 2013数据库上的实验结果表明,本文的技术能够有效改善低资源条件下的系统识别性能,相比基线系统有12%左右的词错误率降低. 吴蔚澜 蔡猛 田垚 杨晓昊 陈振锋 刘加 夏善红关键词:语音识别 声学模型 声学特征 基于总体变化子空间自适应的i-vector说话人识别系统研究 被引量:17 2014年 在说话人识别研究中,基于身份认证矢量(identity vector,i-vector)的子空间建模被证明是目前最前沿最有效的说话人建模技术,其中如何有效准确地估计总体变化子空间矩阵T成为影响系统性能好坏的关键问题.本文针对i-vector技术如何在新的应用环境下进行总体变化子空间矩阵T的自适应估计问题进行了研究,并提出了两种行之有效的自适应估计算法.在由美国国家标准技术局(American National Institute of Standard and Technology,NIST)组织的2008年说话人识别核心评测数据库以及自行采集的测试数据库上的实验结果显示,不论采用测试集数据本身还是与测试集较匹配的开发集数据,通过本文所提的自适应算法来更新总体变化子空间矩阵均可以使更新后的子空间更有利于新测试数据下的低维子空间描述,在新的测试环境下都更有利于说话人分类.此外实验结果还表明基于多子空间拼接的子空间自适应方法性能明显优于迭代自适应方法,而且两者的结合可达到最优的识别性能,且此时利用开发集数据进行自适应可以接近其利用测试集数据进行自适应得到的最优性能. 栗志意 张卫强 何亮 刘加关键词:自适应 说话人识别 说话人识别中基于音素分类的数据选择方法 2014年 在说话人识别中,有效语音数据的选择是一个重要的预处理环节.常用的数据选择方法根据能量信息的强弱对有效数据进行提取,但在实际情况中能量的高低与语音数据并无必然联系.本文在对传统方法进行分析比较的同时引入语言学知识,提出基于辅音信息的有效数据选择方法.该方法通过对活动语音检测结果中音素识别结果进行分析,保留所有元音,对辅音进行筛选,去除无益于说话人识别的干扰辅音音素,从而实现对有效语音数据的选取.实验表明,应用该方法得到的说话人识别结果,明显优于传统的基于能量的数据选择算法,如基于G.723.1标准的活动语音检测算法和近期提出的基于交叉熵顺序统计滤波的端点检测算法. 吴蔚澜 张卫强 刘巍巍 田垚 陈振锋 刘加 夏善红关键词:说话人识别 有效数据 辅音 基于Mel倒谱特征顺序统计滤波的语音端点检测算法 被引量:17 2014年 为提高噪声环境下语音端点检测的准确性,提出一种基于Mel倒谱距离顺序统计滤波的端点检测算法.该算法首先提取每帧语音信号的Mel频率倒谱系数,以前16帧估算背景噪声,计算每帧语音与背景噪声的倒谱距离;然后将当前帧前后相继若干帧的倒谱距离,经过一组顺序统计滤波器得到加权倒谱距离;最后根据各帧加权倒谱距离对输入语音进行分类.在TIMIT语音库上的实验结果表明,该方法在白噪声、粉噪声、汽车噪声和战斗机噪声等噪声环境下,均能得到理想的端点检测结果,且在低信噪比时依然有效. 陈振锋 吴蔚澜 刘加 夏善红关键词:语音端点检测 MFCC