公共文化服务平台

声学模型区分性训练中的动态加权数据选取方法: 2014年; 提出了一种基于动态加权的数据选取方法,并应用到连续语音识别的声学模型区分性训练中.该方法联合后验概率和音素准确率选取数据,首先,采用后验概率的Beam算法裁剪词图,在此基础上依据候选词所在候选路径的错误率,基于后验概率动态的赋予候选词不同的权值;其次,通过统计音素对之间的混淆程度,给易混淆音素对动态地加以不同的惩罚权重,计算音素准确率;最后,在估计得到弧段期望准确率分布的基础上,采用高斯函数形式对所有竞争弧段的期望音素准确率软加权.实验结果表明,与最小音素错误准则相比,该动态加权方法识别准确率提高了0.61%,可有效减少训练时间.; 陈斌牛铜张连海李弼程屈丹; 关键词：语音识别动态加权

基于Seneff听觉谱特征的汉语连续语音声韵母边界检测被引量：6: 2012年; 提出了一种基于声韵母能量分布和共振峰结构特性的汉语连续语音声韵母边界检测方法。该方法首先将语音经过Seneff听觉感知模型得到听觉谱,然后基于听觉谱,选取全频带能量、低频带能量、谱重心、高低频能量比、中高频能量等特征参数对各声韵母类别能量分布和共振峰结构特性进行描述,最后根据特征参数变化剧烈的点确定出声韵母边界,并采用包络的一阶差分和基于样点的Kullback-Leibler距离对得到的边界进行修正。实验结果表明,对8 kHz采样的语音边界检测准确率可达到93.7%;信噪比10dB的语音边界检测准确率可达到85.3%以上;经过参数编码后语音边界检测准确率可达86 7%以上。; 陈斌张连海王波屈丹; 关键词：汉语连续语音谱特征韵母结构特性

基于能量分布和共振峰结构的汉语鼻音检测被引量：1: 2012年; 该文提出了一种基于能量分布和共振峰结构的汉语鼻音检测方法,该方法首先基于Seneff听觉谱提取了一组描述音段能量分布和共振峰结构的特征参数,然后采用支持向量机模型进行检测和分类,得到候选的鼻音,最后根据音段持续时间、前端韵母能量、高低频能量差、中低频能量比等特征对候选的鼻音进行后处理,去除插入错误,提高鼻音检测的准确率。实验结果表明,干净语音鼻音检测准确率可以达到90.4%,信噪比10dB的语音鼻音检测准确率可达到84.4%以上。; 陈斌张连海牛铜王波

连续语音识别特征提取与声学模型训练区分性技术研究: 倒谱特征和最大似然准则是传统连续语音识别系统广泛采用的特征提取和模型训练方法。然而,倒谱及其差分特征所获取的时间动态信息有限,且没有有效地利用模型间的分类混淆信息,使得特征的区分性不强；基于最大似然准则的模型训练方法没有...; 陈斌; 关键词：连续语音识别声学模型线性判别分析正则化方法

不相关匹配追踪的分段区分性特征变换方法被引量：1: 2016年; 为了提高基于分帧特征变换方法的稳定性,提出了一种基于分段的区分性特征变换方法.该方法将特征变换当成高维信号的稀疏逼近问题,采用状态绑定的方法训练得到基于域划分的线性变换矩阵(Region Dependent Linear Transform,RDLT)和基于最小音素错误准则均值补偿的特征(mean-offset feature Minimum Phone Error,m-f MPE)变换矩阵,将两者的特征变换矩阵构成过完备的字典;采用强制对齐的方式对语音信号进行分段,以似然度最大化作为目标函数,利用匹配追踪算法对目标函数迭代优化,自动地确定各语音信号段中的变换矩阵及其系数.为保证特征变换的稳定性,在选择变换矩阵过程中引入相关度测量,去除相关的特征基矢量.实验结果表明,相比于传统的RDLT方法,当声学模型分别采用最大似然和区分性准则训练时,识别性能分别可以提高1.63%和2.23%.该方法同时能应用于语音增强和模型区分性训练中.; 陈斌牛铜张连海屈丹李弼程; 关键词：语音识别语音增强

基于MCE准则的语音识别特征线性判别分析被引量：4: 2014年; 提出了一种基于最小分类错误(Minimum classification error,MCE)准则的线性判别分析方法(Linear discriminant analysis,LDA),并将其应用到连续语音识别中的特征变换.该方法采用非参数核密度估计方法进行数据概率分布估计;根据得到的概率分布,在最小分类错误准则下,采用基于梯度下降的线性搜索算法求解判别分析变换矩阵.利用判别分析变换矩阵对相邻帧梅尔滤波器组输出拼接的超矢量变换降维,得到时频特征.实验结果表明,与传统的MFCC特征相比,经过本文判别分析提取的时频特征其识别准确率提高了1.41%,相比于HLDA(Heteroscedastic LDA)和近似成对经验正确率准则(Approximate pairwise empirical accuracy criterion,aPEAC)判别分析方法,识别准确率分别提高了1.14%和0.83%.; 陈斌张连海牛铜屈丹李弼程; 关键词：线性判别分析语音识别核密度估计

一种区分性互补系统构造与融合的语音识别方法: 2016年; 在区分性训练的框架下,提出了一种基于混淆信息加权的互补系统构造方法。首先通过统计音素对的混淆信息,利用混淆信息给音素对加以不同的惩罚权重,分别以基线系统中的3个最优识别结果作为参考,计算混淆信息加权后的音素准确率,同时以正确的标注为参考计算标准的音素准确率。然后通过同时最大化混淆信息加权后的音素准确率和最小化标准音素准确率,构建模型层互补系统,并进一步通过结合RDLT(region-dependent linear transform)特征变换过程构造特征层的互补系统。实验结果表明,与互补最小音素错误准则相比,融合模型层互补系统后识别率提高了0.76%,同时融合特征层和模型层的互补系统识别率提高了1.35%。本方法可以增大互补系统间的差异性,提高系统融合后的识别性能。; 陈斌陈琦张连海屈丹李弼程; 关键词：识别方法区分性语音

子空间域相关特征变换与融合的语音识别方法被引量：4: 2016年; 为了提高语音识别准确率,提出了一种子空间域相关特征变换与融合的语音识别方法(MFCC-BN-TC方法)。该方法提取语音短时谱结构特征(BN)和包络特征(MFCC)分别描述语音短时谱结构和包络信息,并采用域相关特征变换的形式分别对BN和MFCC特征进行特征变换;然后对这种变换进行泛化扩展提出子空间域相关特征变换,以采用不同的时间颗粒度(帧和语音分段)进行多层次区分性特征表达;最后,对多种区分性特征变换后的特征进行联合表征训练声学模型,并给出了区分性特征变换与融合的一般框架。实验结果表明:MFCC-BN-TC方法比采用原始BN特征方法和采用MFCC特征基线系统方法,识别性能各自提高了0.98%和1.62%;融合MFCCBN-TC方法变换以后的语音信号特征,相比于融合原始特征,识别率提升了1.5%。; 陈斌胡平舸屈丹; 关键词：语音识别

一种广义边距区分性训练准则被引量：1: 2014年; 通过分析不同区分性训练目标函数之间的关系,以MMI(Maximum Mutual Information)作为分离度量,把不同的区分性训练目标函数统一为基于广义边距的区分性训练准则.并在该广义边距准则下,通过对其权重函数进行讨论,得到两种区分性训练目标函数:利用组合增进因子和候选词路径中误识词个数,加权候选路径,得到SBMMI(Soft Boosted MMI)目标函数;利用基于单个候选词的后验概率定义每一训练语句的错误识别率,采用幂指数的形式对单个候选词动态加权,得到VWMMI(Variable Weighting MMI)目标函数。实验结果表明,与软边距估计准则和增进的最大互信息方法相比,SBMMI方法准确率分别提高了0.89%和0.56%,VWMMI方法能在SBMMI方法基础上提高0.68%.; 陈斌张连海屈丹李弼程; 关键词：区分性目标函数动态加权权重函数

正则化分段区分性特征变换方法: 2016年; 针对基于分帧特征变换稳定性不够的问题,提出了一种分段的区分性特征变换方法,并采用正则化方法确定出每一语音段的特征变换矩阵.该方法将特征变换视为数据受限条件下的参数选择问题,在训练阶段,采用状态绑定的方式训练得到区域相关线性变换特征变换矩阵,将所有的变换矩阵构成一个过完备字典;在测试阶段,采用强制对齐的方式对语音进行分段,在似然度目标函数中加入正则项,利用快速迭代收敛阈值算法进行求解,在求解过程中从字典里确定出最佳的特征变换矩阵子集及其组合系数.实验结果表明,结合L1和L2正则化,相比于状态绑定的区域相关线性变换方法,当声学模型采用最大似然准则训练时,识别率可以提高1.30%;模型区分性训练后,识别性能提升了1.66%.; 陈斌张连海屈丹李弼程; 关键词：语音识别正则化

渝B2-20050021-1　渝公网安备 50019002500403号　违法和不良信息举报中心　互联网出版许可证　新出网证(渝)字10号

陈斌

合作作者

文献类型

领域

主题

机构

作者

传媒

年份

用户反馈

陈斌

合作作者

文献类型

领域

主题

机构

作者

传媒

年份

用户登录

用户反馈