陈斌 作品数:21 被引量:23 H指数:3 供职机构: 西南电子电信技术研究所 更多>> 发文基金: 国家自然科学基金 国家高技术研究发展计划 更多>> 相关领域: 电子电信 自动化与计算机技术 理学 更多>>
声学模型区分性训练中的动态加权数据选取方法 2014年 提出了一种基于动态加权的数据选取方法,并应用到连续语音识别的声学模型区分性训练中.该方法联合后验概率和音素准确率选取数据,首先,采用后验概率的Beam算法裁剪词图,在此基础上依据候选词所在候选路径的错误率,基于后验概率动态的赋予候选词不同的权值;其次,通过统计音素对之间的混淆程度,给易混淆音素对动态地加以不同的惩罚权重,计算音素准确率;最后,在估计得到弧段期望准确率分布的基础上,采用高斯函数形式对所有竞争弧段的期望音素准确率软加权.实验结果表明,与最小音素错误准则相比,该动态加权方法识别准确率提高了0.61%,可有效减少训练时间. 陈斌 牛铜 张连海 李弼程 屈丹关键词:语音识别 动态加权 基于Seneff听觉谱特征的汉语连续语音声韵母边界检测 被引量:6 2012年 提出了一种基于声韵母能量分布和共振峰结构特性的汉语连续语音声韵母边界检测方法。该方法首先将语音经过Seneff听觉感知模型得到听觉谱,然后基于听觉谱,选取全频带能量、低频带能量、谱重心、高低频能量比、中高频能量等特征参数对各声韵母类别能量分布和共振峰结构特性进行描述,最后根据特征参数变化剧烈的点确定出声韵母边界,并采用包络的一阶差分和基于样点的Kullback-Leibler距离对得到的边界进行修正。实验结果表明,对8 kHz采样的语音边界检测准确率可达到93.7%;信噪比10dB的语音边界检测准确率可达到85.3%以上;经过参数编码后语音边界检测准确率可达86 7%以上。 陈斌 张连海 王波 屈丹关键词:汉语连续语音 谱特征 韵母 结构特性 基于能量分布和共振峰结构的汉语鼻音检测 被引量:1 2012年 该文提出了一种基于能量分布和共振峰结构的汉语鼻音检测方法,该方法首先基于Seneff听觉谱提取了一组描述音段能量分布和共振峰结构的特征参数,然后采用支持向量机模型进行检测和分类,得到候选的鼻音,最后根据音段持续时间、前端韵母能量、高低频能量差、中低频能量比等特征对候选的鼻音进行后处理,去除插入错误,提高鼻音检测的准确率。实验结果表明,干净语音鼻音检测准确率可以达到90.4%,信噪比10dB的语音鼻音检测准确率可达到84.4%以上。 陈斌 张连海 牛铜 王波连续语音识别特征提取与声学模型训练区分性技术研究 倒谱特征和最大似然准则是传统连续语音识别系统广泛采用的特征提取和模型训练方法。然而,倒谱及其差分特征所获取的时间动态信息有限,且没有有效地利用模型间的分类混淆信息,使得特征的区分性不强;基于最大似然准则的模型训练方法没有... 陈斌关键词:连续语音识别 声学模型 线性判别分析 正则化方法 文献传递 不相关匹配追踪的分段区分性特征变换方法 被引量:1 2016年 为了提高基于分帧特征变换方法的稳定性,提出了一种基于分段的区分性特征变换方法.该方法将特征变换当成高维信号的稀疏逼近问题,采用状态绑定的方法训练得到基于域划分的线性变换矩阵(Region Dependent Linear Transform,RDLT)和基于最小音素错误准则均值补偿的特征(mean-offset feature Minimum Phone Error,m-f MPE)变换矩阵,将两者的特征变换矩阵构成过完备的字典;采用强制对齐的方式对语音信号进行分段,以似然度最大化作为目标函数,利用匹配追踪算法对目标函数迭代优化,自动地确定各语音信号段中的变换矩阵及其系数.为保证特征变换的稳定性,在选择变换矩阵过程中引入相关度测量,去除相关的特征基矢量.实验结果表明,相比于传统的RDLT方法,当声学模型分别采用最大似然和区分性准则训练时,识别性能分别可以提高1.63%和2.23%.该方法同时能应用于语音增强和模型区分性训练中. 陈斌 牛铜 张连海 屈丹 李弼程关键词:语音识别 语音增强 一种区分性互补系统构造与融合的语音识别方法 2016年 在区分性训练的框架下,提出了一种基于混淆信息加权的互补系统构造方法。首先通过统计音素对的混淆信息,利用混淆信息给音素对加以不同的惩罚权重,分别以基线系统中的3个最优识别结果作为参考,计算混淆信息加权后的音素准确率,同时以正确的标注为参考计算标准的音素准确率。然后通过同时最大化混淆信息加权后的音素准确率和最小化标准音素准确率,构建模型层互补系统,并进一步通过结合RDLT(region-dependent linear transform)特征变换过程构造特征层的互补系统。实验结果表明,与互补最小音素错误准则相比,融合模型层互补系统后识别率提高了0.76%,同时融合特征层和模型层的互补系统识别率提高了1.35%。本方法可以增大互补系统间的差异性,提高系统融合后的识别性能。 陈斌 陈琦 张连海 屈丹 李弼程关键词:识别方法 区分性 语音 子空间域相关特征变换与融合的语音识别方法 被引量:4 2016年 为了提高语音识别准确率,提出了一种子空间域相关特征变换与融合的语音识别方法(MFCC-BN-TC方法)。该方法提取语音短时谱结构特征(BN)和包络特征(MFCC)分别描述语音短时谱结构和包络信息,并采用域相关特征变换的形式分别对BN和MFCC特征进行特征变换;然后对这种变换进行泛化扩展提出子空间域相关特征变换,以采用不同的时间颗粒度(帧和语音分段)进行多层次区分性特征表达;最后,对多种区分性特征变换后的特征进行联合表征训练声学模型,并给出了区分性特征变换与融合的一般框架。实验结果表明:MFCC-BN-TC方法比采用原始BN特征方法和采用MFCC特征基线系统方法,识别性能各自提高了0.98%和1.62%;融合MFCCBN-TC方法变换以后的语音信号特征,相比于融合原始特征,识别率提升了1.5%。 陈斌 胡平舸 屈丹关键词:语音识别 基于语音质量参数的语音传输信道检测算法 2011年 针对不同编码算法对语音质量的影响,采用语音质量改进参数构造特征矢量,提出了一种基于SVM多级判决的语音编码检测算法,实现了对不同信道的识别。采用统计方法对这组参数的区分性进行了分析,在此基础上设计了一种高效的信道检测方案,结合实际数据,测试了算法性能,并分析了语音长度对性能的影响。实验结果表明,该算法能有效地提高信道检测准确率。 陈斌 张连海 牛铜 屈丹关键词:信道检测 高阶累计量 基于MCE准则的语音识别特征线性判别分析 被引量:4 2014年 提出了一种基于最小分类错误(Minimum classification error,MCE)准则的线性判别分析方法(Linear discriminant analysis,LDA),并将其应用到连续语音识别中的特征变换.该方法采用非参数核密度估计方法进行数据概率分布估计;根据得到的概率分布,在最小分类错误准则下,采用基于梯度下降的线性搜索算法求解判别分析变换矩阵.利用判别分析变换矩阵对相邻帧梅尔滤波器组输出拼接的超矢量变换降维,得到时频特征.实验结果表明,与传统的MFCC特征相比,经过本文判别分析提取的时频特征其识别准确率提高了1.41%,相比于HLDA(Heteroscedastic LDA)和近似成对经验正确率准则(Approximate pairwise empirical accuracy criterion,aPEAC)判别分析方法,识别准确率分别提高了1.14%和0.83%. 陈斌 张连海 牛铜 屈丹 李弼程关键词:线性判别分析 语音识别 核密度估计 一种广义边距区分性训练准则 被引量:1 2014年 通过分析不同区分性训练目标函数之间的关系,以MMI(Maximum Mutual Information)作为分离度量,把不同的区分性训练目标函数统一为基于广义边距的区分性训练准则.并在该广义边距准则下,通过对其权重函数进行讨论,得到两种区分性训练目标函数:利用组合增进因子和候选词路径中误识词个数,加权候选路径,得到SBMMI(Soft Boosted MMI)目标函数;利用基于单个候选词的后验概率定义每一训练语句的错误识别率,采用幂指数的形式对单个候选词动态加权,得到VWMMI(Variable Weighting MMI)目标函数。实验结果表明,与软边距估计准则和增进的最大互信息方法相比,SBMMI方法准确率分别提高了0.89%和0.56%,VWMMI方法能在SBMMI方法基础上提高0.68%. 陈斌 张连海 屈丹 李弼程关键词:区分性 目标函数 动态加权 权重函数