南京理工大学模式识别与智能系统实验室
- 作品数:9 被引量:29H指数:3
- 相关机构:金陵科技学院信息技术学院嘉兴学院数理与信息工程学院南京邮电大学通信与信息工程学院更多>>
- 发文基金:浙江省自然科学基金浙江省教育厅科研计划江苏省高校自然科学研究项目更多>>
- 相关领域:电子电信自动化与计算机技术更多>>
- 基于PLAR特征补偿的鲁棒性说话人识别仿真研究被引量:2
- 2009年
- 针对MFCC特征补偿技术在低信噪比时性能不高的缺点,提出了基于PLAR鲁棒特征的模型补偿方法进行抗噪声说话人识别。PLAR特征从人类听觉感知机理出发,运用听觉心理学概念表征说话人个性特征,具有维数低,运算速度快,抗噪性能强等特点,是一种稳健的特征。模型补偿则通过分析被测语音帧的整体分布,对高斯混合模型似然概率进行某种程度的补偿,降低噪声的影响,改善系统的性能,进一步增强系统的鲁棒性。理论分析和实验结果表明,在平稳和非平稳背景噪声环境下,当信噪比大大降低时,此方法比MFCC-GMM方法的识别率平均提高了12.2和14.9个百分点。
- 李燕萍唐振民钱博张燕
- 关键词:说话人识别高斯混合模型鲁棒性
- 基于单字音特征提取的说话人识别方法被引量:1
- 2009年
- 证实普通话可以分解为辅音音素和单元音音素通过过度音的连接,提出一种单字音特征提取方法。该方法在传统的帧特征提取基础上,对相关帧进行二次处理,得到单字语音中的多个代表帧,将代表帧进行拼接作为单字的特征矢量。这种特征提取方法能更好地表现说话人单字发音中相邻语音帧之间的连续性。仿真实验表明该方法在说话人识别系统的应用中达到较高的识别率,使识别时间进一步缩短。
- 张燕唐振民李燕萍
- 关键词:说话人识别特征提取
- 基于神经网络集成的说话人识别算法仿真研究被引量:6
- 2008年
- 说话人识别研究中采用的语音信号特征同时包含了语义信息和话者信息,二者相互影响,给识别带来了很大的困难。为解决这个问题,我们将集成思想应用于说话人识别中,针对每个汉语单韵音的特征空间训练一个神经网络实现说话人分类,并使用另一个神经网络对多个单韵音神经网络识别器的识别结果进行结合。该方法可以有效地避免语义信息对说话人识别的干扰,提高识别精度。不仅如此,神经网络集成的识别结果还可以同时给出该帧语音所属的单韵音类型。仿真实验结果表明,集成系统的识别精度高于单一神经网络,并且在与多种算法的对比中也展示了良好的性能,更重要的是,该方法给出了一种从语音特征中分离语义信息和说话人信息的新思路。
- 钱博李燕萍唐振民徐利敏
- 关键词:神经网络说话人识别神经网络集成
- 基于频域能量分布分析的自适应元音帧提取算法被引量:8
- 2007年
- 本文提出了一种基于频域能量分布分析的自适应元音帧提取算法.该方法采用MEL标度映射各频率分量,通过分析低频、高频能量的分布关系判定元音帧并计算出该帧的短时能量、短时平均过零率的值指导时域帧提取的方案.为了适应连续语音检测过程中响度大小的不断变化,文中选择了按概率抽样进行频域分析修正时域阈值的方式.这种方式利用较少抽样帧的变换分析指导时域检测,相对于全面变换分析降低了运算量,达到了实时检测的要求,同时提高了整体检测性能.实验表明,该方法总体运算量低,同时对发声过程中的音量变化有一定的自适应性.实验中,针对单字音元音帧的正确提取率达到了97%以上,平均丢帧率为3.95%;针对连续语音的正确提取率也达到了90%以上.
- 钱博李燕萍唐振民徐利敏
- 关键词:频域分析自适应
- EMD-Tnorm得分规整策略在说话人确认中的应用被引量:1
- 2010年
- 从两个方面对确认系统进行了改进,在模型方面,扩展了MixMax模型,对复杂的背景噪声等干扰因素在训练说话人模型的同时也进行了建模,最大程度上消除噪声的影响,对说话人的特征分布进行了更真实的表征;在得分方面,提出了一种改进的得分规整策略,基于EMD距离从所有背景说话人集合中自适应选择最接近的一定数量的模型构成说话人特定的背景集合,从而进行得分归一化。实验结果表明,该方法能够同时针对说话人和测试环境的不同进行补偿,进一步降低了误识率和漏警率,获得了很好的确认性能。
- 李燕萍丁辉唐振民
- 关键词:说话人确认鲁棒性
- 基于仿生模式识别的说话人辨认方法研究被引量:1
- 2009年
- 仿生模式识别方法模仿了人类进行事物分辨过程中的行为特征,强调了类内事物的相关性,利用"熟识"程度代替"分类"。与传统模式识别方法注重发掘类间特征差异性相比,给出了一种新的思路。仿生模式识别方法的难点在于针对同一类事物的有限个样本在特征空间中建立有效的连续覆盖。提出了一种利用改进的最近邻方法产生类覆盖区的新算法,该算法认为同一类中任意两个样本间的特征是渐变的,从而生成更多虚拟的样本点,并根据两个样本特征点之间的距离确定虚拟样本点的覆盖范围。利用该算法实现了说话人识别系统,实验表明该方法能够有效地排除冒充者话音的干扰,在有大量冒充说话人的实验环境下,能够大大提高系统的识别率。
- 李燕萍唐振民钱博张燕
- 关键词:仿生模式识别说话人辨认
- 基于语音参数模型的抗同步攻击音频水印算法被引量:8
- 2008年
- 同步是音频水印需要解决的关键问题之一,目前的音频水印算法还缺乏简单有效的同步机制。该文提出一种基于语音参数模型的自同步水印算法,在保证不可感知性和稳健性的良好平衡下实现水印的盲检测。仿真实验表明,该同步机制算法复杂度低,稳健性强,实现简单,对实际应用有重要意义。
- 李燕萍唐振民钱博
- 关键词:音频水印听觉模型
- 半监督学习机制下的说话人辨认算法被引量:2
- 2009年
- 针对说话人辨认中训练语音有限时系统泛化能力差的问题,提出一种基于半监督学习的复合高斯混合模型算法。通过复合高斯混合模型对所有说话人的特征分布统一建模,基于半监督学习机制下的EM算法对学习样本进行学习。实验证明,该算法能够充分利用未标记样本对系统进行有效的自适应更新,改善系统的性能,获得比传统高斯混合模型更高的识别率,提高系统的泛化能力。
- 李燕萍唐振民丁辉张燕
- 关键词:说话人辨认半监督学习EM算法
- 隐空间中参数化直接鉴别分析及其应用
- 2011年
- 提出了一种新的非线性特征抽取方法——隐空间中参数化直接鉴别分析。其主要思想是利用一核函数将原始输入空间非线性变换到隐空间,针对在该隐空间中类内散布矩阵总是奇异等问题,利用参数化直接鉴别分析进行特征抽取。与现有的核特征抽取方法不同的是,该方法不需要核函数满足Mercer定理,从而增加了核函数的选择范围。更为重要的是,由于在隐空间中采用了参数化直接鉴别分析,不仅保留了参数化直接鉴别分析的优点,而且有效地抽取了样本的非线性特征;在该方法中提出了一个更为合理的加权系数矩阵,提高了分类性能。在FERET人脸数据库子库上的实验结果验证了该方法的有效性。
- 张燕郑玮胡勇
- 关键词:加权系数特征抽取