陕西省自然科学基金(2012JM1010) 作品数:6 被引量:14 H指数:2 相关作者: 曾向阳 王强 王征 王曙光 万书婷 更多>> 相关机构: 西北工业大学 中国船舶工业集团公司 中国科学院 更多>> 发文基金: 陕西省自然科学基金 国家自然科学基金 西北工业大学研究生创业种子基金 更多>> 相关领域: 电子电信 理学 一般工业技术 交通运输工程 更多>>
混响环境中的视-听语音识别 被引量:3 2012年 针对混响环境中语音识别率相对安静环境下急剧下降的问题,提出了一种将语音视觉信息与音频特征相结合的方法。通过快速检测和定位包含说话人唇部的感兴趣区域(ROI),获得ROI图像序列。首先对ROI图像进行离散余弦变换,提取反映说话人唇动的视觉特征。音频特征的提取,则采用较为成熟的Mel频率倒谱系数(MF-CC)方法。对所获取的视、音特征采用隐马尔可夫模型作为训练识别算法。测试实验结果证明,采用视、听特征相结合的方法,有效地提高了混响环境中的语音识别率。 万书婷 曾向阳 王强关键词:语音识别 混响 隐马尔可夫模型 基于上升过零点检测的室内双传声器声源定位 2014年 提出了一种基于上升过零点检测的双传声器声源定位方法,该方法可以根据双传声器信号时间差样本的统计特性求得信噪比,再统计满足信噪比要求的可靠时间差样本,将其转换成对应的方位角样本,最后根据样本数量的统计分析结果确定声源方位。针对不同声源、信噪比及混响条件,在实际房间中进行了定位实验。结果显示:该方法对宽带声源具有更好的定位效果;定位精度受信噪比的影响很小,但受室内混响的影响显著。 曾向阳 蔡怀珍关键词:过零点检测 混响 水下目标的Gammatone子带降噪和希尔伯特-黄变换特征提取 被引量:7 2015年 水下目标识别是水声探测中的关键技术,具有重要的应用价值。海洋环境的复杂性导致水下目标识别中存在不可回避的噪声干扰。以人耳听觉机理为基础,提出了一种结合Gammatone滤波器、小波阈值降噪和希尔伯特-黄变换(HHT)的水下目标识别方法。采用Gammatone滤波器实现人耳听觉机理的模拟,并在此基础上进行小波阈值降噪,提高系统的噪声鲁棒性,然后利用HHT进行时频分析和特征提取。利用实际水下目标数据进行识别实验,对提出的方法进行了验证。实验结果表明,提出的方法在低信噪比条件下具有良好的鲁棒性,并具有较好的识别效果。 王曙光 曾向阳 王征 王强关键词:声学 水下目标识别 希尔伯特-黄变换 基于音调转换的哼唱检索特征提取方法 基于内容的音乐检索是当前语音识别领域的一个研究热点。本文提出一种基于音乐特征的哼唱检索方法,该方法以基频和音调作为特征参数,首先计算信号的基频向量,然后对基频进行调式转化,根据转化后的频率计算音调向量,再用基频和音调构成... 曾向阳 王蕾关键词:基频 音调 音乐检索 特征提取 文献传递 用于室内环境说话人识别的混响补偿方法 2015年 针对训练和识别环境不同而导致室内说话人识别系统识别率显著下降的问题,提出了一种基于差异化特征提取的混响补偿方法。与使用传统MFCC特征的识别阶段不同,该方法在训练阶段通过Schroeder反向积分在mel频带获得房间声能量衰减曲线,并使用该曲线补偿纯净信号的MFCC特征,以模拟实际室内混响场声信号特征;同时,通过联合应用相对谱滤波(RASTA)与倒谱均值规整(CMN)处理MFCC特征,进一步抑制房间通道效应对语音信号影响。针对不同混响程度房间中实测数据的识别结果表明,该方法可以显著提高识别率,具有良好的抑制混响作用。 曾向阳 王强关键词:混响 房间脉冲响应 说话人识别 一种视听融合的水下目标识别方法研究 被引量:2 2015年 特征提取是水下目标识别研究中最为关键的技术之一,特征参数的优劣将直接决定分类识别系统的性能。将声信号的听觉与视觉感知特征结合,应用于水下目标识别,通过实验得出如下结论,相比于单独应用听觉特征,融合特征的平均识别率能提高4%~6%以上,特别是将听觉特征与声谱图的Gabor小波变换特征、灰度-梯度共生特征进行融合后,分类性能较好,平均达到87%以上。 马理想 曾向阳关键词:水下目标识别 可视化 图像特征 采用动态核特征及贝叶斯最大后验估计的语音转换方法 被引量:2 2015年 针对小样本情况下,使用混合概率线性回归(Mixture of Probabilistic Linear Regressions,MPLR)模型进行语音转换容易出现过拟合的问题,提出利用动态核特征替代源说话人语音谱特征后,对转换函数参数进行贝叶斯最大后验估计(Maximum a Posterior,MAP)求解的方法。首先采用核函数将源说话人的语音谱特征转化为动态核特征,再引入转换函数参数的先验知识,最后根据对误差的不同假设,提出两种求解转换函数参数的方法。客观评测实验结果表明,所提出方法的平均谱失真值相对于MPLR模型转换方法平均降低了4.25%。主观评测实验结果表明,所提出的方法在转换语音的相似度和自然度方面的得分均高于MPLR方法。实验结果证明,所提出方法有效地改善了语音转换中的过拟合问题。 李娜 曾向阳 乔宇 李志锋关键词:最大后验估计 语音转换 谱特征 动态核 贝叶斯 函数参数