李军锋
- 作品数:72 被引量:45H指数:5
- 供职机构:中国科学院声学研究所更多>>
- 发文基金:国家自然科学基金中国科学院战略性先导科技专项国家重点基础研究发展计划更多>>
- 相关领域:电子电信理学自动化与计算机技术一般工业技术更多>>
- 一种声源高度角控制方法和系统
- 本申请提供了一种声源高度角控制方法和系统,其中所述方法包括:计算HRTF数据库中每个频点的幅度值随高度角变化的相关系数;通过对相关系数计算,得到至少一个中心频率;通过计算至少一个中心频率,得到至少一个滤波器组,然后将至少...
- 夏日升姚鼎鼎李军锋颜永红
- 文献传递
- 一种目标语音信号的干扰信号生成方法及装置
- 本申请公开了一种目标语音信号的干扰信号生成方法及装置,方法包括:获取待干扰的目标语音信号;对目标语音信号进行分帧处理,获得至少一个语音帧;对其中的每个语音帧进行处理,包括对其进行第一处理、第二处理和/或第三处理,获得频域...
- 李军锋程龙彪姚鼎鼎顾建军颜永红
- 一种基于深度学习的双耳语音增强方法
- 本发明公开了一种基于深度学习的双耳语音增强方法,包括:对包含待增强目标语音信号的左/右通道带噪语音信号分别进行处理得到左/右频域信号,并对其幅值进行组合得到单通道复数特征,利用左/右通道的频域信号和对应的目标频域信号理论...
- 李军锋孙兴伟夏日升颜永红
- 文献传递
- 基于隐马尔可夫模型的非监督噪声功率谱估计被引量:4
- 2015年
- 噪声功率谱估计是语音增强算法的基本组成部分,传统算法大多采用启发式的估计方法,因而不能保证噪声估计值的统计最优。提出了一种基于极大似然的非监督噪声功率谱估计方法,采用隐马尔可夫模型(Hidden Markov model,HMM)在每个子带建立语音和非语音对数功率谱的统计模型,模型包含语音和非语音两个高斯分量,其中非语音高斯分量的均值表示噪声功率谱估计值,根据最大期望(Expectation maximization,EM)算法得到包括噪声均值在内的HMM参数集。针对语音信号可能出现的长时缺失,对HMM引入了一些约束条件,保证了模型的稳定性。实验表明,该方法获得的极大似然噪声估计优于基于启发式的经典方法获得的噪声估计。
- 许春冬战鸽应冬文李军锋颜永红
- 关键词:语音增强隐马尔可夫模型
- 早晚期混响划分对理想比值掩蔽在语音识别性能上的影响被引量:5
- 2019年
- 真实环境中存在的噪声和混响会降低语音识别系统的性能。封闭空间中的混响包括直达声、早期反射和后期混响3部分,它们对语音识别系统具有不同的影响.我们研究了早期反射和后期混响的不同划分方法,以其中的早期反射为目标语音,计算出了不同的理想比值掩蔽并研究了它们对语音识别系统性能的影响;在此基础上,利用双向长短时记忆网络(BLSTM)估计理想比值掩蔽,测试它们对语音识别系统性能的影响.实验结果表明,基于Abel早期反射和后期混响的划分方法,理想比值掩蔽能够降低词错误率约2.8%;基于BLSTM的估计方法过低估计了理想比值掩蔽,未能有效提高语音识别系统的性能。
- 高飞黄哲莹王子腾李军锋颜永红
- 关键词:语音识别系统混响晚期
- 一种主动噪声消除方法、装置、电子设备和存储介质
- 本申请提出一种主动噪声消除的方法,包括:将参考信号输入自适应滤波器,得到控制信号,参考信号是由噪声源发出后被参考麦克风采集到的信号;将所述控制信号通过非线性次级路径形成抗噪声信号;非线性次级路径是指包含扬声器,麦克风以及...
- 李军锋陈道成姚鼎鼎颜永红
- 基于功率谱包络动态分割的鲁棒语音端点检测被引量:1
- 2015年
- 在复杂的声学环境中,由于环境噪声的干扰,导致声学特征的稳定性不够理想.为克服此难题,通常对决策结果在时间维度上进行平滑.然而,这些平滑过程本身没有考虑数据在时间维度上的结构特征,属于启发式的方法.该文采用动态分割的方法,将语音的频谱包络在时间维度上分割成具有特征同一性的时间块,以分割块为单位计算能量特征,并进行语音/非语音决策,从而达到提高语音端点检测的稳定性目的.实验表明,提出的方法有效提高了语音端点检测的鲁棒性.
- 许春冬王晶战鸽应冬文李军锋颜永红
- 关键词:语音端点检测聚类
- 一种多通道远场语音增强方法
- 本发明公开了一种多通道远场语音增强方法,包括:对多通道远场语音时域信号处理得到多通道远场语音频域信号,再通过加权预测误差算法处理得到抑制晚期混响后的多通道远场语音频域信号并估计出干扰;使用干扰协方差矩阵和抑制晚期混响后的...
- 李军锋宋思远颜永红
- 声学发音模型辅助建模的发音错误检测与诊断
- 2023年
- 发音错误检测与诊断(MDD)任务的专家标注数据稀缺。从添加发音模型更高效地利用有限数据建模发音规律,辅助基于音素识别的MDD的思路出发,提出一种同时融合声学和文本信息,在理论上更完备地建模发音错误产生过程的声学发音模型。基于发音错误产生过程不同部分的声学关联性,该模型通过与音素识别模型共享声学编码器网络参数,以多任务学习方式联合优化,实现辅助建模。并且,提出声学置信度掩蔽-预测训练方式进一步强化两个任务的联系,提高辅助建模效率。实验表明,声学发音模型能够有效建模发音错误规律;利用其辅助音素识别模型建模后,MDD系统在发音错误检测、诊断和音素识别上分别有4.9%,9.5%和14.0%的提升;声学置信度掩蔽-预测训练方法提高了辅助建模效率,掩蔽参数或联合优化参数选择也会影响辅助建模效果。
- 柳宗铭王丽李军锋张鹏远
- 关键词:多任务学习数据建模文本信息发音错误模型共享音素识别
- 一种无监督单传声器语音降噪方法及系统
- 本发明公开了一种无监督单传声器语音降噪方法,所述方法包括:步骤1)对采集的覆盖所有音素的语音训练数据的进行频谱提取,然后对幅度谱进行k均值聚类,得到每个类别对应的语音字典;然后将所有不同类别的语音字典组合成一个完备的语音...
- 李军锋李煦颜永红
- 文献传递