闫红刚
- 作品数:15 被引量:39H指数:4
- 供职机构:中国人民解放军信息工程大学更多>>
- 发文基金:国家自然科学基金河南省自然科学基金国家高技术研究发展计划更多>>
- 相关领域:电子电信自动化与计算机技术文化科学理学更多>>
- 低资源少样本连续语音识别最新进展被引量:3
- 2023年
- 低资源少样本语音识别是目前语音识别行业面临的迫切技术需求。首先,总结了低资源连续语音识别技术的框架技术,重点介绍了低资源语音在特征提取、声学建模和资源扩展等方面的若干关键技术研究进展。其次,在连续语音识别框架技术发展的基础上,重点阐述了生成对抗网络、自监督表示学习、深度强化学习和元学习等高级深度学习技术在解决少样本语音识别方面的最新发展,如FGSM、wav2vec、AMS等代表性方法。在此基础上,分析了目前该技术面临的互补有限、数据和任务不均衡与模型轻量化部署问题。最后,对低资源少样本连续语音识别进行了总结,提出未来少样本训练识别的研究方向可以朝着先验信息引入、假设空间约束条件设定等方向进一步研究。
- 屈丹杨绪魁闫红刚陈雅淇牛铜
- 关键词:连续语音识别元学习
- 一种“数字信号处理”新的教学方案
- 依据"数字信号处理"课程特点,介绍一种新的教学方案,即采用工科思维的启发式教学思路、内容类比的教学方法和形象化的教学形式。该方案经过多年的教学实践,取得了较好的教学效果。
- 张冬玲李天昀闫红刚
- 关键词:数字信号处理形象化
- 文献传递
- 一种基于压缩感知的说话人自适应方法
- 本发明涉及一种基于压缩感知的说话人自适应方法,属于连续语音识别的声学模型自适应技术领域。本发明将说话人自适应视为一种高维信号的稀疏分解问题,在训练阶段联合本征音超矢量和训练说话人超矢量构造超矢量字典;在自适应阶段,在稀疏...
- 屈丹张文林李真闫红刚张刚
- 文献传递
- OSD技术在ATM数字视频监控系统中的应用被引量:6
- 2004年
- 介绍了一种用于ATM自动提款机的数字视频监控系统,从经济实用的角度出发,在系统的前、后端分别实现了OSD功能。前端叠加的OSD信息作为图像的说明和补充,并且随视频流传输和存储;后端叠加的OSD提供了友好的用户界面,不影响图像的完整性。
- 闫红刚戚文芽
- 关键词:数字视频监控
- “数字信号处理”课程新教学方案初探被引量:2
- 2013年
- 本文依据"数字信号处理"课程的特点,介绍一种新的教学方案,即采用工科思维的启发式教学思路、内容类比的教学方法和形象化的教学形式。该方案经过多年的教学实践,取得了较好的教学效果。
- 张冬玲李天昀闫红刚
- 关键词:数字信号处理形象化
- 基于被动时间反转-自编码器的水声通信信号调制识别方法被引量:7
- 2023年
- 海洋环境中存在的多径效应会影响水声通信信号的特征,降低调制识别准确率.为了减小多径效应对信号调制识别造成的干扰,本文提出了一种基于被动时间反转-自编码器的信号增强方法.利用水声通信信号中常见的同步信号作为探测信号,实现无外加信号的被动时间反转以及功率谱和平方谱两种频域特征的增强,并设计了卷积神经网络进行调制识别.网络模型经过Bellhop仿真水声信道和少量非测试环境的实测数据进行训练后,在3种与训练环境不同的实际水声信道下测试,所有调制信号识别准确率均高于80%,6种调制信号的平均识别准确率与已有文献中的方法相比至少提高了20个百分点.
- 胡雅琳付晓梅暴纪欣闫红刚孙万忠钱治文
- 关键词:调制识别多径效应卷积神经网络
- 一种基于声学空间非线性流形结构的声学模型构建方法
- 本发明涉及一种基于声学空间非线性流形结构的声学模型构建方法。本发明通过将特征空间划分为多个局部区域,对每个局部区域用一个低维的线性因子分析模型进行近似,得到声学特征空间的混合因子分析模型;将上下文相关状态的观测矢量限定在...
- 张文林屈丹李真闫红刚牛铜
- 文献传递
- 基于MPC850的四路MPEG-4视频监控系统的设计实现被引量:4
- 2004年
- 本文介绍了基于PowerPC内核的嵌入式通信控制器芯片MPC850和MPEG-4数字视频压缩芯片IME6400,并利用这些芯片设计并实现了一种新型的MPEG-4数字视频监控系统。
- 闫红刚卢宏海戚文芽
- 关键词:MPC850IME6400
- MPEG4音、视频编码芯片IME6400及其应用被引量:6
- 2004年
- IME6400是韩国INTiME公司开发的、可支持MPEG4高分辨率实时视频编码的集成电路芯片。文中介绍了IEM6400芯片的性能特点 ,给出了利用该芯片设计基于嵌入式PC内核的数字视频监控系统的具体方法。
- 闫红刚戚文芽
- 关键词:MPEG4IME6400嵌入式系统编码器
- 基于长时信息的自适应话音激活检测被引量:2
- 2018年
- 语音信号的长时信息应用于话音激活检测中表现优越.利用三种听觉滤波器组,对语音信号进行非线性的谱分解,本文提出了六种基于听觉滤波器组的长时信息,并提出了基于长时信息的自适应话音激活检测算法.该算法无需训练数据,根据多种长时信息,直接在待测信号中挑选出类别明确的信号,然后利用这些信号训练分类模型,对待测信号按帧进行语音-非语音分类.在TIMIT语音库和NOISEX-92噪声库上的实验表明,该算法在极低信噪比环境下,仍表现出更高的准确性和更强的稳健性.同时,在线实验表明,算法在实时处理中仍能取得优异的性能.
- 杨绪魁屈丹张文林闫红刚
- 关键词:话音激活检测自适应