您的位置: 专家智库 > >

国家高技术研究发展计划(2008AA040201)

作品数:16 被引量:39H指数:3
相关作者:刘加何亮史永哲梁旭黄明更多>>
相关机构:清华大学大连交通大学中国人民解放军91550部队更多>>
发文基金:国家高技术研究发展计划国家自然科学基金国家科技支撑计划更多>>
相关领域:自动化与计算机技术电子电信经济管理更多>>

文献类型

  • 16篇中文期刊文章

领域

  • 8篇电子电信
  • 8篇自动化与计算...
  • 1篇经济管理

主题

  • 5篇说话人识别
  • 4篇语音
  • 3篇语音识别
  • 3篇陪护机器人
  • 3篇机器人
  • 2篇遗传算法
  • 2篇向量
  • 2篇流形
  • 2篇流形学习
  • 2篇混合模型
  • 2篇高斯
  • 2篇高斯混合
  • 2篇高斯混合模型
  • 2篇车间调度
  • 1篇低能量
  • 1篇递归神经
  • 1篇递归神经网络
  • 1篇调度
  • 1篇调度问题
  • 1篇调焦

机构

  • 11篇清华大学
  • 3篇大连交通大学
  • 1篇北京航空航天...
  • 1篇厦门理工学院
  • 1篇中国人民解放...

作者

  • 11篇刘加
  • 5篇何亮
  • 3篇黄明
  • 3篇梁旭
  • 3篇史永哲
  • 2篇杨毅
  • 2篇栗志意
  • 2篇张卫强
  • 2篇陈谐
  • 2篇单煜翔
  • 1篇魏洪兴
  • 1篇陶永
  • 1篇蔡丽
  • 1篇蔡猛
  • 1篇李文
  • 1篇宋辉
  • 1篇徐敏
  • 1篇邓妍
  • 1篇郭书杰
  • 1篇侯锐

传媒

  • 4篇清华大学学报...
  • 2篇自动化学报
  • 2篇电声技术
  • 2篇大连交通大学...
  • 1篇模式识别与人...
  • 1篇计算机应用
  • 1篇高技术通讯
  • 1篇信号处理
  • 1篇网络安全技术...
  • 1篇High T...

年份

  • 4篇2012
  • 8篇2011
  • 4篇2010
16 条 记 录,以下是 1-10
排序方式:
老年陪护机器人系统的设计与实现被引量:3
2011年
设计了一种以引导式语音交互和肢体动作为表达形式的老年陪护机器人系统,该机器人系统采用人性化语音交互、触觉感知与交互技术,对使用者提供个性化服务。采用非特定人语音识别技术,利用有限的硬件资源,构建稳健的识别模型,实现高性能并满足实时应答要求的语音识别片上系统。在真实动物运动姿态建模的基础上,提出了一种应用欠驱动柔性结构的电机控制系统,实现低成本、高仿真度的驱动结构框架和运动模型。介绍了机器人系统的总体框架、语音识别系统以及电机动作控制系统的设计。
侯锐曹宏刘加
关键词:陪护机器人语音识别
陪护机器人口语对话系统设计与实现被引量:1
2010年
针对陪护机器人口语对话系统的难点给出了相应的解决方案:以话题为单位的聊天机器人知识库构建规则、简单有效的句子相似度计算方法、准确高效的答案检索模块。通过对78个回合的实际聊天结果的统计分析,验证了解决方案的有效性;同时分析了方案的局限性。
郭书杰黄明梁旭
关键词:口语对话系统句子相似度
基于扩展N元文法模型的快速语言模型预测算法被引量:6
2012年
针对基于动态解码网络的大词汇量连续语音识别器,本文提出了一种采用扩展N元文法模型进行快速语言模型(Language model,LM)预测的方法.扩展N元文法模型统一了语言模型和语言模型预测树的表示与分数计算方法,从而大大简化了解码器的实现,极大地提升了语言模型预测的速度,使得高阶语言模型预测成为可能.扩展N元文法模型在解码之前离线生成,生成过程利用了N元文法的稀疏性加速计算过程,并采用了词尾节点前推和分数量化的方法压缩模型存储空间大小.实验表明,相比于采用动态规划在解码过程中实时计算语言模型预测分数的传统方法,本文提出的方法在相同的字错误率下使得整个识别系统识别速率提升了5~9倍,并且采用高阶语言模型预测可获得比低阶预测更优的解码速度与精度.
单煜翔陈谐史永哲刘加
关键词:语音识别解码
联合因子分析中的本征信道空间拼接方法被引量:8
2011年
为了使联合因子分析适用于多种信道条件下的文本无关说话人识别,提出了一种本征信道空间的正交拼接法.在多信道条件下,可以通过混合数据法或简单拼接法估计本征信道空间,但前者存在空间掩盖,后者虽解决了空间掩盖但引入了空间重叠.本文首先证明说话人建模和测试的核心运算是斜投影,基于上述证明,通过将待拼接空间正交的方法移除了空间重叠.在NISTSRE2008核心评测数据库上的实验表明,本文所提算法优于混合数据法和简单拼接法.
何亮史永哲刘加
关键词:说话人识别
A navigation method based on POMDP for smart wheelchair in uncertain environments
2010年
A navigation method based on the partially observable markov decision process (POMDP) for smart wheelchairs in uncertain environments is presented in this paper. The design key factors for the navigation system of a smart wheelchair are discussed. A kinematics model of the smart wheelchair is given, and the model and principle of POMDP are introduced. In order to respond in uncertain local environments, a novel navigation methodology based on POMDP using the sensors perception and the user's joystick input is presented. The state space, the action set, the observations and the sensor fusion of the navigation method are given in detail, and the optimal policy of the POMDP model is proposed. Experimental results demonstrate the feasibility of this navigation method. Analysis is also conducted to investigate performance evaluation, advantages of the approach and potential generalization of this paper.
陶永 Wang Tianmiao Wei Hongxing Chen Diansheng
基于鉴别性i-vector局部距离保持映射的说话人识别被引量:11
2012年
为了进一步提高i-vector说话人识别系统的性能,该文提出了一种鉴别性i-vector局部距离保持映射(discriminant i-vector local distance preserving projection,DIVLDPP)的流形学习算法。该算法以i-vector间的Euclid距离作为度量准则,并以最小化同类点间距离同时最大化异类近邻点间距离的鉴别性准则作为优化目标函数,利用求解广义特征值的方法,得到最终的投影映射矩阵。在美国国家标准技术局2008年说话人识别核心数据集上的实验结果表明:该算法可以明显提高目前i-vector说话人识别系统的性能。
栗志意何亮张卫强刘加
关键词:流形学习说话人识别
基于TLS-NAP的文本无关说话人识别算法被引量:2
2012年
为提高文本无关说话人识别系统的识别率,提出一种基于总体最小二乘法的无用分量投影算法.利用总体最小二乘法估计的隐含变量考虑无用分量投影矩阵的扰动,并将该扰动最小化,使基于该隐含变量求得的投影矩阵能更好地刻画无用分量空间.在美国国家标准技术署于2008年公布说话人识别数据库上的实验结果验证该方法的有效性.
何亮杨毅刘加
关键词:说话人识别高斯混合模型
语种识别中基于局部多样性建模的向量空间模型被引量:1
2011年
针对语种识别中大规模数据库的训练问题,提出一种基于局部多样性建模的向量空间模型。首先将训练数据库分成若干个小数据库,然后利用每个小数据库来训练不同的向量空间模型,最后对不同的模型进行加权组合。为了有效地对不同模型进行组合,需要对模型的加权系数进行优化。对模型组合算法从理论上进行推导,在模型权重与分数线性融合系数之间建立起对应的数学关系,并提出采用逻辑回归方法对不同模型的权重进行估计。在美国国家标准技术局(NIST)2009年度语种识别测试库上的实验结果表明:所提方法不仅能够处理大规模的训练数据,而且相比传统方法识别性能也有了一定程度的提高,系统的等错误率在30 s、10 s和3 s的测试条件下分别下降了8.44%、5.91%以及3.45%。
邓妍张卫强刘加
关键词:语种识别向量空间模型逻辑回归
基于MLER和GMM的语音音乐分类被引量:2
2011年
研究了音频信息处理中一项重要的预处理工作:语音音乐分类。针对语音信号处理中遇到的实际问题,选择合适的音频特征和分类器来对音频数据进行语音和音乐分类。采用二级系统,选择优化低能量率(ModifiedLow Energy Ratio,MLER)以及梅尔频谱倒谱系数(Mel Frequency Cepstral Coefficients,MFCC)作为音频特征,通过贝叶斯分类和混合高斯分类器进行分类。最后,使用上下文分类器对分类结果进行修正。实验结果表明,这种分类方法准确率和速度都较好。
陈红红刘加
大规模词表连续语音识别引擎紧致动态网络的构建被引量:1
2012年
大规模词表连续语音识别系统需要综合各种知识源,如声学模型、语言模型、发音词典等。其中,解码网络是识别引擎的基础,对提高解码器的性能有着至关重要的影响。有效综合这些知识源,构建一个紧致的解码网络,可以有效减少识别时的搜索空间和重复计算,显著提高解码速度。该文针对语音识别的动态解码网络进行研究,提出了词标志(word end,WE)节点前推算法,结合传统的前后向合并算法,实现了一个基于隐Markov模型状态为网络节点的紧凑动态解码网络。优化后的解码网络的节点数和边数分别是线性词典解码网络的1/4,是开源工具包HDecode的1/2;需要计算语言模型预测分数的节点数为HDecode的1/2。该声学模型基于三音子建模,可方便地移植到其他语种上。
刘加陈谐单煜翔史永哲
关键词:语音识别声学模型
共2页<12>
聚类工具0