袁毅
- 作品数:27 被引量:231H指数:4
- 供职机构:中国科学院声学研究所更多>>
- 发文基金:国家重点基础研究发展计划国家自然科学基金中国科学院声学研究所知识创新工程项目更多>>
- 相关领域:自动化与计算机技术理学文化科学语言文字更多>>
- 舰船噪声识别(Ⅰ)──总体框架、线谱分析和提取被引量:159
- 1998年
- 本系列文章的工作是在舰船噪声谱图的基础上,利用模糊神经网络对舰船进行分类识别。文章Ⅰ叙述了舰船噪声的谱特征由可分离的平稳谱和非平稳谱组成,介绍了既利用有效识别特征(有类别共性和异性的特征)又对特定舰船特征作专门记忆的工作路线及识别框架,对特定舰船的记忆具体体现在特定舰船特征模库一包含有线谱模板库、双重频率谱模板库和平均功率谱模板库。文章Ⅰ又具体讨论了特征提取和建立线谱模板时所碰到的理论、模型、分析参数及线谱提取方法,舰船噪声实际情况和理论之间的差异等问题。文章最后介绍了用机器自动提取线谱的一种方法。系列文章Ⅱ将讨论线谱稳定性、唯一性和线谱模板图;文章Ⅲ将讨论双重谱和平均功率谱的特征提取和模板建立;文章Ⅳ将讨论模糊神经网络和识别。
- 吴国清李靖陈耀明袁毅陈岳
- 关键词:特征提取模糊神经网络
- 舰船噪声识别(Ⅲ)──双重谱和平均功率谱的特征提取和模板图被引量:52
- 1999年
- 本系列文章的工作是在舰船噪声谱图的基础上,利用模糊神经网络对舰船进行分类识别。本文是系列文章的第三篇,研究提取双重频率功率谱中调制信息的方法及建立双重谱和平均功率谱模板图。对双重谱,在每个频道中利用最小二乘法消除趋势项,对高频调制作适当补偿。包络线谱的强弱用谱线低于零频谱强度的调制深度和诺线跳出基线的相对高度来表示,并通过隶属函数转换为模糊度量。双重谱模板图记忆了稳定出现的调制线谱和相对应的调制强度。平均功率谱的模板图记忆了多个典型样本的谱均值和对应的标准离差。
- 吴国清李靖李训诰陈耀明袁毅
- 关键词:特征提取
- 利用语言概念表示的作者写作风格分类研究
- 文本分类是文本信息自动处理的重要研究领域,文本作者风格的识别处理可以作为一类特殊的文本分类处理。本文针对自然语言表层信息特征的数据稀疏缺陷,引入了 HNC 的概念基元表述体系作为特征载体,以 KNN 算法作为基础,进行了...
- 张全张运良袁毅
- 关键词:语言概念空间文本分类
- 2015年中国少数民族地区蒙藏维言语录音数据集被引量:2
- 2016年
- 本文介绍了2015年采集的来自内蒙古、青海、西藏和新疆的蒙古语、藏语和维吾尔语言语数据集,使用客户端/服务器架构的言语数据远程采集系统,实现了蒙藏维少数民族言语数据的低成本高效采集,公开共享的言语数据集大小为136 MB近800句。该数据集对于少数民族言语分析研究与教学、语音识别与合成具有重要的研究价值和应用价值,本文的言语数据采集系统仅需少许改动也可以应用于其他语种或者方言的言语数据采集,具有操作简单、部署方便、成本低等特点。
- 韦向峰袁毅张全池哲洁
- 关键词:少数民族录音远程采集
- 基于概念层次网络的事件抽取研究
- 2020年
- 为使计算机能从文本中自动抽取出事件及事件要素,利用概念层次网络理论,对文本进行句类分析得到语义块后,以事件触发概念信息为线索,加入语义块权重,用频数指标提出事件类型判断方法。进一步利用句类知识分析语义块和事件要素的对应关系,并建立对应规则,抽取事件要素。在中文突发事件语料库上进行了实验,事件类型识别和事件要素抽取的F1测度宏平均分别为0.871和0.768,较对比方法分别提升了4.8和6.4个百分点,总体处理效果较好。
- 韦向峰缪建明池哲洁袁毅
- 关键词:事件抽取概念层次网络句类语义块
- 基于端点检测的蒙藏维语音片段数据集被引量:1
- 2019年
- 在“中国少数民族地区蒙藏维言语录音2015数据集”的语音数据基础上,采用短时能量和短时过零率的双门限端点检测方法,得到一个句子语音的多个语音片段文件。本语音片段数据集包含蒙古语语音片段1657个、藏语语音片段666个、维吾尔语语音片段756个,数据总量大小约为111 MB。通过软件自动切分和语言专家的多重审核校对得到高质量的蒙藏维多语种的语音片段数据,可应用于少数民族的语音识别、端点检测、语音增强、语音合成和语言教学等领域。
- 韦向峰袁毅张全吐尔逊·卡得
- 关键词:端点检测蒙古语藏语维吾尔语语音数据
- 富媒体环境下语音和文本内容的对齐研究被引量:1
- 2019年
- 语音媒体和文本媒体是富媒体中重要的两种媒体,本文试图解决富媒体内容关联中语音和文本的自动对应和关联问题。本文通过自动语音识别、语音纠错处理、文本相似度计算等技术和方法,把语音和文本的对齐问题转化为文本之间相似和对齐的问题,通过从语音到文本、从文本到语音两种应用场景,用实验证明了该方法的可行性和有效性。本文的语音文本对齐技术将是富媒体融合特别是语音媒体和文本媒体之间进行融合的重要支撑技术,同时也为文本媒体和语音媒体的进一步关联重组和应用提供坚实的技术基础。
- 韦向峰袁毅张全池毓焕
- 关键词:富媒体语音识别
- 英汉双语富媒体知识图谱构建工程研究——以CNS英文期刊为例
- 2023年
- [目的/意义]研究自动构建英汉双语富媒体知识图谱的方法和过程,为跨语言多模态知识图谱的自动构建提供借鉴参考,对及时获取最新英文科研成果、科技情报监测等具有重要意义。[方法/过程]采用自顶向下和自底向上相结合的方法,先从顶层设计要抽取的主要实体、属性和关系,从底层非结构化文本数据进行分析抽取细粒度的实体和属性,对有歧义实体和跨语言实体进行实体对齐,对跨媒体的实体进行实体链接,用图数据库实现知识图谱的存储及应用。[局限]未来需进一步提高细粒度实体的抽取正确率,对音视频媒体进行特征提取和内容自动识别。[结果/结论]以CNS(Cell、Nature、Science)等英文科技期刊网站为例,通过数据抓取、实体抽取、属性抽取、知识融合、跨媒体链接等过程,实现了英汉双语富媒体知识图谱的构建、存储和可视化展示。
- 韦向峰缪建明张全张全
- 关键词:富媒体知识图谱
- 一种服务特定领域的稀缺资源语言模型建模方法及建模系统
- 本发明属于人工智能语言信息处理技术领域,具体地说,涉及一种服务特定领域的稀缺资源语言模型建模方法,包括:步骤1)得到由多个分割语句组成的预处理后的语句集合;步骤2)得到语句‑主题分布和主题‑词语分布;步骤3)得到选定的领...
- 张全韦向峰袁毅池毓焕
- 语境单元萃取
- 黄曾阳张全韦向峰缪建明池毓焕袁毅
- 语境单元是对一组围绕同一主题表述的语句语义内容的概念化描述。语境单元萃取则是对句群的理解处理-从中获取句群的表述的关键要素,是跨越语句的自然语言理解处理。语境单元由领域、情景和背景构成,其中领域是基本的分类信息,索引相应...
- 关键词: