国家重点基础研究发展计划(2013CB329304)
- 作品数:11 被引量:26H指数:3
- 相关作者:周强吕学强贾珈蔡莲红吴玺宏更多>>
- 相关机构:清华大学北京信息科技大学清华信息科学与技术国家实验室更多>>
- 发文基金:国家自然科学基金国家重点基础研究发展计划国家社会科学基金更多>>
- 相关领域:自动化与计算机技术语言文字电子电信更多>>
- 汉语语篇的连贯性标注困难度分析研究被引量:3
- 2018年
- 在人工标注语篇句子连贯性时,句群的划分成为最大的难点,句群内部句间关系的复杂性也增加了篇章标注的困难度。为了识别语篇标注的困难度,从多角度总结了句群边界以及类别的分布特点,分析了句群内部句间的各种连接关系,提出了一种基于人工标注的语篇困难度识别模型,并利用双人标注信息的差异性来验证语篇困难度识别方法的有效性与准确性。数据表明,该模型可以较好地区分不同体裁新闻类语篇的标注难度,为相关语篇内容的分析理解打下了良好的基础。
- 魏天珂吕学强周强
- 关键词:语篇连贯性
- 汉语谓词组合范畴语法词库的自动构建研究被引量:3
- 2016年
- 谓词词库是深层语法模型分析和理解的核心资源。近年来的常规方法是人工构建或从标注语料库中自动获取,标注规模和信息容量的扩大受制于巨大的人工投入量和标注库体系设计。该文提出了一种多资源融合自动构建汉语谓词组合范畴语法(CCG)词库的新方法。从知网、北大语法信息词典和大规模事件句式实例中提取汉语谓词的不同句法语义分布特征,融合形成CCG原型范畴表示,将它们指派给各资源信息完全重合的谓词形成核心词库。然后通过自动分类和隶属度分析相结合方法对其他谓词的CCG范畴进行预测,并对两者结果进行融合得到扩展词库,最终合并形成包含约15,000个词条的汉语谓词CCG词库。通过在随机均匀抽样的1000个谓词上通过多人独立标注形成的标准测试库上进行不同角度的性能分析实验,表明该词库的预期准确率达到了96.3%。
- 周强
- 汉语概念复合块的自动分析被引量:1
- 2016年
- 为解决句法分析任务中的块边界识别和块内结构分析问题,该文基于概念复合块描述体系进行了块分析探索。通过概念复合块与以往的基本块和功能块描述体系的对比分析,深入挖掘了概念复合块自动分析的主要难点所在,提出了一种基于"移进-归约"模型的汉语概念复合块自动分析方法。在从清华句法树库TCT中自动提取的概念复合块标注库上,多层次、多角度对概念复合块自动分析性能进行了纵向与横向评估,初步实验结果证明了该分析方法对简单概念复合块分析的有效性,为后续进行更复杂的概念复合块的句法语义分析研究打下了很好的基础。
- 仵永栩吕学强周强关晓炟
- 关键词:句法分析
- 面向大语料库的语音合成方法研究被引量:2
- 2014年
- 针对几百小时粗标注大语料库,提出一种新颖的语音合成系统构建方法。首先,借助于语音识别、文本对齐和句法分析等技术实现大语料库的自动筛选与标注。然后,为了有效解决大语料库声学模型训练中存在的内存空间以及计算时间开销过大等问题,优化了传统的训练流程,在不损失声学模型准确性的前提下,显著提高了模型的训练速度。主观实验表明,与具有精标注的小语料库相比,引入粗标注的大语料库可以带来0.5分左右的MOS提升。
- 于延锁朱风云李先刚刘翼吴玺宏
- 基于HMM语音合成的语调控制被引量:5
- 2013年
- 语调是语音分析和合成领域关注的重要课题,可计算的语调模型是实现语调控制的关键。该文分析了大规模语句的音节音高在句子中的变化,归纳了语调模式。陈述语调主要表现为基调的升降和音高下倾;疑问语调主要特点是疑问焦点的音高提升和调型变化。该文提出了一种陈述语调归一化描述方法,以及疑问语调调型差异模型。利用基于隐Markov模型的语音合成系统的控制机制,实现了对语调的控制。实验表明:基于陈述句语调归一化描述方法模拟了陈述句语调的变化,基于疑问语调调型差异模型实现了陈述到疑问语调的转换。语调控制使合成语音的表现力得到了提高。
- 王永鑫贾珈张雨辰蔡莲红
- 关键词:语调
- 汉语重音的凸显度分析与合成被引量:1
- 2015年
- 重音是重要的语调特征,重音合成技术可以提高语音的自然度和表现力。针对重音的局部凸显性,该文提出了声学特征凸显度的表示方法,分析了不同韵律位置(韵律词首、中、尾,韵律短语首、中、尾等)重音音节的声学特征凸显度,发现在韵律单元末(韵律词末音节和韵律短语末韵律词)的重音其基频最大值凸显度要低于非韵律单元末重音,提出了基于声学特征凸显度的非线性的重音声学参数生成算法,解决了传统重音声学参数线性修改算法的修改幅度不足或过大的问题。采用该算法建立了基于隐Markov模型的支持重音合成的语音合成系统。实验表明,该系统可以有效合成带有重音的语音,提高了合成语音的自然度和表现力。
- 孟凡博吴志勇贾珈蔡莲红
- 关键词:合成技术重音语音合成系统隐MARKOV模型声学特征韵律短语
- 对话语篇中对话者的心理距离预测初探
- 在对话语篇的分析研究中,对话行为与对话意图是很多研究者关注的焦点,具有重要的研究价值。在对话过程中,不同话题选择可以体现出对话者不同的心理距离。而这些心理距离的差异,又往往可以通过不同的对话行为模式体现出来。本文通过为不...
- 张学敬吕学强周强
- 关键词:心理距离
- 文献传递
- 基于话题链的汉语语篇连贯性描述体系被引量:9
- 2014年
- 汉语简洁灵活的意合型篇章组合结构,对传统的基于关联词的篇章连贯性描述体系提出了新的挑战。该文引入话题链描述形式,设计不同类型的话题评述关系集,构建了以话题链为主,融合关联词语和其他连贯形式描述机制,覆盖话题评述、并列、因果、转折四大类关系的汉语语篇连贯性描述体系。在清华句法树库TCT上进行的验证实验,发现话题链和关联词语分别覆盖了约76%和50%的汉语复句,并且两者经常同时使用,初步证明了这个体系在句子连贯性描述方面的可行性和有效性。
- 周强周骁聪
- 关键词:话题链
- 融合词义消歧的汉语句法分析方法研究被引量:2
- 2015年
- 将句法分析与词义消歧相结合,根据层次化语义知识的句法分析框架,在句法分析训练过程中,利用句法结构信息对文法模型进行调整,解决了引入语义时所面对的歧义问题,构建一种句法分析和词义消歧的一体化方法。实验表明,在句法分析过程中进行词义消歧处理,使句法分析的性能显著提升,同时也获得词义消歧能力。
- 李冬晨张献涛樊扬吴玺宏
- 关键词:句法分析词义消歧一体化
- 弱标注环境下基于CNN的汉语句群自动切分
- 2018年
- 句群在汉语语篇中占据重要的地位,实现句群的自动切分可以有效地提升机器翻译以及机器阅读理解的准确率.为了实现汉语句群的自动切分,本文利用卷积神经网络以及注意力机制对语篇句对进行分类,并结合句群主题特征来提升句群边界识别的准确率,利用大规模弱标注段落数据集解决句群语料短缺的难题.数据表明,该方法能够有效地进行句群边界的自动识别,实现句群的自动切分.
- 魏天珂吕学强周强
- 关键词:卷积神经网络