国家重点基础研究发展计划(2014CB340504) 作品数:48 被引量:339 H指数:9 相关作者: 昝红英 俞士汶 穗志方 詹卫东 朱学锋 更多>> 相关机构: 北京大学 郑州大学 清华大学 更多>> 发文基金: 国家重点基础研究发展计划 国家自然科学基金 国家社会科学基金 更多>> 相关领域: 自动化与计算机技术 语言文字 文化科学 更多>>
面向情感分析的构式主观态度义初探 被引量:3 2018年 文本情感分析是目前自然语言处理领域的前沿研究课题。本文考察了两类跟情感表达有关的构式:[+程度]构式(42条)和[+主观态度]构式(185条),前者表达情感的强度;后者的表达功能具体包括三种情况:评价、情感和立场。评价是指依据一定的标准对某实体或事件做出价值判断。情感是指对外界刺激肯定或否定的心理反应,如喜欢、愤怒、悲伤、恐惧、爱慕、厌恶等。立场是指对某人的观点或意愿表达接受、反对或不置可否。一个具体的[+主观态度]构式可以只包含上述一种情况(如只表达评价),也可以包含不止一种情况(如同时表达情感和立场)。有的[+主观态度]构式除了上述主要表达功能之外,还有附加语义特征(如同时表达情感和后果)。为了帮助计算机做文本情感分析,本文设立了主观态度语义要素7元组<主体,对象,类型,强度,动因,后果,命令>,并讨论了从句子中抽取这些语义要素的规则。 黄思思 詹卫东关键词:情感分析 “价”的界定与汉语形容词配价描述的系统实现 配价描述在语言学理论研究及自然语言处理应用等方面有重要价值,如何简洁、一致地获取汉语词价量信息是其中的关键问题。本文从语义分类与价量分类相结合的角度出发,对汉语词的"价"的概念给出了新的界定,并据此提出了一种获取汉语词价... 刘艳敏 刘扬 汪梦翔关键词:配价 文献传递 基于词向量的中文事件发现及表示 被引量:5 2018年 已有的事件发现方法主要基于词频-逆文档频率文档表示,维度较高,语义稀疏,效率和准确率都较低,不适用于大规模在线新闻事件发现.因此,文中提出基于词向量的文档表示方法,降低文档表示维度,缓解语义稀疏问题,提高文档相似度计算效率和准确性.基于该文档表示方法,提出动态在线新闻聚类方法,用于在线新闻事件发现,同时提高事件发现的准确率和召回率.在标准数据集TDT4和真实数据集上的实验表明,相比当前通用的基线方法,文中方法在时间效率和事件质量上都有显著提高. 张斌 胡琳梅 侯磊 李涓子基于群体智慧的语料标注方法研究 被引量:6 2017年 自然语言处理系统的性能和鲁棒性在很大程度上取决于建模过程中是否有足够的深度标注语料。传统的人工标注方法难以满足大规模、高质量的深度语料标注需求,该文提出了基于群体智慧的语料标注方法,设计了标注模型,并就用户能力评测、语料筛选、任务管理、协作标注、行为分析、质量控制、决策加总、考核激励等具体环节进行分析,提出了解决方案。项目实践表明:基于群体智慧的语料标注方法在应对创新性很强的自然语言处理研究项目时具有明显的优势。 柯永红 俞士汶 穗志方 宋继华关键词:自然语言处理 基于多特征融合的垃圾短信识别 被引量:7 2017年 垃圾短信已日益成为影响人们日常生活的严重问题,由于短信属于短文本,长度较短,特征稀疏,尤其是垃圾短信为逃避过滤机制,其结构和内容常常不规范,所以传统的文本特征提取方法并不能完全适用于短信分类。从短信的结构及语义两个角度提取特征项,并建立语义特征词表,采用基于多特征融合的方法来向量化表示短信文本。针对短信数据集中存在的噪声及数据不平衡问题,分别比较了NB、SVM、DT、LR、MLP、RF分类器的性能差别。实验表明,采用RF分类算法,能有效减弱噪声干扰及数据不平衡性所带来的影响。通过在CCF 2015中国好创意竞赛题目"垃圾短信基于文本内容识别"所提供的数据集上进行验证,取得了很好的效果。 李润川 昝红英 申圣亚 毕银龙 张中军关键词:垃圾短信 多特征融合 基于词语相似度的语义选择限制知识获取 2019年 考察基于词语相似度的语义选择限制知识获取方法.首先获取种子论元,再利用词语相似度进行论元扩展.比较了基于词向量的词语相似度计算方法与基于词典的词语相似度计算方法在选择限制知识获取任务中的表现.实验表明,前者效果更好,且二者有一定互补性,可以结合使用.与语义选择限制知识获取的其他方法相比,基于词语相似度的方法,种子选取灵活,不要求对语料进行深层句法语义分析,在伪消歧实验中也取得了较高的正确率,具有一定的优势. 贾玉祥 赵倩倩 李育光 郑一 昝红英关键词:词语相似度 词汇语义 基于神经网络的语义选择限制知识自动获取 被引量:3 2017年 语义选择限制刻画谓语对论元的语义选择倾向,对自然语言的句法语义分析有重要作用,语义选择限制知识的自动获取也成为一个重要的研究课题。鉴于神经网络模型在自然语言处理的很多任务中都有出色的表现,该文提出基于神经网络的语义选择限制知识获取模型,设计了引入预训练词向量的单隐层前馈网络和两层maxout网络。在汉语和英语的伪消歧实验中神经网络模型取得了较好的效果,优于基于隐含狄利克雷分配的模型。 贾玉祥 许鸿飞 昝红英关键词:神经网络 汉语未登录词的词义知识表示及语义预测 被引量:7 2016年 在此前的汉语未登录词语义预测中,构词相关的知识一直被当做预测的手段,而没有被视为一种有价值的知识表示方式,该文在"语素概念"基础上,深入考察汉语的语义构词知识,给出未登录词的"多层面"的词义知识表示方案。针对该方案,该文采用贝叶斯网络方法,构建面向汉语未登录词的自动语义构词分析模型,该模型能有效预测未登录词的"多层面"的词义知识。这种词义知识表示简单、直观、易于拓展,实验表明对汉语未登录词的语义预测具有重要的价值,可以满足不同层次的应用需求。 田元贺 刘扬关键词:未登录词 基于外部记忆单元和语义角色知识的文本复述判别模型 被引量:3 2017年 文本复述判别是一个重要的句子级语义理解应用。该文提出了一个轻量级的基于记忆单元的单层循环神经网络模型,并结合语义角色标注知识帮助进行英文文本复述判别。使用单层的循环网络模型减缓由于网络层数过多加重的梯度消失和梯度爆炸问题,易于训练;并且利用外部记忆单元和语义角色知识帮助存储两句话中不同层级的语义联系。该文模型在英文评测语料Microsoft Research Paraphrase Corpus测试集上F值为84.3%。实验表明,语义角色标注知识确实可以帮助文本复述判别,并且轻量级模型达到了与同类多层次网络模型相近的效果。 李天时 李琦 王文辉 常宝宝关键词:语义角色 循环神经网络 自然语言处理技术与语言深度计算 被引量:24 2015年 语言能力(包括口语能力和书面语言能力)是人的首要能力,是其综合能力的重要组成部分,也是运用和展现综合能力的最重要手段。人终其一生,都在不断地学习语言及其表达的各种知识。正常人很自然地便掌握了日常生活中使用的母语(口语),但读、写能力以及第二语言的听、说、读、写能力却需要专门学习。 俞士汶关键词:自然语言处理技术 语言能力 口语能力 学习语言 正常人