国家自然科学基金(61371129)
- 作品数:4 被引量:13H指数:2
- 相关作者:吴云芳万富强徐艺峰张文贤吕学强更多>>
- 相关机构:北京大学北京信息科技大学更多>>
- 发文基金:国家自然科学基金国家社会科学基金教育部人文社会科学研究基金更多>>
- 相关领域:自动化与计算机技术语言文字更多>>
- 基于序列模式的应答需求句识别
- 本文针对在线问答系统的问题识别任务,提出了"应答需求句"的概念,包括疑问句和祈使句两类句式,从训练数据中自动挖掘频繁使用的序列模式,训练SVM分类器。相比较于单一的问号特征、疑问词特征、疑问语气词特征以及词袋词特征,本文...
- 徐艺峰吴云芳
- 关键词:问句
- 文献传递
- “其实”的衔接功能分析被引量:1
- 2015年
- 本文从句法、语义、命题逻辑、衔接辖域等多角度分析了关联词"其实"的衔接功能。文章认为"其实"的功能与其句法位置相关,"其实"的完全句包括五个语义项,所衔接的语义关系为蕴涵。文章还发现"其实"的衔接类型有语义衔接与语气衔接两种,并且衔接内容、句法位置、辖域三者之间存在一定的关系。
- 张文贤
- 关键词:衔接语义句法位置辖域
- 汉语篇章级小句关系的标注体系被引量:3
- 2015年
- 句际关系自动分析属于篇章语义学研究的范畴,虽然英语句际关系的研究已有大量工作,但汉语句际关系的自动分析还只是刚刚起步。该文在RST理论框架下,结合汉语特点,提出了完整的汉语篇章级小句关系标注体系。将汉语话题和逻辑关系置于同一个框架下进行描述,将小句关系划分为事件附属关系和事件逻辑关系两大类。逻辑关系又包括6个中类、15个小类。目前已在人民日报语料上完成了8 000个句子的小句关系标注。抽取出其中1 000个句子检测了双盲标注的一致性,揭示了汉语意合性语言小句关系标注的困难;并基于标注数据对关系类型进行了定量分析,指示了汉语句际关系自动分析将面临的重点和难点。
- 吴云芳徐艺峰王恺然
- 关键词:句际关系小句关系语料库标注
- 基于中文维基百科的词语语义相关度计算被引量:9
- 2013年
- 语义相关度计算在信息检索、词义消歧、自动文摘、拼写校正等自然语言处理中均扮演着重要的角色。该文采用基于维基百科的显性语义分析方法计算汉语词语之间的语义相关度。基于中文维基百科,将词表示为带权重的概念向量,进而将词之间相关度的计算转化为相应的概念向量的比较。进一步,引入页面的先验概率,利用维基百科页面之间的链接信息对概念向量各分量的值进行修正。实验结果表明,使用该方法计算汉语语义相关度,与人工标注标准的斯皮尔曼等级相关系数可以达到0.52,显著改善了相关度计算的结果。
- 万富强吴云芳
- 关键词:语义相关度先验概率
- 基于排序方法的汉语句际关系树自动分析(英文)
- 2016年
- 提出一种自动分析汉语小句级句际关系树的新方法。在修辞结构理论体系下,构建一个汉语句际关系标注语料库。不同于传统的只关心相邻两个单元的方法,提出一种类排序模型(SVM-R),自动构建汉语句际关系的树结构,旨在把握相邻3个单元之间的关联强度。实验结果表明,所提出的SVM-R模型对句际关系树的分析显著优于传统方法。最后提出并验证了丰富的、适合于汉语句际关系分析的语言特征。
- 吴云芳万富强徐艺峰吕学强