国家科技支撑计划(2011BAH10B06-04)
- 作品数:6 被引量:63H指数:5
- 相关作者:乐小虬张帆秦晓慧毛琛瑜何远标更多>>
- 相关机构:中国科学院大学中国科学院文献情报中心中国科学院更多>>
- 发文基金:国家科技支撑计划更多>>
- 相关领域:自动化与计算机技术文化科学更多>>
- 学术论文大纲中关键术语抽取方法研究被引量:7
- 2014年
- 【目的】针对学术论文大纲内容精炼、层次性的特点,研究从中抽取重要且具有实质意义术语的方法。【方法】结合语言学规则和术语词典从大纲各级标题中识别出候选术语集,然后根据术语间的句法依存关系计算tf-idf,并利用大纲结构量化术语层级特征,最后结合tf-idf与层级特征对候选术语进行排名,选择出关键术语。【结果】实验证明,该方法的候选术语识别F值达到89.57%,术语选择F值达到36.89%。【局限】采用的术语抽取规则不完备,且tf-idf计算过程中的权值设置仅使用经验值,导致未能达到最优效果。【结论】该方法能有效抽取大纲中的关键术语,适用于层级结构中的关键术语抽取。
- 何远标乐小虬张帆
- 领域科技文献创新点句中主题属性实例识别方法研究被引量:9
- 2015年
- 【目的】识别创新点句中主题属性实例,进一步挖掘创新点句中的知识关系。【方法】采用语义角色标注以及依存句法分析方法,借助领域本体中属性类目下主题词,从依存树中识别创新点句中的核心主题词以及属性实例;针对依存句法分析的特征,设计组合术语识别模块以及连接词关系识别模块以改善识别效果。【结果】创新点句中核心主题词识别的F值达到77.94%;创新点句中属性实例识别的平均F值在90%左右。【局限】使用Stanford依存句法分析工具对肿瘤领域进行句法分析造成的偏差影响识别效果;使用NCIt本体属性类别时,有待进一步过滤与规范。【结论】实验结果表明,该方法对领域创新点句中的主题属性实例具有较好的识别效果。
- 张帆乐小虬
- 关键词:领域本体语义角色标注依存句法分析
- 面向单篇文献引文网络的主题来源与走向追踪被引量:2
- 2015年
- 【目的】从单篇文献入手,在其引文网络中追踪研究主题的来源与走向。【方法】首先,利用领域本体识别单篇文献中的主题;其次,筛选与主题相关的二级参考文献、参考文献、引证文献、二级引证文献,构建面向单篇文献的引文网络;然后,对引文网络进行增量聚类处理,形成主题的来源与走向演化图。【结果】充分揭示文献主题来源或走向中继承、分化、合并的结构变化及各阶段的内容变化。【局限】引文网络构建时文献的筛选条件有待深入研究;主题识别未考虑领域本体中词汇收录不完备问题。【结论】本研究对单篇文献主题的来源与走向进行有效的追踪,能够较好地揭示文献主题的来龙去脉。
- 秦晓慧乐小虬
- 关键词:引文网络单篇文献
- 基于LDA主题关联过滤的领域主题演化研究被引量:27
- 2015年
- 【目的】发现领域文献中主题的新生、消亡、继承、分裂和合并的演化轨迹。【方法】根据文献出版时间划分多个时间窗口,通过LDA主题模型识别各个时间窗口中的主题;利用主题关联(Topic Association)过滤规则确定相邻时间窗口主题间的演化关系;形成连续时间段内主题新生、消亡、继承、分裂和合并的演化轨迹。【结果】在保证主题延续性的条件下,更准确地识别主题的新生、消亡、继承、分裂和合并的演化类型。【局限】固定的时间窗口,未考虑主题演化周期的多样性。【结论】该方法可以有效降低LDA主题模型中相似度较小主题的干扰,提升主题演化关系识别的准确性。
- 秦晓慧乐小虬
- 领域内中文科技文献中新发现语言描述特征分析被引量:8
- 2016年
- 【目的】分析领域内中文科技文献新发现语言描述特征。【方法】语义标注新发现语言描述特征,通过句式分析、频次分布统计以及共现分析探究其特征规律。【结果】总结得到领域内中文科技文献新发现语言的句型,找出新发现语言的特征搭配。【局限】结果具有领域学科局限性,需要进一步对比研究。【结论】利用语义标注、频次统计以及共现分析可以有效地发现中文科技文献中新发现语言的描述特征。
- 毛琛瑜乐小虬
- 关键词:语言特征语义标注
- 面向领域科技文献的句子级创新点抽取研究被引量:15
- 2014年
- 【目的】抽取领域科技文献中句子级创新点。【方法】面向文献中的句子,以领域词表和本体中的关系为基础构建识别规则,采用基于主题词重叠度的冗余度计算方法过滤创新点候选集。【结果】选取肿瘤领域的数据集进行实验,抽取结果的准确率为89.42%,召回率为60.14%。【局限】规则有待进一步完善,提高召回率。【结论】利用领域词表和本体中的关系能有效地抽取科技文献中的句子级创新点。
- 张帆乐小虬
- 关键词:语言学特征