您的位置: 专家智库 > >

谷俊

作品数:23 被引量:155H指数:7
供职机构:宝山钢铁股份有限公司更多>>
发文基金:上海市科学技术发展基金国家社会科学基金国家自然科学基金更多>>
相关领域:自动化与计算机技术文化科学经济管理理学更多>>

文献类型

  • 19篇期刊文章
  • 2篇会议论文
  • 1篇学位论文

领域

  • 14篇自动化与计算...
  • 9篇文化科学
  • 2篇经济管理
  • 1篇建筑科学

主题

  • 8篇本体
  • 6篇中文
  • 4篇中文专利
  • 3篇非分类关系
  • 3篇抽取
  • 2篇冶金
  • 2篇冶金行业
  • 2篇语义检索
  • 2篇知识组织
  • 2篇生命周期
  • 2篇爬虫
  • 2篇中文分词
  • 2篇网络
  • 2篇网络爬虫
  • 2篇技术生命周期
  • 2篇分词
  • 1篇信息采集
  • 1篇信息化
  • 1篇信息资源
  • 1篇蚁群

机构

  • 16篇宝山钢铁股份...
  • 13篇南京大学
  • 4篇中国人民解放...
  • 3篇华东师范大学
  • 2篇上海理工大学
  • 2篇宝钢集团中央...
  • 1篇南京信息工程...
  • 1篇安徽医学高等...

作者

  • 22篇谷俊
  • 4篇严明
  • 3篇周群芳
  • 3篇许鑫
  • 3篇王昊
  • 2篇翁佳
  • 2篇苏新宁
  • 2篇吴婕
  • 1篇朱紫阳
  • 1篇袁丰平
  • 1篇杨敏

传媒

  • 5篇图书情报工作
  • 4篇现代图书情报...
  • 3篇情报杂志
  • 2篇情报科学
  • 2篇情报探索
  • 1篇中国图书馆学...
  • 1篇计算机应用与...
  • 1篇情报理论与实...
  • 1篇第十七届海峡...

年份

  • 2篇2014
  • 6篇2013
  • 4篇2012
  • 5篇2011
  • 1篇2010
  • 2篇2008
  • 2篇2006
23 条 记 录,以下是 1-10
排序方式:
印前工序中自动开版的设计与实现
2012年
传统的手工开版工作量大,容易出错,严重制约了印刷生产效率。对开版问题进行描述,给出相关算法,并利用程序予以实现,算法具有较强的实用价值。
谷俊
关键词:印前工序印刷
基于中文专利的新技术术语识别研究被引量:6
2013年
首先利用ICTCLAS分词系统和停用词表抽取文档词元,通过改进的TFIDF模型计算词元权重并筛选出热点词元,再通过词间距测算对热点词元按顺序进行组配,经权重计算和阈值筛选后得到术语集,由专家人工判定识别出有效的新技术术语。最后给出了应用实例并进行分析,验证了方法的有效性。
谷俊严明
关键词:技术生命周期
面向情报获取的主题采集工具设计与实现被引量:2
2014年
面向互联网的主题采集是情报获取的重要手段,面对爆发式增长的互联网信息资源,设计并实现一套由采集准备、URL分析及提取、模板学习、正文抽取等几阶段组成的主题采集工具,其中URL分析与提取采用基于链接类型的URL筛选方法,实现正文网页URL的筛选;模板学习和正文抽取部分采用基于DOM树的节点比对方法,完成模板的构建与正文抽取。实验结果表明,本文所提出的主题采集工具采集准确率较高,能够适应目前情报信息采集的需求。
谷俊翁佳许鑫
关键词:网络爬虫DOM树
基于领域中文文本的术语抽取方法研究被引量:23
2011年
在ICTCLAS词典分词的基础上,利用串频最大匹配算法从中文专利文本中抽取候选术语,再利用TF-IDF算法得到相关特征项的权重,经过筛选后得到最终概念术语。最后,抽取部分样本数据进行实验,并对结果进行分析。
谷俊王昊
关键词:概念抽取中文分词
专利文献中新技术术语识别研究被引量:5
2012年
主要介绍从中文专利文本中识别新技术术语的方法。利用ICTCLAS分词系统和停用词表抽取文档词元,通过改进的TFIDF模型计算词元权重并筛选出热点词元,再通过词间距测算对热点词元按顺序进行组配,经权重计算和阈值筛选后得到术语集,由专家人工判定识别出有效的新技术术语。最后给出应用实例并进行分析,验证该方法的有效性。
谷俊
关键词:技术生命周期
面向专利本体的语义检索分析系统的设计与实现被引量:7
2014年
在领域本体的基础上,对面向专利文献的语义检索与分析方法进行探讨,并构建一套专利语义检索与分析系统,包括语义检索、趋势分析、相似专利检测、重要专利检测等模块,初步实现基于领域本体的专利语义检索与挖掘。同时,以国际专利分类号为C21的中文专利数据为例进行实验,证明本体扩展后的语义检索的召回率得到大幅提高,继而使得后续的专利分析和挖掘效果更加明显,从而有助于进一步深入开展专利挖掘工作。
许鑫谷俊袁丰平周群芳
关键词:本体语义检索
基于改进关联规则的本体关系获取研究被引量:9
2011年
文章提出一种改进的关联规则方法,用于抽取文本中的非分类关系。首先利用基于上下文的术语相似度获取方法得到术语间的相似度权重,再通过加入谓语动词的关联规则算法计算,结合搜索引擎技术得到候选关系对集合,并通过置信度和支持度的对比分析,抽取最终的非分类关系结果,最后对测试数据进行实验,并对结果进行分析。
谷俊严明王昊
关键词:关联规则非分类关系本体
社会信息化测度体系中信息资源指标集的构建与分析被引量:2
2008年
从国内外信息化测度方法和模型以及近年来我国学者进行的众多信息化测度实例出发,抽取信息资源因素进行归纳和总结。借鉴前人的研究成果,并依托一定的理论依据和现实依据构建信息资源指标集,该指标集囊括传统文献信息资源(图书、报纸、期刊)和电子信息资源(广播、电视、网络),与现有的测度体系相比,具有更强的可靠性和较高的准确性,同时保持较好的可操作性,因而是科学合理的。
翁佳谷俊
关键词:信息资源媒介
基于聚类算法的本体层次关系获取研究被引量:6
2011年
提出利用蚁群聚类方法进行初始聚类,通过K-means聚类算法对初始聚类的结果进一步分层聚类,并结合术语综合相似度计算的方式提取每个类的标签,从而完成术语层次关系的构建。最后抽取部分实验结果,由领域专家对其进行评价,并对结果进行分析。
谷俊朱紫阳
关键词:本体语义层次蚁群算法聚类
基于中文专利的新技术术语识别研究
本文介绍了从中文专利文本中识别新技术术语的方法。首先利用ICTCLAS分词系统和停用词表 抽取文档词元,通过改进的TFIDF模型计算词元权重并筛选出热点词元,再通过词间距测算对热点词元按顺序进行组配,经权重计算和阈值筛选...
谷俊严明苏新宁
关键词:文字处理
共3页<123>
聚类工具0