谷俊
- 作品数:23 被引量:155H指数:7
- 供职机构:宝山钢铁股份有限公司更多>>
- 发文基金:上海市科学技术发展基金国家社会科学基金国家自然科学基金更多>>
- 相关领域:自动化与计算机技术文化科学经济管理理学更多>>
- 印前工序中自动开版的设计与实现
- 2012年
- 传统的手工开版工作量大,容易出错,严重制约了印刷生产效率。对开版问题进行描述,给出相关算法,并利用程序予以实现,算法具有较强的实用价值。
- 谷俊
- 关键词:印前工序印刷
- 基于中文专利的新技术术语识别研究被引量:6
- 2013年
- 首先利用ICTCLAS分词系统和停用词表抽取文档词元,通过改进的TFIDF模型计算词元权重并筛选出热点词元,再通过词间距测算对热点词元按顺序进行组配,经权重计算和阈值筛选后得到术语集,由专家人工判定识别出有效的新技术术语。最后给出了应用实例并进行分析,验证了方法的有效性。
- 谷俊严明
- 关键词:技术生命周期
- 面向情报获取的主题采集工具设计与实现被引量:2
- 2014年
- 面向互联网的主题采集是情报获取的重要手段,面对爆发式增长的互联网信息资源,设计并实现一套由采集准备、URL分析及提取、模板学习、正文抽取等几阶段组成的主题采集工具,其中URL分析与提取采用基于链接类型的URL筛选方法,实现正文网页URL的筛选;模板学习和正文抽取部分采用基于DOM树的节点比对方法,完成模板的构建与正文抽取。实验结果表明,本文所提出的主题采集工具采集准确率较高,能够适应目前情报信息采集的需求。
- 谷俊翁佳许鑫
- 关键词:网络爬虫DOM树
- 基于领域中文文本的术语抽取方法研究被引量:23
- 2011年
- 在ICTCLAS词典分词的基础上,利用串频最大匹配算法从中文专利文本中抽取候选术语,再利用TF-IDF算法得到相关特征项的权重,经过筛选后得到最终概念术语。最后,抽取部分样本数据进行实验,并对结果进行分析。
- 谷俊王昊
- 关键词:概念抽取中文分词
- 专利文献中新技术术语识别研究被引量:5
- 2012年
- 主要介绍从中文专利文本中识别新技术术语的方法。利用ICTCLAS分词系统和停用词表抽取文档词元,通过改进的TFIDF模型计算词元权重并筛选出热点词元,再通过词间距测算对热点词元按顺序进行组配,经权重计算和阈值筛选后得到术语集,由专家人工判定识别出有效的新技术术语。最后给出应用实例并进行分析,验证该方法的有效性。
- 谷俊
- 关键词:技术生命周期
- 面向专利本体的语义检索分析系统的设计与实现被引量:7
- 2014年
- 在领域本体的基础上,对面向专利文献的语义检索与分析方法进行探讨,并构建一套专利语义检索与分析系统,包括语义检索、趋势分析、相似专利检测、重要专利检测等模块,初步实现基于领域本体的专利语义检索与挖掘。同时,以国际专利分类号为C21的中文专利数据为例进行实验,证明本体扩展后的语义检索的召回率得到大幅提高,继而使得后续的专利分析和挖掘效果更加明显,从而有助于进一步深入开展专利挖掘工作。
- 许鑫谷俊袁丰平周群芳
- 关键词:本体语义检索
- 基于改进关联规则的本体关系获取研究被引量:9
- 2011年
- 文章提出一种改进的关联规则方法,用于抽取文本中的非分类关系。首先利用基于上下文的术语相似度获取方法得到术语间的相似度权重,再通过加入谓语动词的关联规则算法计算,结合搜索引擎技术得到候选关系对集合,并通过置信度和支持度的对比分析,抽取最终的非分类关系结果,最后对测试数据进行实验,并对结果进行分析。
- 谷俊严明王昊
- 关键词:关联规则非分类关系本体
- 社会信息化测度体系中信息资源指标集的构建与分析被引量:2
- 2008年
- 从国内外信息化测度方法和模型以及近年来我国学者进行的众多信息化测度实例出发,抽取信息资源因素进行归纳和总结。借鉴前人的研究成果,并依托一定的理论依据和现实依据构建信息资源指标集,该指标集囊括传统文献信息资源(图书、报纸、期刊)和电子信息资源(广播、电视、网络),与现有的测度体系相比,具有更强的可靠性和较高的准确性,同时保持较好的可操作性,因而是科学合理的。
- 翁佳谷俊
- 关键词:信息资源媒介
- 基于聚类算法的本体层次关系获取研究被引量:6
- 2011年
- 提出利用蚁群聚类方法进行初始聚类,通过K-means聚类算法对初始聚类的结果进一步分层聚类,并结合术语综合相似度计算的方式提取每个类的标签,从而完成术语层次关系的构建。最后抽取部分实验结果,由领域专家对其进行评价,并对结果进行分析。
- 谷俊朱紫阳
- 关键词:本体语义层次蚁群算法聚类
- 基于中文专利的新技术术语识别研究
- 本文介绍了从中文专利文本中识别新技术术语的方法。首先利用ICTCLAS分词系统和停用词表 抽取文档词元,通过改进的TFIDF模型计算词元权重并筛选出热点词元,再通过词间距测算对热点词元按顺序进行组配,经权重计算和阈值筛选...
- 谷俊严明苏新宁
- 关键词:文字处理