国家科技支撑计划(2012BAH13F03)
- 作品数:2 被引量:6H指数:2
- 相关作者:俞枫李洁华更多>>
- 相关机构:国泰君安证券华存数据信息技术有限公司上海市总工会更多>>
- 发文基金:国家科技支撑计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于DRPKP算法的文本去重研究与应用被引量:3
- 2014年
- SimHash算法是目前主流的文本去重算法,但它对于特定行业的文本数据在主题方面的天然相似性特点并没有特殊的考虑。基于多年在金融证券行业信息管理和数据整合的经验,本文分析目前文本去重方法存在的问题,特别针对SimtHash算法在特定行业文本去重中的不足,创新地提出一种基于段落主题的文本去重方法(简称DRPKP算法),通过对去重准确率、覆盖率和去重时间3个指标进行对比测试,DRPKP算法比SimHash算法准确率可提高24.5%、覆盖率可提高16.34%,且去重时间更短。
- 俞枫王引娜
- 关键词:相似度MAPREDUCE
- 金融信息服务系统技术框架研究被引量:3
- 2014年
- 金融资讯数据是投资者进行投资决策、券商投研部门进行研究和撰写研究报告的重要依据.从金融资讯数据的数据整合与存储、信息检索和资讯推荐三个层次出发,提出了一种创新的金融信息服务系统技术框架,并在此基础上描述了国泰君安金融资讯与统一检索平台的构建方案.平台还在数据整合、数据存储、信息检索、去重机制、资讯推荐等多个方面实现了技术创新,为金融行业构建信息服务系统提供了有益的示范与参考.
- 俞枫李洁华
- 关键词:信息检索