施侃晟
- 作品数:4 被引量:11H指数:2
- 供职机构:上海交通大学更多>>
- 发文基金:国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 一种提高文本检索准确性的关联方法
- 2010年
- 文本检索就是从文本集中发现与用户查询相关的文本的过程。传统的基于查询似然检索模型没有考虑词项之间内在关系和外在共现关系。针对这些缺点,分别提出新关联方法分别予以解决。最后,通过实验对比证明新方法在查询精度上有了明显的提高,验证了新方法的有效性。
- 施侃晟刘海涛舒平达
- 关键词:文本检索统计语言模型
- 便于快速信息融合的主题检测算法被引量:1
- 2012年
- 物联网要求对海量信息源里的不同主题,自动地高性能地进行检测和融合。目前大多数公开报道的中文主题检测算法时间复杂度是非线性的,在海量多信息源的信息融合方面缺乏可行性。该文采用高效能的一元语法模型结合全文检索的方法降低主题间的比较次数,理论上将算法效率提升到线性。通过新华社实际数据的实验证实,算法的时间复杂度确实为线性的。另算法应用于两项云计算的实际产品中,也验证了算法适用于物联网环境下的高速信息融合。
- 施侃晟刘海涛白英彩宋文涛周书勇
- 关键词:主题检测向量空间模型
- 基于词性和中心点改进的文本聚类方法被引量:6
- 2012年
- 针对k-均值算法对初始点敏感、易陷入局部最优的问题,提出一种基于词性和中心点改进的文本聚类方法(STICS).通过改进文本的语义型表示,优化中心点的选取,并消除孤立点的负面影响,从而获得较好的聚类效果.STICS考虑不同词性特征对文本的贡献,采用加权的向量空间模型来表示文本.对于中心点的选取,首先度量每个样本的样本平均相似度,其次选取样本平均相似度最大的样本作为第一个聚类中心.此外,STICS消除孤立点的负面影响,以此提高聚类效果.实验结果表明文中方法确实具有更好的聚类效果.
- 施侃晟刘海涛宋文涛
- 关键词:文本聚类K-均值孤立点
- 余弦度量和适应度函数改进的聚类方法被引量:4
- 2013年
- K-均值算法因其简单和高效性,在文本聚类中占有重要地位。针对传统的K-均值算法对初始点敏感、易陷入局部最优的问题,结合遗传算法已经成为一种趋势。在充分发挥K-均值算法的高效性的同时,该文利用遗传算法的全局自适应优化特点克服了对初始点敏感的问题。同时,以余弦度量评价对象间的相似性并以此构造新的遗传算法适应度函数、收敛准则以及遗传算法种群更新方式,提高了K-均值和遗传算法这种结合方式的聚类精度,并增强了该结合算法的稳定性。
- 施侃晟刘海涛白英彩宋文涛洪亮亮
- 关键词:遗传算法适应度函数K-均值算法文本聚类