国家242信息安全计划(2005A37)
- 作品数:3 被引量:44H指数:3
- 相关作者:龙志祎程葳钟华邱立坤沈俊辉更多>>
- 相关机构:北京城市学院北京中医药大学更多>>
- 发文基金:国家242信息安全计划国家高技术研究发展计划北京市教育委员会科技发展计划面上项目更多>>
- 相关领域:自动化与计算机技术更多>>
- TDT中新发现话题的分类研究与实现被引量:3
- 2009年
- 根据数据源为新闻网站的TDT(topic detection and tracking)系统的话题特点,首先提出了话题分类思想,然后将KNN(k-nearest neighbor)算法与网站频道信息相融合对话题进行分类。实验表明,话题分类的正确率达到98%,具有较高的实用性。
- 龙志祎程葳沈俊辉
- 关键词:TDTKNN
- 基于词聚类的热点话题检测算法被引量:27
- 2011年
- 对应用词聚类进行热点话题检测的算法进行了研究。通过将文档分词并用兼顾长短文章的规则进行特征抽取,将文档聚类空间转化为特征词聚类空间,采用基于互信息的词聚类算法产生热点话题类。以TDT5语料作为测试语料进行了热点话题召回率和话题类纯度评测,实验结果表明,采用基于词聚类的算法进行热点话题检测,热点话题的平均召回率达到83.8%,话题类的平均类纯度达到94.4%,检测出的热点话题类别易于理解。
- 龙志祎程葳
- 关键词:互信息词聚类词汇语义相似度
- 层次化话题发现与跟踪方法及系统实现被引量:15
- 2007年
- 自1996年话题发现与跟踪评测启动以来,该研究受到普遍关注,取得巨大进步,也遇到诸多困难。通过分析大量话题数据,提出层次化话题与层次聚类的区别在于话题的层次是由事件的构成决定的,层次化话题应当分为三层,即微类、中类和上类。原因在于计算机自动分析产生的层次化话题必须与现实世界有客观的联系。据此提出一个面向大规模真实数据的有充分理论依据的层次化话题发现与跟踪方法,并在集群系统上予以实现。
- 邱立坤龙志祎钟华程葳