浙江省自然科学基金(Z1091224) 作品数:17 被引量:77 H指数:5 相关作者: 琚春华 鲍福光 许翀寰 郭飞鹏 殷贤君 更多>> 相关机构: 浙江工商大学 浙江经贸职业技术学院 台州职业技术学院 更多>> 发文基金: 浙江省自然科学基金 国家自然科学基金 国家教育部博士点基金 更多>> 相关领域: 自动化与计算机技术 经济管理 电子电信 交通运输工程 更多>>
基于隐半马尔可夫模型的用户兴趣特征提取 2011年 针对网络用户兴趣行为特征的抽取,提出了一种基于隐半马尔可夫模型的用户兴趣特征提取模型,通过用状态驻留时间的概率来控制用户浏览行为,使描述兴趣特征的隐状态和时间的相关性更紧密地结合起来,并且根据隐半马尔可夫模型可以产生多观察值序列的特性,把文本信息划分成多个文本块子区域,使每个子区域的特征和其中一个观察值序列对应起来。实验结果表明,利用隐半马尔可夫模型进行特征提取比HMM方法有更高的准确率和召回率。 琚春华 章敏关键词:用户兴趣 特征提取 文本挖掘 融入个体活跃度的电子商务客户流失预测模型 被引量:18 2013年 为提高个体层次上客户流失预测的精确度,建立了融入个体活跃度的电子商务客户流失预测模型H-ULSSVM.该模型首先利用融入地域因素的启发式算法计算出最优阈值,并求出个体的活跃度,识别出正判客户和错判客户;在此基础上,考虑电子商务客户流失预测影响因素众多,提出了一种粗糙等价类属性约简方法提取出重要的客户流失预测指标,然后将降维后的正判客户样本送到非平衡最小二乘支持向量机进行学习和训练,进而利用得到的分类器对错判客户样本的客户流失状态进行判别.在某B2C电子商务平台客户样本的实证研究表明,该模型与其他方法相比,具有更好的效率和精确度. 琚春华 卢琦蓓 郭飞鹏关键词:客户流失预测 启发式算法 粗糙集 基于兴趣度的数据流频繁模式散列挖掘算法 被引量:4 2012年 频繁模式挖掘是很多数据流挖掘工作的基础.现有算法虽然能够有效的在数据流中挖掘近似的频繁模式,但是由于数据流数据的不确定性、连续性以及海量性,始终不能有效的将算法的时间效率和空间效率控制在一个可以接受的范围内.本文通过使用散列表作为概要数据的存储结构,并引入关联规则兴趣度的概念,提出了数据流频繁模式挖掘算法MIFS-HT(mining interesting frequent itemsets with hash table),不仅有效降低现有算法的时空复杂度,同时提高了算法的应用价值.最后,实验结果表明:MIFS-HT是一种高效的数据流频繁模式挖掘算法,其性能优于FPStream、LossyCounting等算法,并且挖掘结果更具有现实意义. 琚春华 殷贤君关键词:数据流 兴趣度 融入能力互补因素的生产联盟伙伴选择研究 2013年 资源的互补整合是企业联盟的主要目标,互补度的高低是决定企业联盟稳定性及联盟绩效的关键因素,本文针对生产联盟伙伴选择问题,提出了基于能力互补的选择策略,定义并深入剖析了基于生产能力的互补度评价系数。并在此基础上,构建了融入互补度评价系数的生产联盟伙伴选择3阶段模型,模型首先采用层次分析法和基于粒子群优化算法的多目标搜索算法,求得生产时间和生产成本的双目标帕累托最优解,再通过评价非劣解的互补度补充指导决策,最后选择通信行业的智能手机制造联盟中的伙伴选择问题作为仿真应用,分析了仿真结果并给出了结论。 琚春华 傅小康关键词:伙伴选择 粒子群优化算法 基于小波网络的数据流偶合特征聚类方法 2012年 利用小波网络对数据流进行压缩,从而建立新的数据流概要结构,它的规模比原始数据流的规模要小很多,用其来保存原始数据流的主要特征,进行偶合特征提取分析,获取反应数据流变化趋势的相似度,研究其相关性;对k-means进行改进提出一种改进的聚类方法 CCK-Stream(coincidence characteristic K-means)。理论分析与仿真实验结果表明,其数据压缩比高,CCK-Stream聚类方法的可行性以及聚类质量较好,而且在存储空间性能上表现较佳,且具有较高的稳定性。 琚春华 郭晓娜关键词:数据流 小波网络 数据压缩 聚类 一种基于主成分和密度的改进型动态数据流聚类算法 被引量:1 2010年 本文主要研究了在有限资源约束下的数据流聚类方法。针对海量,高速的数据流,现有聚类方法在有界内存和有界时间的限制下,难以快速有效地进行聚类,设计了一种基于主成分和密度的动态数据流聚类算法,PDStream算法.它采用滑动窗口管理数据流;首先使用主成分模型作为前置系统,它负责对基本窗口内的源数据进行属性转换,起到了降维的作用;然后使用密度聚类模型作为后置系统进行聚类操作;最后对系统中生成的概要数据进行简化的二次聚类并更新聚类簇。通过实验表明,PDStream算法有效克服了STREAM算法使得聚类受控于历史数据的缺点,显现出处理海量数据的优越性以及聚类质量高的特点。 琚春华 梅铮 许翀寰关键词:数据流聚类 主成分分析 一种挖掘概念漂移数据流的模糊积分集成分类方法 被引量:1 2011年 针对隐含概念漂移和噪声的数据流,提出一种基于模糊积分融合的数据流分类方法(fuzzy integral ensembleclassifiers for mining data streams,FI-MDS)。将模糊积分融合方法与集成综合技术有效结合起来,首先通过基分类器对识别样例进行分类得到决策剖面,然后再用模糊积分融合方法得到最终的分类结果,同时引入动态权值更新以提高算法的适应性。实验结果表明,与传统的数据流分类算法相比,该方法提高了概念漂移的检测精度,有效地解决了数据流中复杂分类问题,具有良好的分类性和健壮性。 琚春华 陈之奇关键词:数据挖掘 数据流 概念漂移 模糊积分 基于流形空间的交互式人脸图像索引(英文) 认知科学表明基于流形学习的人脸图像检索能准确反映人脸图片的内在相似性和人类的视觉感知本质.提出一种基于相关反馈的人脸高维索引方法——NDL,以提高人脸图像检索的性能.同时在该索引基础上提出一种流形空间下的相似查询——虚拟... 庄毅 胡华 袁承祥 蒋国昌 胡海洋 琚春华关键词:高维索引 文献传递 基于支持向量机的分布数据挖掘模型DSVM 被引量:8 2010年 针对分布环境的数据挖掘要求,提出了基于支持向量机的分布数据挖掘模型DSVM.定义了DSVM中特征多叉树的概念,描述了基于移动Agent访问分布数据集来构建特征多叉树的方法,阐述了通过特征多叉树来反映分布环境各数据集属性总体特征的思想,并利用该数据结构和支持向量机的特点,提出了基于壳向量的分布式支持向量机增量算法来修正和完善特征多叉树,最终实现分布环境下全局的数据挖掘.实验结果表明,该模型有效地解决原有分布环境下其他挖掘算法存储开销大、执行效率差、安全性和隐私性低等问题. 琚春华 郭飞鹏关键词:支持向量机 移动AGENT 关联规则的评价方法改进与度量框架研究 被引量:6 2013年 关联规则挖掘是数据挖掘领域的重要课题,但是,就评价关联规则是否有价值的依据,即兴趣度的度量方法,学术界没有一致的标准。传统的兴趣度度量方法包括支持度一置信度,提升度,改善度,有效度,影响度方法等。这些传统的兴趣度度量方法都存在各自的局限,本文首先比较分析了关联规则的客观兴趣度度量的相关研究成果,然后,针对它们的不足进行了改进,提出了两种比较有效的关联规则度量方法(New—lift,New—Improve),通过实验分析,进而提出新的度量框架,并实证了新方法的特征属性。 琚春华 鲍福光 王宗格关键词:关联规则