大连市优秀青年科技人才基金(2008J23JH026)
- 作品数:19 被引量:90H指数:6
- 相关作者:任永功张亮付玉宋奎勇寇香霞更多>>
- 相关机构:辽宁师范大学中国石油天然气集团公司更多>>
- 发文基金:大连市优秀青年科技人才基金国家自然科学基金辽宁省教育厅高等学校科学研究项目更多>>
- 相关领域:自动化与计算机技术文学电子电信更多>>
- 一种基于滑动窗口的数据流频繁项集挖掘算法被引量:11
- 2013年
- 数据流的流动性与连续性,使得数据流所蕴含的知识会随着时间的推移而发生变化。挖掘数据流中的频繁项集是一项意义重大且具有挑战性的工作。提出一种基于滑动窗口数据流的频繁项集挖掘——FIUT-Stream算法,FIUT-Stream算法分块挖掘数据流,在内存中维持一个滑动窗口数据的概要结构,随着窗口滑动动态更新该存储结构,利用FIUT算法进行频繁项集挖掘。实验表明,该算法能节省内存空间、精确获得频繁项集。
- 寇香霞任永功宋奎勇
- 关键词:数据流频繁项集
- 一种基于局部信息的社区发现方法被引量:4
- 2011年
- 针对复杂网络中难以发现小社区的问题,在CNM算法的基础上,提出一种利用局部信息进行社区挖掘的方法。定义节点的强度及节点对社区的贡献,改进模块度使该方法能适用于带权网络。利用社区局部信息得到小社区集合,将小社区集合作为CNM算法的输入,计算小社区间的模块度增量,凝聚模块度增量小的小社区,并得到最终结果。实验结果表明,该方法具有较高的社区模块度和算法执行效率。
- 任永功孙宇奇吕朕
- 关键词:复杂网络聚类图分割
- 基于组合特征的动态垃圾博客过滤算法被引量:2
- 2012年
- 近几年,垃圾博客过滤成为国际上新的热点研究领域。现有的过滤算法大多基于词频特征分类,特征冗余并缺乏关联性。为了解决此问题,提出一种基于组合特征的动态垃圾博客过滤算法(CFDSD),该算法采用作者属性和自相似特征来解决特征冗余和关联性低的问题,并应用贝叶斯分类算法优化词频特征分类。实验表明,该算法能适应博客随时间变化而动态更新的特点,同时提高了过滤效率。
- 任永功尹明飞杨荣杰
- 关键词:贝叶斯分类
- 基于web日志的连续频繁路径挖掘算法被引量:6
- 2008年
- 频繁模式挖掘已成为web使用挖掘的研究热点,本文基于web日志提出一种新的频繁路径的挖掘算法.首先以线性回归方法求解兴趣度,其次将此兴趣度和页面名称作为最基本要素,建立的web浏览树,此浏览树可以完整地表现出web日志中连续、重复的浏览路径,最后在web浏览树上进行分析挖掘频繁浏览路径.该算法经实验证明能更全面地反映用户兴趣所在,挖掘的频繁浏览路径准确、合理.
- 任永功付玉张亮
- 关键词:WEB日志多元线性回归
- 一种基于频繁模式树的最大频繁项目集挖掘算法被引量:7
- 2010年
- 目前提出的频繁项目集挖掘算法大多基于Apriori算法思想,这类算法会产生巨大的候选集并且重复扫描数据库.针对这一问题,给出一种基于频繁模式树的最大频繁项目集挖掘算法FP-MFIA,该算法利用频繁模式树对最大频繁项目集进行检索,通过位图建树的方法有效的减少了扫描数据库的次数,从而节省了CPU的执行时间.另外,此算法运用独特的最大频繁项目集判断策略,同时运用投影技术进行超集检测,提高了遍历的效率,实验结果表明该算法是快速有效的.
- 任永功张亮付玉
- 关键词:频繁项目集最大频繁项目集频繁模式树深度优先搜索
- 一种基于最大频繁项目集的挖掘事务间关联规则方法被引量:5
- 2008年
- Web事务间关联规则挖掘是通过发现网页之间的关联关系来预测用户的兴趣。提出一种新的事务间关联规则挖掘方法,通过对MAFIA算法改进,得到最大频繁项目集的同时得到对应的共有用户集,通过对事务内到事务间最大频繁项目集的转换,分析不同用户之间的关系,分析用户对网站上不同网页的访问数据,直接发现不同用户之间的关联关系来预测用户的兴趣。该方法经试验证明能够更加全面的预测用户感兴趣的网页,更好地为用户提供个性化服务。
- 任永功张琰渝
- 关键词:最大频繁项目集用户兴趣模型
- 均衡时空挖掘数据流中频繁项集被引量:1
- 2011年
- 数据流具有流动性、连续性以及项分布不均衡性等特点,挖掘数据流中频繁项集是一项意义重大且具有挑战性的工作。提出一种均衡时空挖掘数据流中频繁项集算法——Bala_Tree,Bala_Tree实现一遍扫描数据流、快速簇更新、周期树结构重构以及基于经典算法挖掘频繁项集。实验表明,此算法能快速扫描和更新数据,合理利用内存以及精确获得频繁项集,Bala_Tree算法优于其他同类算法。
- 宋奎勇任永功寇香霞
- 关键词:数据流频繁项集
- 一种改进的用户浏览偏爱路径挖掘方法被引量:2
- 2009年
- 提出一种基于"三矩阵"模型的偏爱浏览路径的挖掘方法。在单元数组存储结构(存储矩阵)基础上建立以浏览兴趣度为基本元素的会话矩阵和路径矩阵。在会话矩阵上采用2个页面向量夹角余弦作为相似用户的页面距离公式进行页面聚类,求得相似用户的相关页面集。并利用路径选择偏爱度在相似用户的路径矩阵上挖掘出相似用户的浏览偏爱路径。实验证明,该方法是合理有效的,能够得到更精准的用户偏爱浏览路径。
- 任永功付玉张亮
- 关键词:WEB日志
- 一种结合散列与位表挖掘频繁项目集算法被引量:2
- 2010年
- 在频繁项集的挖掘中,很多算法都是基于Apriori的。这些算法有两个共同的问题:一是把整个数据库装入内存,占用大量的空间;二是在产生候选项集和计算支持度时花费了大量的时间。为了提高效率,提出了一种基于位表挖掘频繁项目集的算法Hash-BFI。按照水平和垂直的方向把数据库压缩到位表内,以大大节省内存空间。引入散列函数计算频繁二项集,完全通过AND,OR运算得到候选项集和计算候选项集支持度,并进行剪枝,从而提高了算法效率。
- 任永功宋奎勇寇香霞
- 关键词:APRIORI频繁项集散列
- DPFS:一种基于动态规划的文本特征选择算法被引量:2
- 2009年
- 在文本特征选择过程中,针对原始特征空间维数过高、计算量过大、并且存在较大不相关性和冗余性,提出了一种基于动态规划思想的文本特征选择算法(DPFS)。首先,结合动态规划思想,基于特征与类别的相关性分析,对原始特征集合进行特征筛选,保留与类别具有强相关性和弱相关性的特征;然后,再次结合动态规划思想,对特征子集做冗余性分析,滤除弱相关且冗余的特征;最后,得到一个近似最优特征子集。实验结果表明,此算法在对数据降维和在降维过程中减少计算量是有效的。
- 任永功林楠
- 关键词:冗余性动态规划