韩希先 作品数:44 被引量:78 H指数:4 供职机构: 哈尔滨工业大学 更多>> 发文基金: 国家自然科学基金 国家重点基础研究发展计划 教育部“新世纪优秀人才支持计划” 更多>> 相关领域: 自动化与计算机技术 经济管理 文化科学 更多>>
DBCC-Join:一种新的高速缓存敏感的磁盘连接算法 随着CPU和内存的性能差距越来越大,系统设计者在CPU寄存器和内存之间插入高速缓存来弥补这个差距.高速缓存的数据存取速度远高于内存,所以数据库操作要获得更好的性能就必须考虑充分利用高速缓存.基于磁盘的连接操作是一种常用并... 韩希先 杨东华 李建中文献传递 一种海量数据频繁项集挖掘方法 本发明提供一种海量数据频繁项集挖掘方法,包括:采用频繁项集挖掘算法对原始事务数据集T<Sub>O</Sub>进行挖掘,获得原始事务数据集T<Sub>O</Sub>对应的所有的局部频繁项集;扫描原始事务数据集T<Sub>O... 韩希先 陈剑 赖国骏文献传递 一种有效的海量数据Top-k Dominating查询算法 被引量:4 2013年 在多准则决策支持等多个应用中,top-k dominating查询是一种十分实用的查询,它在潜在的巨大的数据空间中返回k个支配分数最大的元组.现有算法,要么需要为特定的属性组合构建索引,要么需要较大的I/O费用或内存费用,从而无法有效处理海量数据上top-k dominating查询.文中提出一种新的查询算法TDEP,该算法利用以较小代价为每个属性构建的有序列表来有效返回海量数据上的top-k dominating查询结果.文中将TDEP算法的执行明确地分为两个阶段:增长阶段和收缩阶段.在每个阶段,TDEP算法以round-robin方式读取涉及到的有序列表并维护候选元组,直到满足结束条件.文中分析了两个阶段的执行行为,提出一种新的不需要重新读取有序列表的支配分数计算方法.同时,文中还提出有效的早剪切操作,可以有效减少TDEP算法需要维护的候选元组数量.实验结果表明:和现有算法相比,TDEP算法具有较大的性能优势. 韩希先 李建中 高宏关键词:海量数据 TOP-K 大规模数据中非支配的频繁-效用项集的高效挖掘方法 本发明提供了一种大规模数据中非支配的频繁‑效用项集的高效挖掘方法,包括:根据前缀对数据集进行划分和网格存储;根据网格中存储的项的属性值,初始化多层索引链表结构,并按反对角线序读取网格;对于每个网格,将多层索引链表中存储的... 万晓珑 何京璇 韩希先 王金宝海量数据离群点检测中相关子空间搜索方法 本发明属于数据处理技术领域,具体涉及一种海量数据离群点检测中相关子空间搜索方法。该方法主要包括:步骤1,对原始数据进行预处理,构建有序列表集合和哈希分片集合;依次利用预处理得到的所有哈希分片进行自适应相关属性判断,保留无... 万晓珑 徐千惠 韩希先 王金宝基于分类树的P2P电子商务平台搜索机制的研究 随着Internet技术的飞速发展和电子支付手段的日益完善,电子商务已蓬勃发展起来。而基于C/S结构的B2C等电子商务模式的缺点也越来越明显,并已逐步成为电子商务快速发展的制约。网络中海量的商品信息的无组织化使得商品的搜... 韩希先关键词:分类树 搜索机制 查询效率 文献传递 TKEP:海量数据上一种有效的Top-K查询处理算法 在许多应用领域中,top-k查询是一种十分重要的操作,它根据给定的评分函数在潜在的巨大的数据空间中返回k个最重要的对象。不同于传统的TA算法,NRA算法只需要顺序读就可以处理top-k查询,从而适合于随机读受限或不可能的... 韩希先 杨东华 李建中关键词:海量数据 文献传递 TMS:一种新的海量数据多维选择Top-k查询算法 被引量:4 2017年 在许多应用中,Top-k是一种十分重要的查询类型,它在潜在的巨大数据空间中返回用户感兴趣的少量数据.Top-k查询通常具有指定的多维选择条件.分析发现:现有算法无法有效处理海量数据的多维选择Top-k查询.提出了一个基于有序列表的TMS(top-k with multi-dimensional selection)算法,有效计算海量数据上的具有多维选择的Top-k结果.TMS算法利用层次化结构的选择属性网格对原数据表执行水平划分,每一个分片的元组以面向列的模式存储,并且度量属性的列表根据其属性值降序排列.给定多维选择条件,TMS算法利用选择属性网格确定相关网格单元,有效减少需要读取的元组数量,提出双排序方法执行多维选择的渐进评价,并提出有效剪切操作来剪切不满足多维选择条件和分数要求的候选元组.实验结果表明:TMS算法性能优于现有算法. 韩希先 刘显敏 李建中 高宏TKEP:海量数据上一种有效的Top-K查询处理算法 在许多应用领域中,top-k查询是一种十分重要的操作,它根据给定的评分函数在潜在的巨大的数据空间中返回k个最重要的对象.不同于传统的TA算法,NRA算法只需要顺序读就可以处理top-k查询,从而适合于随机读受限或不可能的... 韩希先 杨东华 李建中关键词:海量数据 TOP-K 文献传递 基于TCN-A模型的高效查询负载预测算法 2024年 针对大数据查询领域中出现的由于查询负载随时间动态变化且难以有效预测所导致的数据库管理系统无法及时优化的问题,提出了一种基于新型时间序列预测模型的查询负载预测算法。首先,该算法采用过滤、时域间隔划分以及查询负载构造等技术对原始的历史用户查询进行预处理,得到便于网络模型分析处理的查询负载序列。其次,所提算法以时间卷积神经网络为核心构建时序预测模型,提取查询负载数据的历史变化趋势及自相关性特征,高效地实现时序预测;同时,融入设计的时域注意力机制,对查询负载序列进行重要性加权,保证模型的分析计算效率,提升算法的预测性能。最后,基于上述时序预测模型,充分利用查询间隔时间完成对未来查询负载的精确预测,使得数据库管理系统得以预先实现自身性能调优,以适应工作负载的动态变化。实验结果表明,设计的查询负载预测算法在多个评价指标中均表现出良好的预测性能,并且能够在查询时间间隔内更加精确地预测未来查询负载的变化。 白文超 白淑雯 韩希先 赵禹博