薛源海
- 作品数:14 被引量:5H指数:2
- 供职机构:中国科学院计算技术研究所更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划国家重点基础研究发展计划更多>>
- 相关领域:自动化与计算机技术理学文化科学更多>>
- 一种基于相似话题的流行度预测方法及系统
- 本发明提出一种基于相似话题的流行度预测方法和系统,基于KSC算法对历史话题的流行度序列聚类,得到话题级别的演化模式,按照待预测话题的观测窗口和预测窗口大小,对各历史话题的流行度序列进行切分得到训练数据的输入和输出,使用各...
- 郭岩解伟凡匡广生余智华薛源海沈华伟刘悦俞晓明程学旗
- 文献传递
- 面向网页的阅读理解模型的训练方法、装置、存储介质
- 本发明提出一种面向网页的阅读理解模型的训练方法、装置、存储介质,该方法包括:获取网页基于DOM树结构的路径信息,利用该路径信息表征网页的逻辑结构信息表示;获取网页基于网页快照的坐标信息,利用该坐标信息表征网页的空间结构信...
- 郭岩黄婉仪陈银鹏吴昱明薛源海刘悦沈华伟程学旗
- 信息检索中的带权邻近度度量研究被引量:1
- 2014年
- 信息检索需要解决的主要问题是为信息索取者提供相关、准确甚至完整的信息.大量的传统检索模型基于词袋假设进行建模,不考虑查询词之间的相互联系.词项邻近度信息在现有的研究中常被用于提升经典信息检索模型的检索效果,但大部分工作没有考虑查询中各个词重要性的差异.在现代信息检索的查询请求中,查询词之间不仅不完全相互独立,而且分别具有不同的重要程度.因此,在计算邻近度信息时对查询词的重要性进行区分,将有助于提高检索效果.带权邻近度BM25模型(WP-BM25)使用待检索数据集的背景信息对查询词的重要性进行区分,并将带权邻近度度量方法整合到BM25模型中.在TREC评测的3个标准数据集FR88-89,WT2G和WT10G上的一系列对比实验表明,该模型具有较好的鲁棒性,且能够使检索效果得到显著提升.
- 薛源海俞晓明刘悦关峰程学旗
- 关键词:信息检索
- 基于自适应权重的语义检索模型融合方法及系统
- 本发明提出一种基于自适应权重的语义检索模型融合方法,包括:以检索信息进行稀疏检索,获取稀疏检索结果及对应的稀疏排序分值;以该检索信息进行稠密检索,获取稠密检索结果及对应的稠密排序分值;构建权重预测模型,基于该检索信息、该...
- 薛源海夏浩耘贺广福陈翠婷俞晓明沈华伟程学旗
- 基于“挖洞”思想的数独游戏生成算法被引量:2
- 2009年
- 设计一个算法用以生成各种难度等级的数独题,通过对游戏规则的分析,首先从以下三个方面定义难度等级:已知格总数、已知格的分布和穷举搜索复杂度.本算法采用"挖洞"思想,经过以下两步生成数独题:1)运用拉斯维加斯随机算法生成一个终盘;2)采用以下五个操作"抹去"一部分数字来生成数独题:①根据所需要的难度等级选取一种挖洞顺序;②制定两个约束来控制已知格的分布;③通过深度优先搜索来求解,从而保证"挖去"一个数字后该数独题仍有唯一解;④引入剪枝技术来避免无效的"挖洞"尝试;⑤对"挖"好"洞"的数独题进行等效对称变换,以增加题目的多样性.可以生成游戏者所需要的任意5种难度的数独题.经过对算法时间和空间复杂度的分析,论证了本算法的有效性.对"挖洞法"的研究成果可总结为以下三个方面:1)通过对"挖洞"顺序的大量试探,找到了可生成高难度数独题的"挖洞"顺序;2)采用反证法来判断一个数独题解的唯一性;3)通过避免"回溯"和"重填"来降低算法的运行时间.
- 薛源海蒋彪彬李永卓闫桂峰孙华飞
- 关键词:剪枝反证法
- 多文档短摘要生成技术研究被引量:2
- 2019年
- 自动摘要技术用于将较长篇幅的文章压缩为一段较短的能概括原文中心内容的文本。多文档冗余度高,电子设备所展示的空间有限,成为摘要发展面临的挑战。本文提出融合图卷积特征的句子粗粒度排序方法。首先将句子之间的相似度矩阵视为拓扑关系图,对其进行图卷积计算得到图卷积特征。然后通过排序模型融合图卷积特征以及主流的抽取式多文档摘要技术对句子进行重要度排序,选取排名前四的句子作为摘要。最后提出基于Seq2seq框架的短摘要生成模型:①在Encoder部分采用基于卷积神经网络(CNN)的方法;②引入基于注意力的指针机制,并将主题向量融入其中。实验结果表明,在本文场景下,相较于循环神经网络(RNN),在Encoder部分基于CNN能够更好地进行并行化,在效果基本一致的前提下,显著提升效率。此外,相较于传统的基于抽取和压缩的模型,本文提出的模型在ROUGE指标以及可读性(信息度和流利度)方面均取得了显著的效果提升。
- 张随远薛源海俞晓明俞晓明刘悦
- 关键词:多文档
- 一种大数据场景下的数据分割方法
- 本发明实施例提供了一种大数据场景下的数据分割方法,包括:获取探测区间,确定待分割的数据集合中属于探测区间内的区内数据条数;在区内数据条数不处于预定的容忍范围内时,对探测区间的右端点进行一次或者多次指数型调整直至得到使得区...
- 贺广福薛源海陈翠婷俞晓明刘悦沈华伟程学旗
- 文献传递
- 基于查询性能预测的鲁棒检索排序研究
- 2016年
- 信息检索技术致力于从海量的信息资源中为用户获取所需的信息。相较于传统的简单模型,近些年来的大量研究工作在提升了检索结果平均质量的同时,往往忽略了鲁棒性的问题,即造成了很多查询的性能下降,导致用户满意度的显著下降。本文提出了一种基于排序学习的查询性能预测方法,针对每一个查询,对多种模型得到的检索结果列表进行预测,将其中预测性能最优的检索结果列表展示给用户。在LETOR的三个标准数据集OHSUMED、MQ2008和MSLR-WEB10K上的一系列对比实验表明,在以经典的BM25模型作为基准的情况下,与当前最好的检索模型之一LambdaMART相比,该方法在提升了检索结果平均质量的同时,显著地减少了性能下降的查询的数量,具备较好的鲁棒性。
- 薛源海俞晓明刘悦关峰程学旗
- 基于演化模式的推特话题流行度预测方法
- 2022年
- 针对以往流行度预测方法未利用演化模式之间的差异和忽略预测时效性的问题,提出了一种基于演化模式的推特话题流行度预测方法。首先,基于K⁃SC算法对大量历史话题的流行度序列进行聚类,并得到6类演化模式;然后,使用各类演化模式下的历史话题数据分别训练全连接网络(FCN)作为预测模型;最后,为选择待预测话题的预测模型,提出幅度对齐的动态时间规整(AADTW)算法来计算待预测话题的已知流行度序列与各演化模式的相似度,并选取相似度最高的演化模式的预测模型进行流行度预测。在根据已知前20 h的流行度预测后5 h的流行度的任务中,与差分整合移动平均自回归(ARIMA)方法以及使用单一的全连接网络进行预测的方法相比,所提方法的预测结果的平均绝对百分比误差(MAPE)分别降低了58.2%和31.0%。实验结果表明,基于演化模式得到的模型群相较于单一模型能更加准确地预测推特话题流行度。
- 解伟凡郭岩匡广生余智华薛源海沈华伟
- 关键词:社交网络时间序列
- 一种基于实体增强的文本语义表示方法及系统
- 本发明提出一种基于实体增强的文本语义表示方法和系统,包括:获取文本编码模型和实体增强编码模型,实体增强编码模型由串联的外部实体向量表示模块和上下文相关的实体信息编码模块组成;通过文本编码模型提取目标文本的第一表示向量;以...
- 薛源海夏浩耘陈翠婷贺广福俞晓明沈华伟程学旗