刘彤
- 作品数:21 被引量:45H指数:3
- 供职机构:山东科技大学更多>>
- 发文基金:国家自然科学基金山东省高等学校科技计划项目中国博士后科学基金更多>>
- 相关领域:自动化与计算机技术文化科学交通运输工程生物学更多>>
- 面向搜索引擎查询日志的领域术语自动识别方法被引量:2
- 2016年
- 【目的】为弥补传统基于静态领域语料的领域术语识别方法的不足,提出一种从搜索引擎查询日志中自动识别领域术语的新方法。【方法】使用四部图对查询日志进行抽象描述,并在其上应用流形排序算法得到所有候选术语关于领域度的排序,取排在前列的术语作为领域术语。【结果】在真实搜索引擎的查询日志上实验证实本文方法具有更好的领域术语识别效果,在Precision@n指标上比基准方法提升约20%。【局限】识别到的领域术语的覆盖面部分依赖于领域专家选取的初始查询词,这对领域专家的经验提出一定要求。【结论】该方法无需事先准备大规模领域语料以及大量的人工标注,即可构建高质量的领域术语集合,具有较高的实用价值。
- 刘彤倪维健柳梅
- 关键词:搜索引擎查询日志流形排序
- 基于多头自注意力神经网络的购物篮推荐方法
- [目的]针对用户一次购买多件物品的场景,为用户推荐下一次可能购买的多件物品。[方法]基于多头自注意力神经网络设计一种新的购物篮推荐方法,该方法使用多头自注意力机制捕捉购物篮中不同物品的关系以及融合物品属性信息,并使用具有...
- 倪维健郭浩宇刘彤曾庆田
- 一种适用于不同分类器的样本约简算法
- 2017年
- 现有的样本约简算法多数是针对某种分类器设计的,在实际应用中有一定的局限性。结合聚类算法的思想,设计了一种适用于不同分类器的样本约简算法,核心是选取密度高且距离相对较远的样本点。与其他样本约简算法相比较,该算法可以根据需求获得任意大小的样本子集,并适用于多种分类算法;而对包含噪声点的样本集,算法的分类精度和稳定性均有一定程度的提高。
- 程汝峰梁永全刘彤
- 一种基于频道的推荐方法及装置、存储介质
- 本申请实施例公开了一种基于频道的推荐方法及装置、存储介质,所述方法包括:基于获取到的在至少一个预设统计周期内针对频道的播放历史数据,得到针对至少一个频道的周期性播放视频特征模型;基于获取到的在至少一个预设统计周期内针对目...
- 倪维健刘彤曾庆田邵文倩
- 文献传递
- 面向领域文献的无监督中文分词自动优化方法被引量:9
- 2018年
- 【目的】对现有中文分词方法在领域文献上的分词结果进行调整,以提升领域文献上的分词效果。【方法】对传统中文分词方法处理领域文献的不足进行分析,以此为基础设计一个反映领域文献构词特点的分词指标——词频偏差,并基于该指标提出一个无监督的分词结果优化方法。【结果】基于农业领域语料开展实验,结果表明该方法对比ICTCLAS、THULAC和LTP的分词结果 F1值提升2%-3%,并具有实现简单、参数鲁棒性强的特点。【局限】提升召回率方面效果不佳。【结论】基于词频偏差的分词结果优化算法能够有效提升已有分词结果的准确性,且无需领域词表及人工标注语料,具有良好的领域适用性。
- 倪维健孙浩浩刘彤曾庆田
- 关键词:中文分词
- 面向非平衡数据的若干自然语言处理问题研究
- 统计学习方法由于可以从语料库中自动的获取语言统计知识以用于构建统计模型,且在鲁棒性、准确性上均有一定的优势,因而在自然语言处理领域中得到了广泛的应用。然而,很多自然语言处理问题中不同类别的样本在数量上具有很大的差别,比如...
- 刘彤
- 关键词:统计学习方法不平衡数据自然语言处理
- 文献传递
- 基于多代表点的聚类方法的改进
- 2005年
- CURE算法是一种凝聚的层次聚类算法,它首先提出了使用多代表点描述簇的思想。通过深入分析现有的基于多代表点的层次聚类算法,本文提出了一种新的改进机制,使用了基于影响因子的族代表点选取机制可以发现形状、尺寸更为复杂的族。实验结果表明,该改进取得了更好的聚类结果。
- 刘彤郑永果
- 关键词:代表点聚类方法聚类算法CORE聚类结果
- 一种面向领域文档的结构化检索模型及其在农技处方检索中的应用
- 2015年
- 各种专业领域中的文档往往具有显著的结构化特征,即一篇文档往往是由具有不同表达功能的相对固定的多个文本字段构成,同时这些字段蕴含了相关的领域知识。针对专业文档的结构化和领域化特征,设计了一种面向结构化领域文档的信息检索模型。在该模型中,首先对领域文档集进行挖掘以构建能够反映领域知识的结构化模型,之后以此为基础设计了结构化文档检索算法来为用户查询返回相关的领域文档。选择一类典型的领域文档——农技处方开展了应用研究,利用一份现实的农技处方文档数据集将提出的方法与传统的信息检索方法进行了实验对比分析,并开发了农技处方检索原型系统。
- 刘彤倪维健
- 关键词:信息检索查询扩展
- 一个面向主题的学术文献数据分析工具
- 学术文献数量的迅速增长给科研工作者的文献调研工作带来了巨大的负担,因此设计并实现了一个面向主题的学术文献分析工具,为科研工作者从海量学术文献中快速准确地发现学科研究特性、分析学科发展趋势提供支持.本工具使用Latent ...
- 倪维健柳梅曾庆田刘彤汤建渝
- 关键词:主题模型LDA
- 文献传递
- 一种基于数据迁移的冷启动解决算法
- 2014年
- 在协同过滤技术的实际应用中,提出一种数据迁移和聚类相结合的方法来解决新系统冷启动问题。采用斯皮尔曼秩相关公式度量用户之间的相似度,使用期望最大化聚类算法对原数据集用户进行聚类。对于不同的簇,选取平均打分最高的N个项目作为推荐内容,针对目标数据集的用户,计算用户所属的簇以及对簇的隶属度,按照隶属度比例给用户推荐其所属簇的推荐列表。与TAM算法和CF算法的实验对比结果表明,该算法在解决新系统冷启动问题方面有较好的效果。
- 马远坤梁永全刘彤赵建立李玉军
- 关键词:推荐系统冷启动协同过滤数据迁移期望最大化