夏天
- 作品数:25 被引量:345H指数:8
- 供职机构:中国人民大学信息资源管理学院更多>>
- 发文基金:国家社会科学基金中国人民大学科学研究基金教育部科学技术研究重点项目更多>>
- 相关领域:自动化与计算机技术文化科学政治法律更多>>
- 基于内容代表性评价的关键帧抽取被引量:2
- 2014年
- 视频关键帧提取技术是对视频进行摘要来提高视频内容访问效率的一种操作。传统的方法主要采用聚类的方法,未给出可信的关键帧代表性描述。尝试基于图计算算法实现关键帧抽取,该算法可以将一段视频中候选帧及其之间的关系表示成一个相关图,通过各帧间基于相关性对相邻帧的分值分配进行迭代计算,实现候选帧内容代表性评价;并提出了一种高效的帧间相关性计算方法。该方法通过两帧图像的最大稳定颜色区域(maximally stable colour region,MSCR)的匹配情况判定它们的相关性。在测试视频上将该算法与传统算法进行了对比测试,测试的结果验证了该算法的有效性。
- 顾益军解易夏天
- 关键词:关键帧提取视频
- 基于维基百科的中文文本层次路径生成研究
- 2016年
- 【目的】利用维基百科知识库生成自由文本的层次语义路径。【方法】针对维基百科的中文导出数据,构建层次结构的树状图;进而通过显性语义分析将自由文本表示为文章概念向量,通过文章–类别关联关系将文本映射到树状图中构成种子类别节点,再通过种子节点开始的信息扩散和自顶向下的路径选择与优化,生成层次路径。【结果】首条层次路径的平均相关度在测试集上达到54.10%,前20条路径整体上按相关度降序排序。【局限】未分析显性概念向量在保留不同概念数量时对生成路径质量的影响。【结论】基于维基百科知识库所生成的层次路径结果能够反映文本的主要语义信息。
- 夏天
- 关键词:维基百科
- 中心网页中主题网页链接的自动抽取被引量:4
- 2012年
- 基于扩展标记树,提出了一种从中心网页中自动抽取主题网页链接的方法。首先构建链接有序表,利用链接前缀树发现主题网页链接拒绝规则,实现对网页链接类型的预判定;其次,通过分组分割和相似分组重新合并,把页面中的链接归入到不同分组之中,进而识别分组的类型和核心区域所在的分组,最终把链接归入三类链接集合之中。实验结果表明该方法无需训练即可实现中心网页中主题网页链接的高精度抽取。
- 夏天
- 基于内容代表性评价的关键帧抽取
- 视频关键帧提取技术是对视频进行摘要来提高视频内容访问效率的一种操作.传统的方法主要采用聚类的方法,未给出可信的关键帧代表性描述.尝试基于图计算算法实现关键帧抽取,该算法可以将一段视频中候选帧及其之间的关系表示成一个相关图...
- 顾益军解易夏天
- 关键词:视频图像关键帧提取
- 文献传递
- 词语位置加权TextRank的关键词抽取研究被引量:77
- 2013年
- 把关键词抽取问题看作是构成文档词语的重要性排序问题,基于TextRank基本思想,构建候选关键词图,引入覆盖影响力、位置影响力和频度影响力用于计算词语之间的影响力概率转移矩阵,通过迭代法实现候选关键词分值计算,并挑选前N个作为关键词抽取结果。实验结果表明,对词语位置加权的TextRank方法优于传统的TextRank方法和基于LDA主题模型的关键词抽取方法。
- 夏天
- 关键词:关键词抽取
- 词向量聚类加权TextRank的关键词抽取被引量:60
- 2017年
- 【目的】将维基百科蕴涵的世界知识以词向量方式融入TextRank模型,改进单文档关键词抽取效果。【方法】利用Word2Vec模型基于维基百科中文数据,生成词向量模型,对TextRank词图节点的词向量进行聚类以调整簇内节点的投票重要性,结合节点的覆盖和位置因素,计算节点之间的随机跳转概率,生成转移矩阵,最终通过迭代计算获得节点的重要性得分,选取前TopN个词语生成关键词。【结果】当TopN≤7时,词向量聚类加权方法均优于对比方法;TopN=3时,F值取得最大值,比先前最优结果增量提升了3.374%;TopN>7时,结果与位置加权法相似。【局限】聚类分析使得计算开销变高。【结论】词向量聚类加权能够改善关键词抽取效果。
- 夏天
- 关键词:关键词抽取
- 面向中文学术文本的单文档关键短语抽取被引量:5
- 2020年
- 【目的】自动抽取中文学术文本中的关键短语,为学术文本挖掘提供短语级别的概念表达。【方法】引入内部凝聚度和边界自由度两个指标,分别度量短语内部的紧密程度和短语边界的自由组配能力,实现中文双词短语的权威度计算,并与位置加权关键词抽取结果进行融合排序,在此基础上选取TopN个元素生成关键短语。【结果】在构建的中文学术论文数据集上,关键短语抽取算法PhraseRank在准确率、召回率和考虑排序位置的R-MAP评价指标方面,均大幅度优于传统的关键词抽取算法WordRank,其中,R-MAP值相对提升超过了128%。【局限】未识别三个及以上词语构成的关键短语。【结论】相比于关键词,PhraseRank抽取得到的关键短语,与人工标记结果的一致性更高,更能体现中文学术文本的概念表达特点。
- 夏天
- 关键词:词图
- 汉语词语语义相似度计算研究被引量:83
- 2007年
- 汉语词语的语义相似度计算是中文信息处理中的一个关键问题。该文提出了一种基于知网、面向语义、可扩展的相似度计算新方法,该方法从信息论的角度出发,定义了知网义原间的相似度计算公式,通过对未登录词进行概念切分和语义自动生成,解决了未登录词无法参与语义计算的难题,实现了任意词语在语义层面上的相似度计算。针对同义词词林的实验结果表明,该方法的准确率比现有方法高出近15个百分点。
- 夏天
- 关键词:词语相似度知网
- 基于扩展标记树的网页正文抽取被引量:2
- 2011年
- 本文给出了一种基于扩展标记树的网页正文抽取方法,通过构建网页扩展标记树,实现对网页的清理和抽取辅助信息的完善,并设置节点坐标定位节点位置;以构成正文内容的文本节点作为正文区域标志,挑选具有最大文本覆盖范围的近邻文本节点集,并进行修正形成正文区域;通过近邻优先遍历算法,实现标题节点的定位和附加属性的抽取。实验结果表明:该方法可以实现常规文章类网页的高精度抽取,并具有良好的适应性。
- 夏天
- 寻典范评建共举 促利用用户为先——2022年副省级以上综合档案馆网站和移动服务端建设评估报告
- 2023年
- 当前以网站为主、移动服务端为辅的双重推送方式,已成为档案资源网上利用的主要形式。为进一步掌握全国副省级市及以上(未包括港澳台地区)综合档案馆网站建设现状,促进网站及移动服务端规范建设与管理,国家档案局科技与信息化司与中国人民大学档案学院共同开展了2022年度档案网站和移动服务端绩效评估工作,成立项目课题组,通过人工测评和统计分析,给出优秀案例.
- 夏天杨文张宁
- 关键词:档案网站服务端副省级市档案馆网站档案资源