王生进 作品数:130 被引量:304 H指数:10 供职机构: 清华大学 更多>> 发文基金: 国家高技术研究发展计划 国家自然科学基金 国家重点基础研究发展计划 更多>> 相关领域: 自动化与计算机技术 文化科学 电子电信 交通运输工程 更多>>
基于语义嵌入学习的特类视频识别 2023年 暴力视频传播已经成为网络环境治理面临的隐患之一,暴力视频这类特类视频的智能识别技术对维护互联网内容安全具有重要意义.由于采集来源的多样性,暴力视频分布通常呈现较大的类内方差和较小的类间方差,常见的暴力视频识别模型难以适应复杂多变的暴力场景.同时,暴力一词本身具有高度抽象的语义,如何从有限数据中学习通用的暴力语义表示成为一大难点.针对这些问题,本文基于语义嵌入学习的思想,构建了一种新颖的多模态暴力视频识别模型,主要由三部分构成.(1)多模态特征提取.考虑到视频具有多模态属性,采用了三种不同的深度神经网络分别提取表观、运动、音频三种模态的特征表示.(2)多模态特征融合.为获得鲁棒的通用视频表示,设计了一种轻量级的多模态特征融合模块(Multimodal Efficient Fusion Module,MEFM),该模块包括共享空间映射与多模态特征交互两部分,在对多模态特征进行充分交互的同时,又能够有效抑制不同模态信息之间的干扰.(3)语义嵌入学习.为适应不同数据分布的暴力数据集,提出了一种基于语义嵌入的多任务学习方法,通过引入中心损失构建暴力语义中心,并采用余弦嵌入损失将暴力样本向中心聚合、非暴力样本进行离散,形成具有语义判别性的特征表示,从而增强了模型的泛化能力,减少了数据噪声的干扰.在VSD2015,Violent Flows和RWF-2000三个公开数据集上的实验表明,本文提出的暴力视频识别模型较已有方法分别提升了4.79%,0.81%和1.5%,取得了具有竞争力的结果. 吴晓雨 蒲禹江 王生进 刘子豪关键词:多任务学习 面向人口信息人像比对应用的人像比对算法研究 被引量:2 2017年 随着社会各行业对有效的自动身份认证的迫切需求,生物特征识别技术在近几十年取得了飞速的发展。作为人的一种内在属性,人脸具有很强的自身稳定性和个体差异性,并且具有非强制性、非接触性和并发性等特点,成为了自动身份验证最理想的依据。因此人脸识别一直是模式识别领域的热点研究课题。文章首先对人像比对应用的研究背景和意义进行了简要介绍;然后介绍了面向人口信息人像比对应用的人像比对算法流程;其次针对人脸检测、人脸关键点定位和人脸识别这三项关键技术,分别介绍了三者的基本原理和处理流程、研究现状以及存在的问题;最后进行了总结。 康凯 王重道 王生进 范英关键词:人脸检测 人脸识别 数字监控系统中基于阴影消除的目标自动提取 2004年 智能视频监控系统需要从静止摄像头拍摄的实际视频序列中抽取并跟踪运动物体,剔除物体的阴影区域。为此,本文提出一种基于图像边界差值信息的消除阴影的前景检测算法,利用阴影区域图像的边界信息与背景相比基本保持不变的特征,抽取输入图像与背景边沿特征的差值。这样图像前景区域特别是边界附近差值比较大,而背景和阴影区域差值比较小。接着本文采用基于固定网格的围线模型,从图像的外框开始,由外向内收敛,最后收敛围线就是前景物体的边界。实验结果表明,与其他前景检测算法相比,本文算法效率高,前景检测准确率高,可以非常好地消除图像噪声、室内阴影和室外弱阴影。 黄英 丁晓青 王生进关键词:公路交通 SNAKE模型 ReID2.0:从行人再识别走向人像态势计算 2023年 行人再识别(person re-identification,Person ReID)指利用计算机视觉技术对在一个摄像头的视频图像中出现的某个确定行人在其他时间、不同位置的摄像头中再次出现时能够辨识出来,或在图像或视频库中检索特定行人。行人再识别研究具有强烈的实际需求,在公共安全、新零售以及人机交互领域具有潜在应用,具备显著的机器学习和计算机视觉领域的理论研究价值。行人成像存在复杂的姿态、视角、光照和成像质量等变化,同时也有一定范围的遮挡等难点,因此行人再识别面临着非常大的技术挑战。近年来,学术界和产业界投入了巨大的人力和资源研究该问题,并取得了一定进展,在多个数据集上的平均准确率均值(mean average precision,mAP)有了较大提升,并部分开始实际应用。尽管如此,当前行人再识别研究主要还是侧重于服装表观的特征,缺乏对行人表观显式的多视角观测和描述,这与人类观测的机理不尽相符。本文旨在打破现有行人再识别任务的设定,形成对行人综合性观测描述。为推进行人再识别研究的进展,本文在前期行人再识别研究的基础上提出了人像态势计算的概念(ReID2.0)。人像态势计算以像态、形态、神态和意态这4态对人像的静态属性和似动状态进行多视角观测和描述。构建了一个新的基准数据集Portrait250K,包含250000幅人像和对应8个子任务的手动标记的8种标签,并提出一个新的评价指标。提出的人像态势计算从多视角表观信息对行人形成综合性的观测描述,为行人再识别2.0以及类人智能体的进一步研究提供了参考。 王生进 豆朝鹏 樊懿轩 李亚利关键词:计算机视觉 多方向线积分的梯度特征 被引量:1 2011年 典型的梯度特征包括HOG(梯度方向直方图)、Shapelet及Edgelet等,这些特征被广泛用于目标检测、目标识别、图像检索及场景分类等领域。针对HOG特征运算复杂度高的问题,提出了一种新的多方向线积分的梯度特征(MDIG)。通过避免计算梯度方向并利用积分图,该特征简化了计算过程,提高了计算速度,因而便于在DSP等硬件上实现。实验中新特征被应用于人体头肩检测。实验结果表明当使用AdaBoost算法训练分类器时,该特征的描述能力与HOG相当,同时其计算时间仅为HOG的1/3,整体性能优于HOG。最后,针对梯度特征的适用范围对其未来应用的发展方向进行了讨论。 何飞 李亚利 鹿文浩 王生进 丁晓青关键词:梯度特征 梯度方向直方图 基于中层时空特征的人体行为识别 被引量:3 2015年 目的人体行为识别是计算机视觉领域的一个重要研究课题,具有广泛的应用前景。针对局部时空特征和全局时空特征在行为识别问题中的局限性,提出一种新颖、有效的人体行为中层时空特征。方法该特征通过描述视频中时空兴趣点邻域内局部特征的结构化分布,增强时空兴趣点的行为鉴别能力,同时,避免对人体行为的全局描述,能够灵活地适应行为的类内变化。使用互信息度量中层时空特征与行为类别的相关性,将视频识别为与之具有最大互信息的行为类别。结果实验结果表明,本文的中层时空特征在行为识别准确率上优于基于局部时空特征的方法和其他方法,在KTH数据集和日常生活行为(ADL)数据集上分别达到了96.3%和98.0%的识别准确率。结论本文的中层时空特征通过利用局部特征的时空分布信息,显著增强了行为鉴别能力,能够有效地识别多种复杂人体行为。 王泰青 王生进基于非刚性ICP的三维人脸数据配准算法 被引量:9 2014年 三维人脸扫描数据的配准是三维人脸统计学习的基础和前提。为了解决离散点群数据的精确配准问题,该文提出一种融合弹性形变的非刚性最近点迭代(ICP)三维人脸数据配准算法。该算法利用稀疏的特征点逐步形变一个高分辨率的三维模板网格(模板三维人脸)以逼近三维人脸扫描数据(目标三维人脸)。此形变过程可以建模为一个关于模板人脸上每个顶点的仿射变换的优化问题。此外,该算法通过引入弹性形变在不损失配准精度的前提下加速了配准过程。在此基础上,该文提出一种融合弹性形变和三维配准的三维人脸的头部缺失数据补齐算法,使得三维人脸模型更具有真实感和完整性。实验表明,该算法比一种目前较为广泛应用的人脸头部补齐算法更具鲁棒性。 林源 梁舒 王生进关键词:三维人脸 非刚性配准 一种多视角运动目标检测、定位与对应方法 本发明公开了一种多视角运动目标检测、定位与对应方法,属于视频监控技术领域。所述方法包括如下步骤:对多个视角的视频图像进行前景检测,得到二值前景图像;根据所述二值前景图像,建立空间场模型,在所述空间场模型中进行三维重建,得... 丁晓青 徐剑 吴佑寿 王生进文献传递 一种泛化行人检索特征学习方法和装置 本发明提供一种泛化行人检索特征学习方法和装置,该方法包括:确定无标注的行人检索视频训练集;对训练集进行视频帧间隔采样,得到视频帧训练样本;将视频帧训练样本输入行人检索网络模型,确定行人检索网络模型输出的行人检索训练正样本... 王生进 豆朝鹏光学遥感图像场景分类技术综述和比较 被引量:13 2019年 近年来,随着遥感成像技术的快速发展,高空间分辨率光学遥感图像的获取变得越来越便利。在需求的牵引和图像数据的支持下,光学遥感图像场景分类技术获得快速发展。基于主流英文期刊和会议发表的相关论文,从场景分类方法、分类性能评价准则和数据集、分类性能比较3个方面对光学遥感图像场景分类技术进行综述和比较。对于场景分类方法,按所用特征的不同将其分为基于人工设计特征和基于深度特征的方法并进行了详细论述。对于分类性能评价准则和数据集,重点介绍了常用的2种评价准则和4种数据集。对于分类性能,挑选多种有代表性的方法,对其分类性能进行比较和分析,并提出后续重点研究方向。 李晓斌 江碧涛 江碧涛关键词:光学 遥感