娄铮铮 作品数:21 被引量:153 H指数:6 供职机构: 郑州大学 更多>> 发文基金: 国家自然科学基金 河南省科技攻关计划 更多>> 相关领域: 自动化与计算机技术 交通运输工程 电气工程 更多>>
基于IB方法的无冗余多视角聚类 被引量:6 2013年 针对数据中多视角模式挖掘的问题,提出一个基于IB方法的无冗余多视角聚类算法:NrMIB.该算法一方面采用IB思想来最大化地保存聚类结果中的信息量,以确保高质量的聚类结果;另一方面通过最小化聚类结果与已知数据划分模式间的互信息来确保新的聚类结果相对于已知划分模式是无冗余的.NrMIB算法既适宜于分析共现数据,又适宜于分析欧氏空间非共现数据,可挖掘出数据中线性及非线性可分模式,无需额外参数来估算欧氏空间的信息量.在人工构造数据模式识别、人脸识别和文档聚类上的实验结果表明,NrMIB算法可有效地挖掘出数据中所蕴含的多个合理划分模式,性能优于传统单视角聚类算法及3个现有的无冗余多视角聚类算法. 娄铮铮 叶阳东 刘瑞娜关键词:聚类 互信息 基于并行信息瓶颈的多语种文本聚类算法 被引量:2 2017年 聚类算法在抽取文本数据中的模式结构时,忽略多个语种信息之间潜在的互补作用,得到的模式结构不能充分反映数据的内在信息.针对此问题,文中提出基于并行信息瓶颈的多语种文本聚类算法.首先使用词袋模型为文本数据的不同语种信息构建相应的相关变量.然后将多种相关变量引入并行信息瓶颈方法,通过最大化地保存模式结构与多个相关变量之间的信息,使得到的模式结构能够反映数据的多个语种信息.最后提出基于信息论的抽取合并方法优化文中算法的目标函数,保证其收敛到局部最优解.实验表明,文中算法能有效处理文本数据的多个语种信息,性能优于单语种聚类算法和现有的两类能够处理文本多语种信息的聚类算法. 闫小强 卢耀恩 娄铮铮 叶阳东关键词:多语种 文本聚类 信息最大化 基于数据选择模型的IB算法 被引量:2 2014年 针对数据对象自身模式特征明确程度的不同给IB(Information Bottleneck)方法数据分析带来的问题,定义一个"基于明确因素"的数据选择模型,使得IB方法可从数据集中选取模式特征较为明确的数据对象并对其进行模式分析,提出DSIB(Data Selection Information Bottleneck)算法.DSIB算法采用数据压缩过程中所产生的信息损失作为数据对象模式特征是否明确的判定条件,使用"边选择边学习"的顺序"抽取-合并"策略来优化DSIB目标函数.实验结果表明:随着数据选择标准的不断提高,DSIB算法在提高数据分析精度的同时所牺牲的召回率较小;与未做选择的数据分析算法相比,DSIB算法可更好地识别出数据中所固有的内在模式. 娄铮铮 杨晨 叶阳东关键词:数据选择 一种基于YOLOX_s的雾天场景目标检测方法 2024年 文中提出了一个基于深度可分离卷积和注意力机制的雾天目标检测模型,旨在实现在雾天场景中对目标的快速、准确检测。该模型由去雾模块和检测模块组成,并在训练过程中共同训练。为确保模型在雾天场景中检测的准确性和实时性,在去雾模块方面,采用AODNet对输入图像进行去雾处理,以降低雾对图像中待检测目标的干扰,在检测模块中使用改进后的YOLOX_s模型,输出目标的分类置信度和位置坐标。为提升网络的检测性能,在YOLOX_s基础上采用深度可分离卷积和注意力机制来提高特征提取能力,扩大特征图感受野。所提模型能提高有雾场景中模型的检测精度,且不增加模型参数量和计算量。实验结果表明,所提模型在RTTS数据集和合成有雾目标检测数据集上均表现出色,有效提高了模型在雾天场景中的检测精度。与基准模型相比,平均精度(mAP@50_95)分别提升了1.9%和2.37%。 娄铮铮 张欣 胡世哲 吴云鹏关键词:目标检测 图像去雾 从IB方法的角度试谈机器学习与人类学习之关联 2016年 信息是海量的,信息的载体是数据。当我们首次面临海量的信息数据时,在无任何先验知识的情况下,是无法驾驭这些信息的。此时,海量的信息对于我们来说是无形的、不可控的。人们期望将这些无形的信息变成有形,不可控的信息变成可驾驭的,以便更好地理解、认知数据。 娄铮铮 张朝阳关键词:信息数据 先验知识 基于最大化交叉互信息的对称IB算法 被引量:3 2016年 对称IB(Symmetric Information Bottleneck)通过行、列压缩变量之间的相互协作来挖掘数据中的双向压缩模式.由于行、列压缩变量不能完全承载行、列基层变量中所蕴含的特征信息,从而导致对称IB所得的数据双向压缩模式与基层变量所蕴含的内在模式之间存在一定的偏离.针对该问题,通过最大化地保存压缩变量与基层变量交叉之间的互信息,将基层变量引入到数据的双向压缩中,使它们协助压缩变量共同来学习联合分布中的双向压缩模式,提出交叉对称IB:ICSIB(Inter-Correlated Symmetric Information Bottleneck).ICSIB算法采用交错的顺序"抽取-合并"迭代过程来优化压缩变量与基层变量交叉之间的互信息,可保证得到目标函数的一个局部优解.实验结果表明,在基层特征变量的协助下,ICSIB算法得到的数据双向压缩模式更接近于数据中真实的内在模式,并可有效地应用于数据的联合聚类中. 娄铮铮 叶阳东关键词:联合聚类 数据挖掘 一种双重加权的多视角聚类方法 被引量:10 2020年 在大数据时代下,如何利用多源异构数据中的互补信息来识别数据中的簇模式,是多视角聚类研究中的热点问题.然而,大多数现有的多视角聚类方法只在基于内容的特征表示上(如基于k-means的加权多视角聚类方法)或基于上下文的相似度表示上(如基于谱聚类的加权多视角聚类方法)学习和施加权重,未能同时考虑这两种表示以充分地表达出视角内部固有的信息.另外,大多数加权多视角聚类方法需要引入额外的参数以控制视角权重的分布,但是,在没有任何先验知识的前提下,很难人为选择出恰当的权重控制参数.针对上述问题,提出了一种双重加权的多视角聚类算法DWMVC.它通过互信息自动学习视角权重,并将这些权重施加到基于内容和基于上下文的多视角数据表示上,以便于充分利用两种数据表示下的视角互补信息.构造了一个基于信息瓶颈的目标函数,在压缩这两种数据表示的同时最大限度地保留着相关特征和相似度信息.最后,设计了一种顺序的优化方法,以保证模型收敛到局部最优解.在多种多视角数据集上的实验结果表明,该方法优于目前先进的单视角和多视角聚类方法. 胡世哲 娄铮铮 王若彬 闫小强 叶阳东关键词:信息瓶颈 互信息 面向铁路文本分类的字符级特征提取方法 被引量:3 2021年 铁路文本分类对于我国铁路事业的发展具有重要的实用意义。现有的中文文本特征提取方法依赖于事先对文本的分词处理,然而面向铁路文本数据进行分词的准确率不高,导致铁路文本的特征提取存在语义理解不充分、特征获取不全面等局限性。针对以上问题,提出了一种字符级特征提取方法CLW2V(Character Level-Word2Vec),有效地解决了铁路文本中专业词汇丰富且复杂度高所导致的问题。与基于词汇特征的TF-IDF和Word2Vec方法相比,基于字符特征的CLW2V方法能够提取更为精细的文本特征,解决了传统方法依赖事先分词而导致的特征提取效果不佳的问题。在铁路安监发牌数据集上进行的实验验证表明,面向铁路文本分类的CLW2V特征提取方法优于传统的依赖分词的TF-IDF和Word2Vec方法。 鲁博仁 胡世哲 娄铮铮 叶阳东关键词:特征提取方法 文本分类 基于KL-Ball的社区挖掘方法 被引量:1 2021年 针对邻接矩阵的稀疏特性,采用KL散度来计算网络节点间的距离,提出了一种基于KL-Ball的社区挖掘方法。该方法中,一个KL-Ball代表一个社区,它从质心、半径、互信息及密度4个方面来描述社区,其中质心决定了社区在网络中的位置,半径刻画了社区所能覆盖的范围,互信息度量了社区中包含节点的一致性,密度反映了社区包含节点的数量。给定一个半径,期望从复杂网络中寻找具有低信息、高密度的社区,低信息使得社区包含的节点具有较强的一致性,高密度使得一个社区具有较强的凝聚性。为此,定义了一个基于KL-Ball的社区挖掘目标函数,给出它的优化算法,并从理论上证明了该算法的收敛性。依据社区半径的大小及质心的位置,该算法可应用于非重叠社区挖掘以及重叠社区挖掘。实验结果表明,基于KL-Ball的社区挖掘方法可有效地挖掘网络中蕴含的社区结构,包括非重叠的社区及重叠的社区。 娄铮铮 王冠威 李辉 吴云鹏关键词:KL散度 基于IB方法的无冗余多视角聚类 针对数据中多视角模式挖掘的问题,提出一个基于IB方法的无冗余多视角聚类算法:NrMIB.该算法一方面采用IB思想来最大化地保存聚类结果中的信息量,以确保高质量的聚类结果;另一方面通过最小化聚类结果与已知数据划分模式间的互... 娄铮铮 叶阳东 刘瑞娜关键词:数据处理 文献传递