郑文萍 作品数:28 被引量:93 H指数:5 供职机构: 山西大学计算机与信息技术学院 更多>> 发文基金: 国家自然科学基金 山西省回国留学人员科研经费资助项目 山西省自然科学基金 更多>> 相关领域: 自动化与计算机技术 生物学 更多>>
基于双监督网络嵌入的社区发现算法 被引量:1 2022年 针对基于网络嵌入的社区检测算法中节点嵌入和聚类过程独立进行时容易陷入局部极值的问题,文中提出基于双监督网络嵌入的社区发现算法.首先利用图自编码器,得到可保持网络的一阶相似性的节点嵌入.优化模块度,发现拓扑连接紧密的社区.采用自监督聚类优化,发现嵌入空间上相似的社区.引入互监督机制,使发现的社区在模块度优化和自监督聚类这两个角度上具有一致性,同时避免算法陷入局部极值.4个真实网络上的对比实验表明,DSNE性能较优. 郑文萍 王英楠 杨贵关键词:网络嵌入 模块度 一种基于同配性的重叠蛋白质复合体检测算法 2019年 蛋白质复合体在生物过程中具有重要的作用,从蛋白质互作用网络中进行蛋白质复合体检测是后基因时代的一项具有挑战性的任务。种子扩展方法是一种从蛋白质互作用网络中进行重叠蛋白质复合体检测的有效技术。然而,现有方法面临两方面的问题:1)在选择种子结点时通常仅仅考虑了网络中结点的直接邻居之间的连接紧密度,难以充分体现结点在局部邻域子图内的重要性;2)在簇的扩展过程中假设候选结点之间是相互独立的,忽略了候选结点的添加顺序可能对聚类结果带来的影响。为了解决以上问题,文中基于生物网络同配性提出了一种重叠蛋白质复合体检测算法。该算法利用结点的二阶邻域信息来度量结点的重要性,进而选择种子结点,在簇扩展过程中利用同配性实现多个候选结点的批量添加。为了对重叠聚类结果进行评价,提出了一种重叠复合体评价指标F-overlap。与其他复合体检测算法在蛋白质互作用数据集上的对比实验结果表明,所提算法能够有效地进行重叠蛋白质复合体检测。 王杰 梁吉业 赵兴旺 郑文萍一种基于局部路径信息的重叠社区发现算法 2022年 重叠社区发现是复杂网络分析的主要任务之一。针对现有的基于局部扩展和优化的重叠社区发现方法受初始种子节点选择影响较大、适应度函数无法度量节点间多样的连接方式等问题,提出了一种基于局部路径信息的重叠社区发现算法(Local Path Information-based Overlapping Community Detection Algorithm,LPIO)。首先选取局部极大度点作为初始种子节点,并根据社区内节点邻域标签一致性更新社区的种子节点集,避免初始种子节点对算法性能的影响;然后为度量稀疏网络中节点间多样的连接方式,给出了基于局部路径信息的社区适应度函数,扩展种子节点集得到社区结构;最后计算未聚类节点与社区种子集之间的点不重复路径数量,得到未聚类节点与已有社区间的距离,为未聚类节点分配社区。在4个有标签网络和8个无标签网络上,与7个经典重叠社区发现算法进行对比,实验结果表明,所提算法在重叠标准互信息(ONMI)、F1分数、扩展模块度(EQ)等方面表现良好。 郑文萍 王宁 杨贵基于随机游走的改进标签传播算法 被引量:4 2020年 社区发现是挖掘社交网络隐藏信息的一个有用的工具,而标签传播算法(LPA)是社区发现算法中的一种常见算法,不需要任何的先验知识,且运行速度快。针对标签传播算法有很强的随机性而导致的社区发现算法结果不稳定的问题,提出了一种基于随机游走的改进标签传播算法(LPARW)。首先,根据在网络上进行随机游走确定了节点重要性的排序,从而得到节点的更新顺序;然后,遍历节点的更新序列,对每个节点将其与排序在其之前的节点进行相似性计算,若该节点与排序在其之前的节点是邻居节点且它们之间的相似性大于阈值,则将排序在其之前的节点选为种子节点;最后,将种子节点的标签传播给其余的节点,得到社区的最终划分结果。将所提算法与一些经典的标签传播算法在4个有标签的网络和5个无标签的真实网络上进行比较分析,实验结果表明所提算法在标准互信息(NMI)、调整兰德系数(ARI)和模块度等经典的评价指标上的性能均优于其余对比算法,可见该算法具有很好的社区划分效果。 郑文萍 岳香豆 杨贵关键词:复杂网络 随机游走 面向复杂网络的节点相似性度量 被引量:2 2020年 在复杂网络中,度量节点之间的相似性是一项基础且具有挑战性的工作。基于邻域节点的相似性度量仅考虑了节点的邻域信息。基于路径的相似性度量考虑了节点之间的路径信息,使得多数节点与大度节点相似。为了更准确地度量节点之间的相似性且避免多数节点与大度节点相似,定义了每个节点的距离分布,并在此基础上采用相对熵和距离分布提出了一种节点相似性度量方法(DDRE)。DDRE方法通过节点之间的最短路径生成每个节点的距离分布,根据距离分布计算节点之间的相对熵,进而得到节点之间的相似性。6个真实网络数据集的对比实验结果表明,DDRE方法在对称性以及SIR模型中影响其他节点的能力这两方面表现较好。 穆俊芳 梁吉业 郑文萍 刘韶倩 王杰关键词:复杂网络 相对熵 一种基于突变基因网络的癌症驱动通路识别算法 2018年 大型癌症基因组项目(TCGA,ICGC等)产生了大量的癌症组学数据,使人们深入研究癌症变为可能,其中寻找引发癌症的相关突变基因是一个重要挑战。在癌细胞中,基因变异可分为两类:一类是可导致癌症发生的驱动突变(driver mutation),另一类是对癌症发生扩散没有影响的乘客突变(passenger mutation)。识别癌症驱动基因有利于理解癌症发病原理和发展进程以及研发癌症药物或进行靶向治疗,是生物信息学中的重要问题。文中提出一种基于突变基因网络的癌症驱动通路识别算法GNDP,对癌症病人的体细胞突变数据进行分析。该算法定义了非重叠平衡度来度量基因对的位于同一驱动通路的可能性;根据基因对的非重叠平衡度、互斥和覆盖度,构建基因互斥网络,很大程度上减少了网络边数,提高了计算效率;在所构造的基因互斥网络中将查找到的极大团作为潜在驱动通路基因集合;用覆盖度和互斥度对潜在驱动通路基因集合进行筛选,得到其极大权重子团,并将其作为识别出的驱动通路。分别在模拟数据、肺腺癌以及多形性成胶质细胞瘤突变数据上对GNDP算法进行有效性验证,并将其与经典驱动通路识别算法Dendrix和Multi-Dendrix进行实验对比。结果表明,GNDP不需要指定驱动通路的基因个数,能在模拟数据上准确检测出所有人工设置的驱动通路;针对肺腺癌和多形性成胶质细胞瘤突变数据,GNDP在不需要任何先验知识的情况下达到较高的识别准确率,能高效地识别出主要驱动通路,其结果优于对比算法。 郭炳 郑文萍 韩素青关键词:癌症基因组 体细胞突变 基于节点聚类复杂度的图聚类方法 2023年 图聚类可以发现网络中的社区结构,是复杂网络分析中的一项重要任务。针对不同节点的聚类难度各异的问题,提出了一种基于节点聚类复杂度的图聚类算法(Graph Clustering Algorithm Based on Node Clustering Complexity,GCNCC),用于判断节点的聚类复杂度,为聚类复杂度低的节点赋予伪标签,利用伪标签提供的监督信息降低其他节点的聚类复杂度,进而得到网络聚类结果。GCNCC包括节点表示、节点聚类复杂度判别和图聚类3个主要模块。节点表示模块得到保持网络集聚性的表示;节点聚类复杂度判别模块用于判断网络中的低聚类复杂度节点,并利用低聚类复杂度节点的伪标签信息来优化更新网络中其他节点的聚类复杂度;图聚类模块采用标签传播方法,将低聚类复杂度节点标签传播给高聚类复杂度节点,以得到聚类结果。在3个真实的引文网络和3个生物数据集上与9种经典算法进行对比,算法GCNCC在ACC,NMI,ARI和F1等方面均表现良好。 郑文萍 王富民 刘美麟 杨贵关键词:网络嵌入 自噬蛋白Atg4.1和Atg4.4在嗜热四膜虫程序化核降解中的功能分析 自噬通过溶酶体降解生物大分子或细胞器用以维持细胞稳态,是生物体内一种重要的分解代谢过程,不同功能的自噬相关蛋白有序调控这一过程,在不同的生物体中进化出多样化的自噬信号通路。嗜热四膜虫中亲本大核程序性死亡(programm... 郑文萍关键词:嗜热四膜虫 基于最短路径的关键蛋白质识别研究 被引量:1 2011年 关键蛋白质的识别有助于从系统水平上理解生命活动过程,基于蛋白质相互作用网络拓扑特征的关键蛋白质识别可以有效地提高识别精度和速度。通过蛋白质节点的最短路径数和点介数可以作为衡量其节点中心度的方法,但计算速度和计算规模有限。根据所预测蛋白质相互作用网络的特点,提出了基于最短路径技术的关键蛋白质识别方法,选择合理的识别阈值和拓扑参数,对全蛋白质相互作用网络的关键蛋白质进行预测。实验表明,所提出的识别方法可以有效描述蛋白质节点的重要性,在不影响计算精度的前提下,可对连通性好,边密度大的全蛋白质相互作用网络进行关键蛋白质识别。 嘉泽宁 杨贵 郑文萍关键词:蛋白质相互作用网络 最短路径 介数 一种基于相对熵的随机游走相似性度量模型 被引量:5 2019年 针对基于随机游走的节点相似性度量模型中存在的大度节点依赖问题,从信息论的角度提出了一种改进的随机游走节点相似性度量方法:基于相对熵的随机游走相似性度量方法RE model(A random walk similarity measure model based on Relative Entropy).首先根据随机游走模型得到网络中节点的转移概率向量,再计算两个节点转移概率向量的相对熵得到该节点对的相似性.由于转移概率向量给出了从一个特定节点出发经过多步随机游走后到达网络其他所有节点的概率,导致网络中的每个节点在计算相对熵的过程中都被等同看待,并且网络规模的增大会使计算得到的节点间相似性耗时更多且存在较大偏差.根据节点经过多步随机游走后到达网络中影响力较大的节点的转移概率来构造该节点的转移概率分布,计算两个节点的转移概率分布的相对熵以得到网络中节点对之间的差异分数,进而得到网络节点间的相似性矩阵.RE model度量方法降低了传统随机游走相似性度量对于大度节点的依赖性.通过在真实网络数据集上的实验表明,RE model算法在对称性、网络传播及社区发现等方面表现良好. 郑文萍 刘韶倩 穆俊芳关键词:复杂网络 相对熵 随机游走