针对现有网络嵌入方法忽略高阶结构,嵌入过程与社区发现任务独立进行,影响社区发现质量的问题,提出基于双视角网络嵌入聚类集成社区发现算法(community detection algorithm based on dual-view network embedded clustering integration,DNECI),算法包括双视角网络嵌入和聚类集成两部分。双视角网络嵌入模块对网络属性信息与拓扑信息实现自适应融合,保留网络属性信息与拓扑的高阶结构。聚类集成模块包括模块度优化和聚类优化两个组件,模块度优化组件利用高阶拓扑结构得到具有最优模块度的社区结果;聚类优化组件通过自监督聚类方法在嵌入空间得到聚类结果;引入互监督机制使两种视角的社区发现结果具有一致性。在4个真实数据集与15个算法进行对比试验,结果表明,DNECI在准确率和标准互信息至少比最先进的基准算法平均提高2.5%和1.4%,在调整兰德系数和F1分数至少平均提高3.7%和1.7%,具有较好的社区发现效果。
图聚类可以发现网络中的社区结构,是复杂网络分析中的一项重要任务。针对不同节点的聚类难度各异的问题,提出了一种基于节点聚类复杂度的图聚类算法(Graph Clustering Algorithm Based on Node Clustering Complexity,GCNCC),用于判断节点的聚类复杂度,为聚类复杂度低的节点赋予伪标签,利用伪标签提供的监督信息降低其他节点的聚类复杂度,进而得到网络聚类结果。GCNCC包括节点表示、节点聚类复杂度判别和图聚类3个主要模块。节点表示模块得到保持网络集聚性的表示;节点聚类复杂度判别模块用于判断网络中的低聚类复杂度节点,并利用低聚类复杂度节点的伪标签信息来优化更新网络中其他节点的聚类复杂度;图聚类模块采用标签传播方法,将低聚类复杂度节点标签传播给高聚类复杂度节点,以得到聚类结果。在3个真实的引文网络和3个生物数据集上与9种经典算法进行对比,算法GCNCC在ACC,NMI,ARI和F1等方面均表现良好。
复杂网络规模的增大导致网络中社区结构变得复杂,节点与社区之间的关系更多样化,有效度量大规模网络中节点邻域的社区构成,并对社区归属确定性有差异的节点分别进行处理,可以提高算法的社区发现质量。基于此,提出了一种基于节点稳定性和邻域相似性的社区发现算法(Node Stability and Neighbor Similarity Based Community Detection Algorithm, NSNSA)。首先定义节点的标签熵并对节点在社区发现过程中的稳定性进行度量,选择标签熵较低的节点作为稳定节点集;其次根据节点邻域的标签构成情况定义节点的邻域相似性,对节点与其邻居节点的社区归属一致性进行度量;然后利用稳定节点与其直接邻居中邻域相似性最高的节点构造初始网络,并在该子网络上运行标签传播算法,以得到可靠性较高的初始社区发现结果;最后将未聚类节点分配至与其Katz相似性最高的节点所在的社区,对小规模社区进行合并处理,以得到最终的社区划分结果。在真实网络及人工网络数据集上,与LPA,BGLL,Walktrap, Infomap, LPA-S等经典社区发现算法的对比实验表明,NSNSA算法在模块度以及标准互信息方面表现良好。
图聚类算法可以用于发现社会网络中的社区结构、蛋白质互作用网络中的功能模块等,是当前复杂网络研究的热点之一.对网络中节点的相似性和簇发现结果进行合理度量是核心问题.针对此问题,给出了一种基于节点间点不重复路径度量的节点相似性指标.以此为基础提出了一种面向复杂网络的基于“中心-扩展”策略的图聚类算法(A Graph Clustering Algorithm Based on Local Paths between Nodes in Complex Networks,PGC),包括节点相似性计算、中心节点选择、初始簇划分和簇优化四个主要过程.采用点不重复路径对节点相似性进行度量,消除了由大度节点引起较多的点重复路径对节点相似性的影响,提高了算法对大度节点邻域中节点的划分能力.通过与一些经典算法在11个真实网络、22个人工网络数据集上的实验比较分析,结果表明算法PGC在标准互信息、调整兰德系数、F度量、准确度等方面均表现出良好的性能.