杨燕燕
- 作品数:7 被引量:3H指数:1
- 供职机构:中国人民公安大学更多>>
- 发文基金:中国科学院战略性先导科技专项更多>>
- 相关领域:自动化与计算机技术政治法律更多>>
- 基于会话机器人的深暗网威胁情报自动套取方法
- 2024年
- 深暗网因其强隐匿性、接入简便性和交易便捷性,滋生了大量非法活动。加密即时通信工具Telegram因强大的匿名保护机制,成为广受欢迎的深暗网威胁活动交流渠道,不法分子在群聊中发布敏感消息或广告,吸引感兴趣的成员私聊具体细节。从监管的角度来看,与不法分子的私聊通信中存在大量有价值的情报,伪装身份与不法分子展开针对性会话来套取有价值威胁情报,而不是在大量无意义消息中抽取有价值情报,有助于提高目标情报收集的质量与效率。针对上述问题提出了一种基于会话机器人的深暗网威胁情报自动套取方法,通过调用会话生成能力优越的ChatGPT自动生成与可疑人物的多轮会话内容,解决人工进行搭话成本高、效率低的问题;利用大语言模型的知识储备与上下文学习能力解决深暗网对话语料不足的启动困难问题。实验表明,此方法能够以高质量的多轮会话自动套取情报,具有现实意义,并为后续开展网络犯罪领域自动化交互的研究工作指引了方向。
- 霍艺璇赵佳鹏时金桥王学宾杨燕燕孙岩炜
- 关键词:人工智能
- 基于内存分析的计算机动态取证工具的设计与实现被引量:1
- 2013年
- 面对日益猖獗的计算机犯罪,计算机犯罪侦查、取证难,特别是一纵即逝的动态数据证据,影响了侦查办案的时机和对犯罪分子的定罪量刑。通过剖析Linux系统的内存结构,分析进程的活动情况,确定侦查线索和犯罪证据,并通过相关软件系统的设计与实现,可视化展示这些动态数据,为公安机关侦查办案人员提供有效的辅助办案工具。
- 杨燕燕魏丰国王斌君
- 关键词:取证工具GNOME
- 低开销的匿名通信群组威胁人物挖掘方法
- 2024年
- 深暗网因其强隐匿性、接入简便性和交易便捷性,滋生了大量非法活动,如推广网络博彩、贩卖毒品等.随着网络社交方式的更新,加密即时通信工具Telegram中的群组成为不法分子推广黑灰产、买卖资源和工具的聚集地,大量不法分子利用Telegram的匿名功能在对内容无限制、消息短、文字难理解的群组中推动业务而逃避监管,严重威胁国家社会稳定和网络安全.如果能够基于对群组中大量低信息量内容的分析,挖掘大批量潜在威胁人物,将为监管、治理和打击部门提供更多有价值的线索.本文提出一种低开销的匿名通信群组威胁人物挖掘方法,通过调整文本中网络公害流行术语的重要程度优化内容分析质量,融合大语言模型的强大知识储备和生成能力,对群组内容进行无监督的高质量动态时序主题提取与可视化统计分析.实验结果表明,与传统分类做法相比,本文方法大大降低了人工标注成本,提升了威胁人物挖掘的数量和质量,加深了对网络公害生态的理解,具有现实意义.
- 霍艺璇赵佳鹏时金桥齐敏孙岩炜王学宾杨燕燕
- 关键词:文本挖掘主题建模
- 一种利用注意力增强卷积的暗网用户对齐方法
- 2023年
- 暗网用户在地下市场从事大量违法犯罪活动,暗网的匿名性给暗网用户之间的沟通交流带来了极大的便利,但也给执法人员带来了极大困难。近年来,深度神经网络在各个领域取得广泛成功,越来越多的研究者开始利用神经网络对匿名的网络文本作者进行身份识别。为了更好地进行暗网用户对齐,寻找更多同一身份的不同用户,笔者借用神经网络方法进行暗网用户身份识别和对齐。然而已有的方法主要面向短文本,不擅长处理全局和长序列信息。文中提出了一种自注意机制来增强卷积算子,利用长序列信息来建模暗网用户发表的网络文本的方法,从文本内容入手,对匿名的暗网用户进行多账号关联,达到聚合多个匿名账号信息的目的,为获取用户的真实身份提供更多线索。笔者在两个不同的暗网市场论坛进行全面评估,将提出的方法与当前最先进的技术进行了比较。结果表明提出的方法非常有效,在两个公开数据集上平均检索排名(MRR)分别提高约2.9%和3.6%,Recall@10分别提高约2.3%和3.0%。这项评估为该方法在暗网市场论坛中的有效性提供了强有力的证据。
- 杨燕燕杜彦辉刘洪梦赵佳鹏时金桥王学宾
- 关键词:卷积算子
- 暗网多平台用户身份对齐方法研究
- 网络攻击、非法交易和网络谣言等网络公害严重影响社会稳定和国家安全。随着国家管控力度加大,其生存空间逐渐由明网向深暗网等匿名空间转移。网络公害匿名化给执法人员的侦察和取证工作带来挑战,是网络空间管控领域一大难题。对网络用户...
- 杨燕燕
- 关键词:信息抽取
- 暗网网页用户身份信息聚合方法被引量:1
- 2023年
- 暗网网页中用户身份标识信息的分布呈现出稀疏、不规律的特点,当前主流的信息聚合技术无法直接应用于该场景。提出一种基于共指关系抽取的用户身份信息聚合模型,该模型输入一对用户身份信息及其上下文语境,返回该信息对是否包含共指关系,并且构建相应的用户身份信息数据集用于聚合实验。为进一步提升模型的识别能力,在基线模型的基础上引入实体类别信息,提出实体类别敏感的共指关系抽取模型。针对暗网中通过某些身份类别信息无法获取足够多训练样本的问题,引入少样本学习任务,构建基于多任务的低资源条件下用户身份信息聚合模型。实验结果表明,在低资源条件下,经过优化的聚合模型F1值达到87.03%,较基线模型提升11.98个百分点。
- 王雨燕赵佳鹏时金桥申立艳刘洪梦杨燕燕
- 关键词:暗网信息聚合关系抽取多任务学习
- 基于原型网络的中文分类模型对抗样本生成被引量:1
- 2023年
- 对抗样本生成通过在原文本中添加不易察觉的扰动使深度学习模型产生错误输出,常用于检测文本分类模型的鲁棒性。现有对抗样本生成方法多数采用黑盒或白盒攻击,在生成对抗样本的过程中需要和受害模型交互,且攻击效果依赖于受害模型的结构和性能,通用性较差。面向中文文本的对抗样本生成方法使用的变换策略过于单一,无法生成多样化的中文对抗样本。针对这些问题,提出一种基于原型网络的对抗样本生成(AEGP)方法。在全面分析汉字结构特点和人类阅读习惯的基础上,设计8种可保持语义一致的中文文本变换策略。将卷积神经网络作为编码器,构建原型网络,利用同一类别下的其他文本辅助发现所需变换的文本片段。针对选择的文本片段应用文本变换策略,生成对抗样本。实验结果表明,AEGP方法具有较好的通用性,能生成多样化的对抗样本,且相比于基线方法,分类模型在AEGP方法生成的对抗样本上的准确率下降了9.21~32.64个百分点。
- 杨燕燕谢明轩曹江峡王学宾柳厅文杜彦辉
- 关键词:文本表示