方卫东
- 作品数:9 被引量:42H指数:2
- 供职机构:华南理工大学计算机科学与工程学院更多>>
- 发文基金:国家自然科学基金更多>>
- 相关领域:自动化与计算机技术文化科学经济管理更多>>
- 基于复杂网络的中国股市分析
- 复杂网络理论的兴起使得它成为研究复杂系统的一个有力工具。近10年来,复杂网络在物理学、生物学、信息科学、社会科学、管理科学等领域有着广泛地应用。反过来其它学科领域中的概念、知识、理论与方法融入复杂网络,使得复杂网络的研究...
- 方卫东
- 关键词:复杂网络自相似性交易量股市股票指数成交额
- 文献传递
- 如何评测系统性能?
- 2008年
- 垃圾邮件产品的过滤性能是用户最关心的问题。而邮件过滤的性能评测相对而言比较复杂,目前尚无相关的产业标准。本文通过理论与实践的相结合,试图为高校对反垃圾邮件系统进行评测提供一定参考。随后的几期将重点展示清华大学、山东大学等高校对自身所使用的商业反垃圾邮件产品的评测。
- 方卫东董守斌隆承志
- 关键词:系统性能评测反垃圾邮件邮件系统
- 一种自适应垃圾邮件过滤算法被引量:1
- 2009年
- 当今网络中,垃圾邮件已成为一个严重的问题。本文作者提出了一种基于指纹向量的自适应垃圾邮件过滤方法。该方法中,每封邮件由一个指纹向量表示,两个邮件如果指纹向量的距离较小,则认为其属于同一个类别。本文设计了适合于大规模垃圾信息检测的快速匹配算法,该算法可自动更新已知垃圾邮件的指纹向量表。实际邮件服务器上的实验结果验证了所提出方法的有效性。
- 刘卫红方卫东
- 关键词:垃圾邮件自适应
- 基于内容与链接特征的中文垃圾网页分类被引量:4
- 2010年
- 随着搜索引擎使用的日益普及,web作弊已成为搜索引擎面临的一个重大挑战。国内外研究人员从基于内容,基于链接等方面提出了许多反web作弊的技术,这些技术一定程度上能有效地检测垃圾网页。本文在前人研究基础上提出了一种结合网页内容和链接方面的特征,采用机器学习对中文垃圾网页进行分类检测的方法。实验结果表明,该方法能有效地对中文垃圾网页分类。
- 刘卫红方卫东董守斌张凌
- 关键词:搜索引擎
- 网络垃圾信息检测与过滤技术
- 日益泛滥的网络垃圾信息不仅为人们的工作和生活带来困扰,也为社会经济带来巨大损失,而如何有效检测和过滤垃圾信息是研究人员面临的一个紧迫问题。基于内容的垃圾信息过滤是目前被人们投入研究最多和应用最广泛的一类方法。然而,被越来...
- 方卫东
- 关键词:垃圾信息信息过滤技术主题特征最大熵信息伪装信息特征
- 文献传递
- 基于条件随机域的垃圾信息特征复原
- 2010年
- 通过加入噪声、替代文字等手段隐藏信息内容的真实符号分布,是目前垃圾制造者干扰或躲避过滤器检测的主要手段。介绍一种使用基于条件随机域的序列方法实现垃圾信息特征复原的技术。该方法比现有的基于模式匹配、基于序列比对和基于隐马尔科夫模型等方法在模型建立上有着更大的灵活性和鲁棒性。实验表明,使用条件随机域的特征复原方法可以明显提高基于压缩和内容过滤器的过滤性能。
- 刘卫红方卫东张凌
- 关键词:条件随机域垃圾信息
- 基于Web挖掘的领域本体自动学习被引量:38
- 2005年
- 为获取领域本体并量化概念关系的可信度,提出了一种基于W eb挖掘的学习模型。通过可扩展的模式集和分布语义模型获取本体主干,使用关联规则发现概念间的一般关系,对候选本体进行修剪和合并。模式可信度、概念语义距离与关联特征决定了概念间关系的可信度。通过“文本分析本体获取文本扩充”的迭代过程,优化模型参数和阈值。该模型解决了现有本体学习方法对词典或核心本体的依赖性、以及不能对关系进行可信度量化的问题。实验证明了所提出模型的有效性。
- 方卫东袁华刘卫红
- 关键词:WEB挖掘自然语言处理本体
- 指纹向量在垃圾邮件检测中的应用被引量:1
- 2009年
- 大量重复发送的邮件是垃圾邮件的主要生成方式,为检测这种类型的垃圾邮件,作者提出了一种基于指纹向量的自适应垃圾邮件过滤方法.该方法中,每封邮件通过q元取样后映射成指纹向量,如果两个邮件的指纹向量的距离较小,则认为其属于同一个类别.该方法具有计算速度快、占用计算资源小的优点,与传统的贝叶斯算法相比具有较优的性能,在TREC2007数据集的实验结果验证了所提出方法的有效性.
- 刘卫红方卫东张凌董守斌
- 关键词:垃圾邮件
- 基于Web挖掘的领域本体自动学习
- 为获取领域本体并量化概念关系的可信度,提出了一种基于Web挖掘的学习模型.通过可扩展的模式集和分布语义模型获取本体主干,使用关联规则发现概念间的一般关系,对候选本体进行修剪和合并.模式可信度、概念语义距离与关联特征决定了...
- 方卫东袁华刘卫红
- 关键词:WEB挖掘自然语言处理本体
- 文献传递