广东省自然科学基金(07006474)
- 作品数:34 被引量:216H指数:9
- 相关作者:彭宏郑启伦胡建军马千里陈建超更多>>
- 相关机构:华南理工大学广东商学院广州市轻工职业学校更多>>
- 发文基金:广东省自然科学基金广东省科技攻关计划国家自然科学基金更多>>
- 相关领域:自动化与计算机技术理学交通运输工程社会学更多>>
- 基于词性及词性依存的句子结构相似度计算被引量:6
- 2011年
- 为提高句子相似度的准确率,从结构相似度出发,提出基于词性及词性依存关系的句子结构相似度计算方法。该方法从正向和逆向比较句子的词性序列,获得2个句子词性及词性依存关系的最优匹配,从而计算句子结构相似度。实验结果表明,该方法能使句子结构相似度计算更合理。
- 蓝雁玲陈建超
- 关键词:句子结构结构相似度自然语言处理
- 基于改进距离的孤立点检测方法被引量:12
- 2008年
- 局部切空间排列(LTSA)算法是一种有效的流形学习方法,但该算法对孤立点的存在非常敏感.为了增强LTSA算法对孤立点的鲁棒性,文中提出了一种基于改进距离的孤立点检测方法.该方法通过改进距离来度量样本点之间的距离,降低了样本点分布不均匀对孤立点检测算法的影响.实验结果表明,该数据预处理方法能有效地提高LTSA算法的鲁棒性,更好地挖掘数据集的本征特性,具有更好的数据可视化效果.
- 韦佳彭宏林毅申
- 关键词:数据预处理孤立点检测流形学习局部切空间排列
- 基于主题的文档检索模型被引量:4
- 2008年
- 现有文档检索模型大多缺乏语义学习能力,难以从主题层次上学习文档相似性.为此,文中提出了一种基于主题的文档检索模型TDRM.TDRM为所有文档建立公共主题空间,把每篇文档表示为公共主题空间中的一个向量,用向量夹角余弦定义文档相似度,并利用Latent Dirichlet Allocation学习每篇文档的主题分布.实验结果表明,与基于TextTiling和二分图最佳匹配的文档相似模型相比,TDRM在相似文档检索方面有更高的平均查准率和平均查全率,且平均查准率和平均查全率的调和平均数约高出参考模型44%.
- 贾西平彭宏郑启伦石时需江焯林
- 关键词:主题文档检索信息检索数据挖掘
- 混合式的元数据管理系统研究被引量:1
- 2009年
- 提出了一种基于混合式技术的元数据管理系统。探讨了两种常用的元数据管理方式:集中式元数据管理和分布式元数据管理。详细分析了基于这两种元数据管理方式的混合模型的结构,并对系统中对象存储的作用以及对元数据服务器的结构和功能进行了详细描述。最后,对元数据管理中重要的元数据标准进行了分析,运用该系统使得元数据的管理,数据处理、分析和过程的综合再现更加高效,方便和安全。
- 杜楠彭宏
- 关键词:混合式元数据管理系统元数据服务器对象存储设备元数据标准
- 粒子群优化算法在点模式匹配中的应用被引量:3
- 2008年
- 点模式匹配技术是计算机视觉和模式识别领域中的一个重要课题。将每个点模式编码为一个称为粒子的实值向量,并利用两幅图像的灰度矩阵来构造粒子的适应度函数,提出一种基于粒子群优化算法的点模式匹配新算法。系统初始化为一组随机解,通过迭代使粒子在解空间中追随当前较优的粒子进行搜索,从而找到最优解。仿真实验结果证明算法的有效性。
- 邓秀勤熊勇彭宏
- 关键词:点模式匹配粒子群优化
- 基于MVC架构的数据挖掘平台的设计与实现被引量:9
- 2010年
- 为了增强数据挖掘软件各功能模块的可扩展性和复用性,分析了现有数据挖掘工具的优缺点,并综合考虑数据挖掘过程的实际特点,提出了一个基于MVC架构的数据挖掘平台设计方案。在此基础上,利用Eclipse plug-in,RCP,GEF等技术,实现了一个数据挖掘平台原型系统。该平台遵循CRISP-DM过程标准,在软件架构上实现了低耦合、高复用,为用户提供了一个友好、灵活、易重用、可扩展的数据挖掘应用环境。
- 叶苏南彭宏覃姜维
- 关键词:数据挖掘软件复用ECLIPSE插件模型-视图-控制器
- 中药特性信息数据挖掘系统中的预处理设计被引量:5
- 2008年
- 中药数据的不规范,使预处理成为数据挖掘系统中的一个重要过程。该文开发中药特性信息数据挖掘系统,介绍系统结构与挖掘流程,分析中药数据的特征,对数据进行预处理,包括过滤噪声数据、中医药术语规范化、缺损数据处理、剂量单位规范化、作用度规一化、功效量化等。
- 胡建军
- 关键词:数据挖掘中药方剂数据预处理
- 受限领域中文问答系统问句分析研究被引量:2
- 2010年
- 问句分析是问答系统中一个极其重要的部分,它对后续的搜索模块和答案抽取模块有着至关重要的影响。为了提高问句分析模块的性能,对中文问答系统问句分析模块进行研究和分析,在构建领域词典的基础上实现了对问句中命名实体的识别。对问句类型的识别则采用问题类别对照表的方式来实现。在对问句进行分词、词性标注之后,提取出其中的名词、动词、形容词等实词,形成初始查询向量,最后对初始查询向量进行同义词扩展和问句类型关联词扩展。实验结果表明,通过查询向量进行查询比用问句直接查询有着更高的准确率。
- 蒋昌金彭宏马千里林正春王成
- 关键词:中文问答系统查询扩展信息检索
- 小生境基因表达式编程在函数发现的研究被引量:9
- 2008年
- 提出一种基于小生境的GEP改进算法,将改进k-均值的聚类分析与遗传机制相结合,通过调节最小聚类距离,控制收敛的小生境数目,以提高算法跳出局部最优的能力.将改进算法应用在函数发现问题中并与基本GEP算法结果进行对比,实验表明改进算法具有更高的精度和更强的寻优能力.
- 林毅申彭宏韦佳
- 关键词:基因表达式编程小生境函数发现聚类分析
- 面向数据质量的ETL框架的设计与实现被引量:21
- 2010年
- 针对传统抽取-转换-装载(ETL)架构在数据质量控制方面的不足,提出一种面向数据质量管理的ETL架构。根据ETL过程的特点,设计多数据源接口模块、ETL元数据描述模块、ETL任务描述模块和数据质量控制模块等。该架构以数据质量为核心,通过建立数据分析模型,利用规则推导引擎对数据分析结果生成数据清洗方案,从而有效地对数据流进行质量评估和管理。基于该设计思想开发一个ETL工具-DQETL。DQETL采用统一建模语言进行设计,并提供友好界面对ETL过程进行集中管理。最后,结合实例阐述了在该框架下进行数据质量管理的一般步骤。
- 李庆阳彭宏
- 关键词:数据仓库数据质量数据清洗