教育部人文社会科学研究基金(11YJCZH086)
- 作品数:10 被引量:71H指数:6
- 相关作者:蒋盛益李霞王连喜吴美玲庞观松更多>>
- 相关机构:广东外语外贸大学淘宝(中国)软件有限公司更多>>
- 发文基金:教育部人文社会科学研究基金国家自然科学基金广州市哲学社会科学发展“十二五”规划课题更多>>
- 相关领域:自动化与计算机技术文化科学更多>>
- 跨学科思想在自然语言处理课程中的实践被引量:7
- 2014年
- 介绍自然语言处理课程在国内的教学现状,阐述如何以跨学科教学理念设计和组织自然语言处理课程的教学内容、教学方法、课程设计等,以提升学科交叉类课程的综合教学质量。
- 李霞
- 关键词:自然语言处理高等教育跨学科
- 基于DOM树及行文本统计去噪的网页文本抽取技术被引量:5
- 2012年
- 首先对网页源码文本统一编码转为UTF格式,然后把HTML网页文档转换为XML文档并解析为一棵DOM树。依据XML语言特点及噪声特征规则先对DOM树的噪声节点进行过滤删除,然后依据中文标点符号统计方法提取网页正文内容,并在此基础上利用行文本统计方法去除提取出的正文中存在的噪声信息,最后得到网页正文文本。对来自结构完全不同的主流与非主流的中英文新闻网站上的2 000篇网页进行实验,结果表明本文提出的方法具有较高的抽取准确率,并具有很好的通用性和实现简单的特点,适用于针对互联网中不同网站新闻文本信息的自动采集。
- 李霞蒋盛益
- 关键词:DOM树
- 不平衡数据的无监督特征选择方法被引量:8
- 2013年
- 传统特征选择方法大部分是以分布均衡的数据为研究对象,以优化总体分类精度为基本目标,所以很少有方法在不平衡数据集上得到理想的学习效果.依据数据的分布特点,提出一种新的面向不平衡数据集的特征选择方法.该方法在无监督环境下,依据聚类簇大小的变化以通过在不同簇的相同特征上对其特征重要性度量函数分配不同的权重来调整数据分布的不均衡性.在多个UCI不平衡数据集上的实验结果表明,相比于其它几种经典的特征选择方法,所提出的方法在不降低总体分类精度的情况下,不仅可以有效选择更少的特征数目,而且还可以提高少数类在不同分类器上的分类精度、召回率及F-Measure值.
- 蒋盛益王连喜
- 关键词:不平衡数据集聚类
- 一种基于类别区分互补性的特征选择被引量:3
- 2013年
- 特征选择是机器学习和数据挖掘领域中实现数据降维和数据清理的有效方法之一.针对现有相关性度量方法不能直接度量混合特征(连续特征与离散特征)之间相关性的问题,将连续特征的特征值按照离散特征取值相同的原则进行分组,通过分组前后的数据变异性来度量混合特征之间的相关性.在度量连续特征与类别之间相关性的基础上结合类别区分互补性方法进行特征选择.在UCI数据集上的实验结果表明,提出的混合特征相关性度量方法是有效的、可行的.相比于几种经典的特征选择方法,提出的特征选择方法在特征约减效果及分类性能上都具有优势.
- 王连喜蒋盛益
- 关键词:相关度
- 本科数据挖掘课程教学经验浅谈被引量:6
- 2012年
- 结合作者多年教授数据挖掘课程的教学经验,文章分别从理论教学、实验教学和实践教学三个方面探讨了如何高效率的进行数据挖掘课程教学,如何提高学生对该课程的兴趣,如何激发学生的创造性,使其积极主动的学好数据挖掘课程。
- 李霞
- 关键词:数据挖掘高等教育本科教学
- 微博用户关系挖掘研究综述被引量:27
- 2012年
- Web2.0的广泛应用和新型社会化网络媒体的盛行,促使网络服务从以数据为主导开始转变为以用户或用户关系为核心。微博作为当下最流行的社会化网络服务媒体,其用户关系挖掘研究正是在这一背景下迅速兴起的一个新兴研究课题,并且逐渐受到人们越来越多的重视。首先依据微博用户的特点对微博用户关系挖掘的概念进行了阐释;然后,以微博用户关系挖掘的两个重要研究内容为主线,分别对微博用户社群分析和关键用户识别做细致的介绍和分析;最后总结了对微博用户关系挖掘的研究内容,并对未来的研究方向进行了展望。
- 王连喜蒋盛益庞观松吴美玲
- 关键词:用户关系个性化推荐
- 基于歌词的歌曲高潮片段自动提取
- 2014年
- 音乐高潮片段自动提取技术可以应用到音乐检索、音乐数据分析、音乐推荐、音乐试听等研究及实际应用当中,有助于协助用户快速选择合适的音乐.针对基于内容提取音乐高潮片段开销大和产生冗余碎片的问题,本文利用LRC歌词分析研究中文流行音乐的高潮片段的自动提取技术.展示了标准的LRC歌词文本样例,阐述了LRC歌词的语速、字数、转化的时间标签等特征的提取方法,以及歌词相似性矩阵的构建方法与高潮片段的选取方法.初步实验结果表明,对歌曲高潮片段提取的准确率达到91.2%.
- 蒋盛益王冬青廖静欣阳垚
- 数据挖掘在高校教学和管理中的应用研究被引量:10
- 2012年
- 数据挖掘技术由于能够处理海量的数据,并能够挖掘出令人感兴趣和有用的模式,被广泛应用于金融、保险、市场营销、信息检索等领域,然而数据挖掘技术在教育领域的应用相对较少。文章分析了数据挖掘技术在国内外高校教学和管理中的应用研究现状,并以一个实例详细介绍了数据挖掘技术在高校教学和管理中的挖掘内容、挖掘过程以及挖掘方法。
- 李霞蒋盛益刘晓霞
- 关键词:数据挖掘高等教育
- 图书馆个性化推荐面临的问题与挑战被引量:7
- 2013年
- 随着Web2.0的广泛应用和新型社会化网络媒体的盛行,图书馆从资源匮乏状态逐渐转变为数据密集型的行业,并促使图书馆的信息服务方式开始从"以数据为主导"向"以用户为中心"进行过渡。针对图书馆个性化推荐研究在数据资源、技术实现和评价准则方面所存在的问题进行了简单的分析,并针对一些带有挑战性的问题提出了相应的解决方法。
- 王连喜
- 关键词:图书馆个性化推荐信息资源
- 一种垃圾邮件快速识别方法被引量:2
- 2013年
- k最近邻分类算法原理简单且分类性能好,但因其时间复杂度高,不适用于实际领域在线垃圾邮件过滤.本文在建模阶段首先对训练邮件进行初始聚类,将训练邮件划分为半径大小几乎相同的初始簇,然后使用共享最近邻图聚类算法对包含邮件的初始簇进行再聚类,最终聚类簇被看成是可以增量更新的分类模型,最后使用经典k最近邻分类算法在该分类模型上对未知邮件进行分类.在公开语料Ling-Spam上的实验结果表明,本文提出的垃圾邮件识别算法不仅具有较高的垃圾邮件识别精度,而且还具有较低的时间复杂度.
- 李霞蒋盛益
- 关键词:垃圾邮件过滤