李云
- 作品数:83 被引量:391H指数:12
- 供职机构:扬州大学信息工程学院更多>>
- 发文基金:国家自然科学基金江苏省自然科学基金江苏省教育厅自然科学基金更多>>
- 相关领域:自动化与计算机技术文化科学电子电信金属学及工艺更多>>
- 基于串行自编码器的无监督领域自适应特征学习方法
- 2023年
- 传统的基于自编码器的无监督领域自适应方法大多依靠单一的自编码器模型,故无法学习得到领域间的全局特征表示.针对该问题,提出一种基于串行自编码器(serial autoencoder unsupervised domain adaptation,SAUDA)的无监督领域自适应方法,以串行方式连接两种不同类型的自编码器学习更丰富的全局特征表示.利用堆叠自编码器(stacked autoencoder,SAE)对源域和目标域的特征进行初步学习;进一步地,采用稀疏自编码器(stacked sparse autoencoder,SSAE)对堆叠自编码器所得特征学习结果进行二次特征学习,以得到领域间更好的全局特征表示.结果表明,与传统的神经网络方法相比,基于SAUDA的无监督领域自适应方法在实验数据集上具有更好的跨领域分类性能.
- 陈家合朱毅沈辉王志李云
- 利用量化规则格分布获取关联规则(英文)
- 2007年
- 在形式概念分析中,规则挖掘是构造概念格的目的之一.分布式构格首先是构造部分格,然后合并部分格得到完整格从而加快构格的效率.提出了一种规则合并方法,先在部分格上得到部分规则,然后有部分规则直接合并得到最终规则.结果表明此算法在挖掘规则是快速有效的.
- 李云蔡俊杰刘宗田陈崚李拓
- 形式概念分析在软件维护中的应用综述被引量:7
- 2015年
- 形式概念分析是一种层次化的形式对象分析方法,能够从二元关系中挖掘出具有共同形式属性的一组形式对象的聚集.近十几年来,形式概念分析技术已在软件工程领域,特别是软件维护的各项活动中得到了广泛的应用,并取得成功.本文从软件维护的角度,如软件理解、修改影响分析、重构、调试与测试等方面总结了从2000~2013年形式概念分析在这些领域的研究进展.这些研究成果的分类方法是基于一种软件维护活动框架进行论述,最后文章给出了形式概念分析在软件维护领域的研究趋势与展望.
- 孙小兵李云李必信文万志
- 关键词:形式概念分析软件维护
- 基于量化封闭项集格提取最小无冗余近似规则(英文)
- 2004年
- 为便于规则的提取,提出了具有新的节点结构的量化封闭项集格.最小无冗余近似规则具有最小前件和最大后件,并且没有任何信息丢失;还提出了一个新的算法,可以从量化封闭项集格中直接提取最小无冗余近似规则.
- 李云刘宗田程伟谢翠华吴强
- 关键词:项集冗余信息丢失
- 基于ChineseBert的中文拼写纠错方法被引量:1
- 2023年
- 中文拼写错误主要集中在拼音相似和字形相似两个方面,而通用的预训练语言模型只考虑文本的语义信息,忽略了中文的拼音和字形特征.最新的中文拼写纠错(Chinese Spelling Correction,CSC)方法在预训练模型的基础上利用额外的网络来融入拼音和字形特征,但和直接微调预训练模型相比,改进的模型没有显著提高模型的性能,因为由小规模拼写任务语料训练的拼音和字形特征,和预训练模型获取的丰富语义特征相比,存在严重的信息不对等现象.将多模态预训练语言模型ChineseBert应用到CSC问题上,由于ChineseBert已将拼音和字形信息放到预训练模型构建阶段,基于ChineseBert的CSC方法不仅无须构建额外的网络,还解决了信息不对等的问题.由于基于预训练模型的CSC方法普遍不能很好地处理连续错误的问题,进一步提出SepSpell方法.首先利用探测网络检测可能错误的字符,再对可能错误的字符保留拼音特征和字形特征,掩码对应的语义信息进行预测,这样能降低预测过程中错误字符带来的干扰,更好地处理连续错误问题.在三个官方评测数据集上进行评估,提出的两个方法都取得了非常不错的结果.
- 崔凡强继朋朱毅李云
- 《计算机硬件技术基础》课程改革的探索与实践
- 2015年
- 论文分析了计算机偏软专业开设《计算机硬件技术基础》课程的定位及教学中存在的问题,围绕课程整合、课程体系、教学内容、教学方法、实践教学、考核方法、教材建设等方面对课程改革进行了探索,并阐述了课程改革的成效。
- 葛桂萍李云朱范德
- 关键词:课程整合教学方法教材建设
- 基于预训练表示模型的英语词语简化方法被引量:5
- 2022年
- 词语简化是将给定句子中的复杂词替换成意义相等的简单替代词,从而达到简化句子的目的.已有的词语简化方法只依靠复杂词本身而不考虑其上下文信息来生成候选替换词,这将不可避免地产生大量的虚假候选词.为此,提出了一种基于预语言训练表示模型的词语简化方法,利用预训练语言表示模进行候选替换词的生成和排序.基于预语言训练表示模型的词语简化方法在候选词生成过程中,不仅不需要任何语义词典和平行语料,而且能够充分考虑复杂词本身和上下文信息产生候选替代词.在候选替代词排序过程中,基于预语言训练表示模型的词语简化方法采用了5个高效的特征,除了常用的词频和词语之间相似度特征之外,还利用了预训练语言表示模的预测排名、基于基于预语言训练表示模型的上、下文产生概率和复述数据库PPDB三个新特征.通过3个基准数据集进行验证,基于预语言训练表示模型的词语简化方法取得了明显的进步,整体性能平均比最先进的方法准确率高出29.8%.
- 强继朋钱镇宇李云袁运浩朱毅
- 最小闭树特征集的聚类与分类方法被引量:5
- 2010年
- 提出一种基于最小闭树特征集的聚类与分类方法,有效地解决了在实际应用中因数据量大而无法聚类与分类的问题。其基本思想为:以最小闭树特征集作为候选聚类与分类特征,采用动态阈值按相似度聚类,使得树聚类快速而精确;提出树分类规则等级概念,并应用于树分类方法中,能迅速预测未知的树结构。实验结果表明,在树节点数较多或数据量大时,新方法有效可行,且与类其他方法相比效率有显著提高。
- 郭鑫李云黄云周清平
- 关键词:数据挖掘频繁子树
- 多关系频繁项集的并行获取
- 2008年
- 现有的多关系频繁项集的挖掘都是在单机系统环境下进行的,存在着一定的效率问题.由此提出了一种并行处理多个表之间关系的算法,将表进行两两合并,在每台单机上只需要处理两张表的结果,提高了挖掘效率,减少了挖掘时间.
- 栾鸾李云盛艳
- 关键词:频繁项集
- 云环境下基于二进制编码聚类的并行频繁项集挖掘算法
- 本文提出了一种云环境下基于二进制编码的并行频繁项集挖掘算法,利用一种特殊的二进制编码的依赖度计量方法对原始数据集合进行编码转换及依赖度聚类,然后将数据集分布部署在云环境中,并采用共享多头表的FP-Growth并行改进算法...
- 刘博李云张晓斌徐杰
- 关键词:依赖度二进制编码