吉林省自然科学基金(20130101060JC)
- 作品数:26 被引量:76H指数:5
- 相关作者:郑山红李万龙赵辉郑虹蒋权更多>>
- 相关机构:长春工业大学更多>>
- 发文基金:吉林省自然科学基金吉林省教育厅“十二五”科学技术研究项目吉林省教育厅“十一五”科学技术研究项目更多>>
- 相关领域:自动化与计算机技术经济管理更多>>
- 基于条件变分自编码网络的短文本分类
- 2021年
- 传统文本分类模型在处理短文本时主题特征挖掘不够充分,导致短文本分类效果不佳。对此提出一种基于条件变分自编码的短文本分类模型。采用预训练的LDA主题模型得到的主题词项分布构造具有单通道的文本主题特征图,从采样重构过程中学习连续及高度结构化的文本主题潜在空间,引入类别标签作为条件为重构加入更多的指导。利用预训练的主题潜在空间抽取文本主题特征构造短文本分类器。实验结果表明,相比于其他文本分类方法,该模型能够利用文本主题潜在空间充分挖掘短文本主题特征,其分类精确度明显提升。
- 康宸郑山红李万龙
- 关键词:文本分类
- 基于随机森林的自适应特征选择算法被引量:8
- 2018年
- 为了解决传统的随机森林算法在随机特征选择时,导致少数比较重要的特征变量被过滤掉的问题,以及没有考虑特征变量相关性对预测应变量准确性带来的影响,提出了一种基于随机森林的自适应特征选择算法SARFFS。该算法首先利用卡方检验样本间关联程度后自助采样,并设计出一种特征对类代表强弱程度的计算方法;然后引入自适应稀疏约束机制Group LASSO优化特征的选择;最后在Spark分布式计算平台利用UCI数据集进行实验,结果表明,相比传统的RF算法,SARFFS算法在特征子集选择上具有更好的性能,在F1上提升将近9%。从最终排名靠前的重要特征分析,该算法能够考虑特征间相关性,对预测结果确实有影响,并有效地提高了随机属性权值的可靠性和稳定性。
- 刘凯郑山红蒋权赵天傲
- 关键词:自适应
- 基于AST的程序代码相似性度量研究被引量:6
- 2015年
- 针对程序代码相似性检测度量忽略程序语义、出现无效度量的问题,提出一种基于抽象语法树(AST:Abstract Syntax Tree)的程序代码相似性度量方法。通过预处理去除生成AST时的冗余信息,再进行词法语法分析,得到相应的AST;然后通过自适应阈值的选取方式,利用AST遍历得到的程序属性、方法序列,对AST进行相似度计算,最终判定是否抄袭,生成相似度检测报告。实验结果表明,该方法能有效检测Java程序代码的多种抄袭行为。
- 朱波郑虹孙琳琳杨友星
- 关键词:抽象语法树相似度自适应阈值
- 本体领域综合概念相似度计算中的权重确定方法被引量:5
- 2014年
- 利用粗糙集及条件信息熵的相关理论,针对基于相似度计算的本体映射方法在相似度融合时权重过分依赖专家参与等问题,给出一种自动确定权重的策略,并通过实例验证了该方法的可行性.该方法充分考虑在信息量不确定情况下,用各属性对系统信息熵的影响程度确定各属性在当前信息系统中所占的权重,从而使本体的自动化映射和语义网的实时服务成为可能.
- 成锦晖郑山红李万龙岳绍敏
- 关键词:本体相似度概念相似度粗糙集信息熵
- 改进的多策略本体映射方法被引量:4
- 2016年
- 针对本体映射时未充分考虑语义信息以及运算效率的问题,提出了一种改进的多策略本体映射方法——Re MAP。对初步得到的初始概念集基于相关度计算进行简化,以减少参与映射的概念;为提高映射质量,在进行概念相似度计算时,充分考虑本体概念的语义信息,对概念名称进行语义分析,将其融入概念名称相似度的计算结果,并通过制定映射规则对不良映射进行校正处理。算法验证选取OAEI2007标准测试集,通过查全率、查准率与F-measure值对实验结果进行对比分析,验证了方法的有效性。
- 李凯李万龙郑山红张亚凤
- 关键词:本体本体映射相似度
- 改进的基于后缀树的Web搜索结果聚类算法
- 2016年
- 为提高Web搜索精度和检准率,在后缀树聚类算法基本模型的基础上,提出了一种改进的基于后缀树的搜索结果聚类算法。将向量空间模型与后缀树聚类相结合,改善了基类合并的效果,综合基类节点对应文本数、短语包含词语长度、短语权重及是否包含查询词作为聚类标签的筛选条件,改进了聚类标签的合理性和可读性。以搜狗语料库中的文本分类语料库为数据源进行的实验结果表明,该方法在一定程度上提高了聚类结果的准确率。
- 董亚则李万龙李航郑山红
- 关键词:文本聚类后缀树向量空间模型
- 基于新闻信息的股票指数预测被引量:4
- 2020年
- 采用LSTM方法对新闻内容信息进行情感分析,再将分析得到的情感分类结果与股票的技术指标相结合作为特征值,利用BP神经网络进行预测。
- 杨妥李万龙郑山红
- 关键词:股指预测情感分析技术指标
- 基于Lucene索引的数据库全文检索被引量:5
- 2014年
- 针对传统数据库检索中检索速度较慢、检索结果不完整、检索结果排列无序等问题,基于全文检索工具Lucene索引的结构,设计一种基于Lucene的数据库索引结构,并提出记录倒排索引链表的概念,使网站不用再按照传统顺序查找方式进行检索。
- 岳绍敏李万龙王璐光顺利
- 关键词:倒排索引索引结构
- 基于中文文本的疾病领域本体学习的研究被引量:5
- 2014年
- 为提高领域本体概念及概念之间关系提取效率和准确率,提出基于中文文本的领域本体学习模型。在提取候选概念的过程中,采用修改后的关联规则频繁项计算方法对合成词进行处理,并结合位图存储分词处理后术语间的物理相邻关系,再通过计算领域相关度和领域一致度对候选概念进行筛选,最后利用关联规则可信度和层次聚类的方法分别提取概念间的非分类关系和分类关系。实验结果表明,该模型对领域本体学习具有合理性,提出的算法与基于互信息的本体学习相比较,在概念和关系的提取上具有较高的准确性。
- 贺海涛郑山红侯丽鑫王国春王璐
- 关键词:本体学习非结构化数据关联规则位图层次聚类
- 基于向量空间模型的中文网页主题特征项抽取被引量:10
- 2014年
- 为解决中文网页主题特征项抽取不精确的问题,对中文网页的主题特征项抽取算法进行了研究。网页的主题特征项抽取是主题网络爬虫进行网页相关度计算的基础,结合主题网页的二分类情况对目前常用的文本特征项加权方法 TF-IDF(Term Frequency-Inverse Document Frequency)进行了改进,在此基础上结合网页的半结构化特征,综合考虑特征项的位置信息及其包含的信息量,提出了一种线性特征项加权计算方法。经实验验证,该方法可有效提高主题网页的召回率和准确率。
- 代宽赵辉韩冬宋天勇
- 关键词:向量空间模型相关度计算信息增益