搜索到197篇“ N-GRAMS“的相关文章
一种基于N-grams的多标签分类方法及装置
本申请提供的一种基于Ngrams的多标签分类方法及装置,该方法包括:获取待分类对象中的分类要素,并根据分类要素确定待分类对象对应的标签,构成标签集合;采用Ngrams模型对标签集合中所有的标签进行排序,生成标签序列;...
梁潇安宁钰张强郑晓崑吴宁邹云峰徐超
基于N-grams和灰度图特征融合的恶意代码检测方法被引量:3
2022年
把恶意代码转成灰度图,再用深度神经网络自主学习灰度图的特征给恶意代码检测提供了新的思路,但是恶意代码图像化方案就是无差别地把恶意代码转换后的灰度图进行识别,该方法存在样本大小不一且由于采用裁剪而丢失恶意代码的信息和提取特征单一抗混淆能力不足等缺点,本文采用N-grams和灰度图特征融合的方法检测恶意代码,解决了不同恶意代码样本大小不一的问题,而且从文本和灰度图这两个不同的维度提取恶意代码的特征,提高了恶意代码检测的抗混淆能力,再使用k最近邻、随机森林、朴素贝叶斯和SVM算法检测该方法,实验结果表明融合特征比单特征的准确率高,且随机森林的准确率达到98.71%。
杨宇夏孙皓月高燚
关键词:恶意代码灰度共生矩阵
基于关键n-grams和门控循环神经网络的文本分类模型被引量:3
2021年
提出一种基于关键n-grams和门控循环神经网络的文本分类模型.模型采用更为简单高效的池化层替代传统的卷积层来提取关键的n-grams作为重要语义特征,同时构建双向门控循环单元(gated recurrent unit,GRU)获取输入文本的全局依赖特征,最后将两种特征的融合模型应用于文本分类任务.在多个公开数据集上评估模型的质量,包括情感分类和主题分类.与传统模型的实验对比结果表明:所提出的文本分类模型可有效改进文本分类的性能,在语料库20newsgroup上准确率提高约1.95%,在语料库Rotton Tomatoes上准确率提高约1.55%.
赵倩吴悦刘宗田
关键词:文本分类N-GRAMS
Machine Learning for Cybersecurity:implementation of Malware Detection Using P.E File, N-Grams and Deep Learning on Executables
随着网络威胁和攻击越来越普遍,并迅速演变,支持恶意软件和反对恶意软件开发商之间的战斗似乎远远没有接近尾声。此外,人们对于远程和虚拟通信计算机和电子系统的需求,随着covid-19和社会距离的加大而变得越来越大,从而推动了...
ABDUL NASIR MUNIRU
网络安全机器学习:利用P.E文件、N-Grams和可执行文件的深度学习实现恶意软件检测
随着网络威胁和攻击越来越普遍,并迅速演变,支持恶意软件和反对恶意软件开发商之间的战斗似乎远远没有接近尾声。此外,人们对于远程和虚拟通信计算机和电子系统的需求,随着covid-19和社会距离的加大而变得越来越大,从而推动了...
ABDUL NASIR MUNIRU
关键词:网络安全深耕
文献传递
基于多尺度的n-grams特征选择加权及匹配算法被引量:1
2020年
n-grams语言模型作为文本分类中常用的特征,具有结构简单、易筛选、携带语义量大以及对分类贡献值高等优点。但由于其固有的结构特点,在使用普通的选择加权及匹配算法时会造成权值区分不明显,并产生大量稀疏数据,使得建立的分类模型不准确,进而导致最终分类结果的偏差。为解决上述问题,根据词性、语义及词汇的内在偏序关系,提出一种结合词汇、词性和语义的特征选择加权及匹配算法,使n-grams特征权值区分明显的同时避免在训练和测试过程中产生大量稀疏数据。在美国当代英语语料库和北京BBC汉语语料库中的实验结果表明,与传统的n-grams特征选择加权及匹配算法相比,基于多尺度的n-grams特征选择加权及匹配算法中得到的n-grams特征权值区分明显且稀疏数据大幅减少,在支持向量机(Support Vector Machine,SVM)中的分类效果更好。
刘世兴
关键词:N-GRAMS特征加权偏序集词性
一种基于N-grams的多标签分类方法及装置
本申请提供的一种基于Ngrams的多标签分类方法及装置,该方法包括:获取待分类对象中的分类要素,并根据分类要素确定待分类对象对应的标签,构成标签集合;采用Ngrams模型对标签集合中所有的标签进行排序,生成标签序列;...
梁潇安宁钰张强郑晓崑吴宁邹云峰徐超
文献传递
基于主题N元语法模型的科技报告主题分析被引量:2
2019年
作为科技情报的重要载体之一,科技报告可以反映科技发展的脉络,可以揭示科技前沿的动态,甚至可以洞察科技发展的趋势等。中国科技报告的开发利用研究目前主要集中在书本型科技报告或电子出版物的出版发行、数据库建设、服务方式和知识产权等方面,在深度数据挖掘方面的研究工作相对较少。笔者尝试利用主题N元语法模型对科技报告进行领域深层主题分析,为了确定特定领域科技报告的主题数目,笔者借助动态规划的思想针对主题N元语法模型提出了困惑度的有效计算方法。最后,以肿瘤领域1344条科技报告为实验数据,揭示了以“分子机制/肿瘤细胞”和“系统生物学/关键方法”为代表的70个主题,验证了利用主题N元语法模型揭示科技报告领域深层主题的可行性和有效性。
安欣徐硕
关键词:主题分析
基于基尼系数的n-grams特征约简加权算法
2016年
目前,关于n-grams特征加权的计算方法大多是基于其出现频率进行设计的。这类加权计算方式存在一定的问题:n-grams特征是由多个词汇构造而成,由于其出现频率取决于多个词汇,即多个词汇的出现概率取交集,故经常造成出现频率过小而无法得到满意的加权效果。另外,构成n-grams特征的词汇中可能存在一部分与分类无关,传统方法无法对n-grams特征做进一步处理。为了对n-grams特征更好地加权并做进一步处理,利用基尼系数和洛伦茨曲线对ngrams特征内的词汇进行约简和加权,最终得到对n-grams特征的加权结果。通过支持向量机中的实验结果表明,经过基尼系数约简和加权后的n-grams特征在分类结果上要优于TF(Term Frequency)等加权方法,验证了算法的有效性。
张金美舒希勇
关键词:基尼指数洛伦茨曲线
基于字矩阵交运算的n-grams特征选择加权算法被引量:1
2016年
中文文本中,传统的n-grams特征选择加权算法(如滑动窗口法等)存在两点不足:在将每个词进行组合、生成n-grams特征之前必须对每篇文本调用分词接口。无法删除n-grams中的冗余词,使得冗余的n-grams特征对其他有用的n-grams特征产生干扰,降低分类准确率。为解决以上问题,根据汉语单、双字词识别研究理论,将文本转化为字矩阵。通过对字矩阵中元素进行冗余过滤和交运算得到n-grams特征,避免了n-grams特征中存在冗余词的情况,且不需对文本调用任何分词接口。在搜狗中文新闻语料库和网易文本语料库中的实验结果表明,相比于滑动窗口法和其他n-grams特征选择加权算法,基于字矩阵交运算的n-grams特征选择加权算法得到的n-grams特征耗时更短,在支持向量机(Support Vector Machine,SVM)中的分类效果更好。
邱云飞刘世兴邵良杉
关键词:交运算特征加权

相关作者

邵良杉
作品数:295被引量:1,436H指数:20
供职机构:辽宁工程技术大学工商管理学院
研究主题:支持向量机 数据挖掘 工程造价 虚拟企业 煤矿
刘世兴
作品数:5被引量:10H指数:2
供职机构:辽宁工程技术大学软件学院
研究主题:冗余度 N-GRAMS 加权算法 特征加权 词性
邱云飞
作品数:111被引量:461H指数:12
供职机构:辽宁工程技术大学软件学院
研究主题:子空间聚类算法 子空间聚类 残差 文本分类 语义相似度
张金美
作品数:44被引量:31H指数:3
供职机构:淮安信息职业技术学院
研究主题:高职院校 单片机 控制系统 机械加工 高职院校学生
胡智文
作品数:23被引量:74H指数:5
供职机构:温州大学
研究主题:MEMS 读写器 压力传感器设计 高线性 发光二极管