于长永 作品数:24 被引量:34 H指数:3 供职机构: 东北大学秦皇岛分校 更多>> 发文基金: 国家自然科学基金 河北省自然科学基金 中央高校基本科研业务费专项资金 更多>> 相关领域: 自动化与计算机技术 医药卫生 生物学 电气工程 更多>>
一种构造正则表达式更小ε-NFA的方法 2013年 基于有限自动机的正则表达式匹配技术在网络信息领域得到了广泛应用,提出了一种构造正则表达式的更小NFA的方法——基于闭包的分片构造法GREC.GREC方法基于正则表达式中同态运算的封闭性以及闭包运算的层次特性和递归性进行构造.首先对正则表达式进行分片处理,然后构造每个分片的NFA,最后利用栈对各分片NFA进行重组获得最终的NFA.GREC方法在正则表达式层次结构复杂或包含有大量闭包运算的情况下,能够快速地构造出空间效率比传统的Thompson构造法高得多的NFA. 敬茂华 杨义先 于长永 辛阳关键词:正则表达式 有限自动机 闭包 一种考虑基因间相互关系的投影聚类算法 2009年 针对现有基因表达数据投影聚类算法假定基因相互独立,根据每个基因的独立区分度选择相关投影空间的不足,提出了根据基因间相互关系进行投影聚类的算法MOLION.通过将基因表达数据转换为序列数据,基于设定的用户偏好函数,采用分界判定法对样本穷举树进行快速地深度优先遍历,同时应用了高效的削减和优化策略.几个真实微阵列数据集上的实验证实了提出的算法具有较高的效率和预测准确性,为考察疾病表型的形成原因提供了一个新视角. 赵宇海 王国仁 于长永 毛克明关键词:基因表达数据 投影聚类 基因序列 数据挖掘 基于最小完美哈希函数的K-mer计数算法 被引量:3 2020年 在DNA序列中对长度为k的子序列K-mer进行计数是生物信息学分析的关键环节,为解决传统K-mer计数中出现的耗时长、内存占用量大的问题,文中提出一种基于最小完美哈希函数的K-mer计数算法。该算法能够无哈希冲突地将K-mer映射到尽可能最小的整数范围内,对最小完美哈希表的查询在常数时间内完成,能够高效处理动态变化的大规模数据集。在处理大肠杆菌基因序列时,本文算法MPH-KMC相对jellyfish2算法,耗时缩短3倍,内存消耗缩小11倍。 徐菡 于长永 史劼关键词:计数算法 指纹核心点的位置确定及其方向计算 被引量:2 2009年 核心点作为指纹的一个基本特征,在指纹匹配和分类中起着重要作用.应用机器学习方法区分核心点区域与非核心点区域.核心点区域与非核心点区域的脊线局部方向分布可用来构造训练数据,并用多尺度SVM方法得到训练模型,并由相应的模型估计出核心点的准确位置.定义了核心点的方向,并利用一种启发式方法来计算.实验表明,该方法可以准确有效地确定核心点的位置和方向,并提高指纹匹配的性能. 毛克明 王国仁 于长永 金艳关键词:指纹 支持向量机 红外热成像辅助面神经功能自动评估方法研究 被引量:8 2016年 面瘫是一种多发的面神经疾病,表现为患侧面神经功能失调,严重影响患者的正常生活和人际交往。面神经功能自动评估方法对于面瘫的诊治是至关重要的。面部神经功能受损导致体表温度分布发生改变,可以通过红外热成像采集患者的面部温度分布不对称特征,基于红外热成像提出一种面神经功能自动评估新方法,融合温度特异性和边缘检测自动将面部红外热像划分为左右对称的八个区域,提取面部温度不对称特征,包括温差、有效热面积比和温度分布不对称度,采用径向基神经网络作为面神经功能自动分类器。实验收录了390幅单侧患病的面瘫患者正面红外热像图,结果显示:采用径向基神经网络的红外热成像面神经功能自动分类器的平均分类准确率为94.10%,比采用K近邻分类器和支持向量机分类器分别提高了9.31%和4.87%,优于传统的House-Brackmann面神经功能评估方法,对面神经功能的分类精度完全符合临床应用标准,可以有效评估面瘫患者的面神经功能,有助于面瘫的临床诊断与治疗。 刘旭龙 付斌瑞 许沥文 鲁宁 于长永 柏禄一关键词:面神经功能 红外热成像 温度 利用决策树方法对蛋白质鉴定结果二次评价 2010年 为了有效地利用蛋白质串联质谱数据,进一步提高蛋白质鉴定的准确性,提出一种基于决策树的蛋白质鉴定结果的二次评价算法.目前,串联质谱已经成为解决蛋白质鉴定问题的最为有效的技术手段.随着蛋白质串联质谱数据的大量聚集,蛋白质鉴定算法也日益增加.然而,现有的蛋白质鉴定算法通常返回数量庞大的结果列表,因此对列表中的鉴定结果进行二次评价是提高蛋白质鉴定准确性的一个重要环节.针对此问题,首先利用频繁模式挖掘方法获得了b离子的特征信息,进而基于决策树理论提出一种蛋白质鉴定结果的二次评价算法-即ReCheck算法.实验结果表明,该算法有效的提高了蛋白质鉴定的准确性. 于长永 王国仁 吴俊杰 毛克明关键词:蛋白质鉴定 串联质谱 数据挖掘 决策树 一种基于信息论的蛋白质数据库搜索鉴定算法 2009年 为了有效地利用蛋白质串联质谱数据,提高蛋白质鉴定的准确性,提出了一种基于信息论的蛋白质数据库搜索鉴定算法——ITPIA(information theory based protein identification algorithm)算法.针对多肽串联质谱质量低、噪音多等问题,ITPIA算法利用了信息论中的熵理论提出了一种有效的实验串联质谱和多肽的理论质谱的匹配打分算法.该算法更大程度上从多肽串联质谱中获得蛋白质的结构信息.实验结果表明,ITPIA算法有效地提高了蛋白质鉴定的准确性. 于长永 王国仁 毛克明 翟文丹关键词:蛋白质鉴定 串联质谱 数据库搜索 一种新颖的蛋白质序列与其串联质谱的匹配打分算法 被引量:1 2010年 为了有效的利用蛋白质串联质谱数据,提高蛋白质鉴定的准确性,提出一种基于KNN的蛋白质序列与蛋白质串联质谱的匹配打分算法.蛋白质序列与蛋白质串联质谱的匹配打分是蛋白质数据库搜索鉴定过程中的关键技术.然而,现有的算法没有很好的利用蛋白质串联质谱中离子的强度信息.针对此问题,本文根据质谱中离子的类型给出了全体离子的一个合理的划分,进而抽象出一个高维的强度特征向量,在已知的高精度的数据集上建立了强度匹配知识集合,最后基于KNN技术构造了序列和质谱的匹配打分算法.实验结果表明,本文算法更加有效的利用了蛋白质串联质谱的结构信息,提高了蛋白质鉴定的准确性. 于长永 王国仁 毛克明 翟文丹关键词:蛋白质鉴定 串联质谱 数据库搜索 一种基于位运算和SIMD并行操作的字符串过滤方法 本发明提供一种基于位运算和SIMD并行操作的字符串过滤方法,属于字符串匹配和比对领域。该字符串过滤方法在编辑距离矩阵中寻找计算规律,将编辑距离矩阵与偏移汉明掩码原理相结合,从理论上减少位操作的调用次数;计算过程中使用的树... 于长永 赵楚音乐数字序列中主题重复片段的查找 2006年 随着将音乐作品转化为数字数据技术的不断涌现,基于音乐作品内容的查询已经成为未来音乐数据查询的一个重要方向,音乐作品中有意义的重复片段查询是其中一个重要部分.定义音乐数据中有意义的重复片段和给出有效的查找算法是亟待解决的两个重要问题.从音乐作品中重复片段的意义和听众对音乐作品的感知两个角度出发,定义了一种新的音乐数据重复片段--主题重复片段,并提出了查找算法.考虑到查找过程的复杂性,基于音乐数字序列中(δ,γ)相似性,设计了δ过滤器及γ过滤器,在线性时间内得到重复片段的候选集,提高了查找的效率.实验结果表明,算法在查找效率上是令人满意的. 陈白尘 王镝 王国仁 赵毅 于长永 徐莹颖关键词:过滤器