何增有
- 作品数:11 被引量:11H指数:2
- 供职机构:大连理工大学国家示范性软件学院更多>>
- 发文基金:国家自然科学基金黑龙江省杰出青年科学基金中央高校基本科研业务费专项资金更多>>
- 相关领域:自动化与计算机技术生物学经济管理更多>>
- 数据挖掘与最优化结合的理论方法体系与问题求解模型被引量:1
- 2005年
- 在研究了已有数据挖掘的过程模型的基础上,提出了数据挖掘与最优化结合的理论方法体系和支持最终决策分析的管理问题求解模型,目标是有效地将各种数据挖掘技术与最优化方法在实际应用中有机地结合起来,并为复杂的管理决策分析问题求解和决策实施提供一个切实可行的参考模型.通过在客户群决策分析中的应用,验证了提出的方法和模型的可行性和有效性.
- 何增有徐晓飞邓胜春
- 关键词:数据挖掘决策支持
- CUDA-TP:基于GPU的自顶向下完整蛋白质鉴定并行算法被引量:1
- 2018年
- 蛋白质及蛋白质翻译后修饰(post-translational modifications,PTMs)的鉴定是蛋白质组学研究的基础,对整个领域的进一步发展有着十分重要的意义.近年来,质谱设备的快速发展使得获取"自顶向下"(top-down,TD)的高精度完整蛋白质质谱数据成为可能.目前基于TD质谱数据的完整蛋白质鉴定算法虽然在匹配精度、PTM位点的推断上取得了一些成效,但它们运行时间还有很大的不足和提升空间.利用图形处理器(graphics processing unit,GPU)可以将大规模的重复计算并行化,提高串行程序的执行速度.CUDA-TP算法基于通用并行计算架构(compute unified device architecture,CUDA)来计算蛋白质与TD质谱数据的匹配分数.首先,对每一个质谱数据,CUDA-TP利用优化的MS-Filter算法在蛋白质数据库中过滤出其对应的少数候选蛋白质集合,然后通过AVL(adelson-velskii and landis)树加速质谱匹配过程.GPU中的多线程技术被用来并行化谱图网格及最终数组中所有元素的前驱结点的求解.同时,该算法还使用target-decoy策略来控制蛋白质与质谱图匹配结果的错误发现率(false discovery rate,FDR).实验结果表明:CUDA-TP算法能够有效地加速完整蛋白质的鉴定,速度分别比MS-TopDown和MS-Align+快10倍与2倍.到目前为止,这是唯一能够利用CUDA架构来加速完整蛋白质鉴定的研究工作.CUDA-TP源代码公布在https://github.com/dqiong/CUDA-TP.
- 段琼田博陈征王洁何增有
- 关键词:蛋白质鉴定图形处理器
- 基于概率图模型的蛋白质推断算法被引量:1
- 2016年
- 蛋白质组学是研究细胞内表达的所有的蛋白质及其变化规律的一门新兴学科。蛋白质组学的一个重要目标是能够快速准确的进行蛋白质鉴定。蛋白质鉴定主要包括肽段鉴定和蛋白质推断两个步骤。肽段鉴定是从原始质谱数据中鉴定出肽段序列,而蛋白质推断是从这些鉴定得到的肽段中还原出原始的蛋白质序列。但由于质谱数据固有的不确定性和蛋白质组的复杂性,使得解决蛋白质推断问题变得很困难。本文引入串联质谱数据对于蛋白质存在概率的影响,提出了一种基于概率图模型的方法(PGMPi)来解决蛋白质推断问题,将蛋白质推断问题抽象成一个概率图模型的求解问题,通过寻找蛋白质的最大后验概率来推断真实存在的蛋白质集合。该方法不仅能够进行有效的蛋白质推断,而且模型参数少,提高了算法的稳定性。实验结果表明该模型在蛋白质推断上具有很好的表现。
- 赵璨段琼何增有
- 关键词:概率图模型
- 去冗余Top-k对比序列模式挖掘被引量:1
- 2018年
- 对比序列模式可以用来表征不同类别数据集之间的差异。在生物信息、物流管理、电子商务等领域,对比序列模式有着广泛的应用。Top-k对比序列模式挖掘的目标是发现数据集中对比度最高的前k个序列模式。在Top-k对比序列模式挖掘中,可能挖掘出冗余的序列模式。目前,虽然有Top-k对比序列模式发现算法被提出,但这些算法并未考虑冗余序列模式的问题。为此,本文提出了基于广度优先生成树的去冗余Top-k对比序列模式挖掘算法BFM(breadth-first miner)。使用BFM算法可以有效地解决冗余问题,得到去冗余的Top-k对比序列模式。在BFM算法的基础上,提出了性能更好的算法PBFM(pruning breadth-first miner)。通过在真实数据集上的实验分析与对比,验证了本文算法的有效性。
- 江冰谷飞洋何增有
- 关键词:广度优先TOP-K
- 基于置换检验的聚类结果评估被引量:1
- 2016年
- 对聚类结果,传统的评估方法不能从统计意义上对结果评估。ECP是一种新颖的基于置换检验的评估算法。ECP直接对聚类结果进行置换检验从而计算出p-value。为了测试ECP的效果,利用了UCI中的iris,wine,yeast数据集对算法进行评测。实验结果表明,ECP可以在能够接受的时间内运算出比较准确的实验结果。
- 谷飞洋田博张思萌陈征何增有
- 关键词:聚类
- 磷酸化基序精确置换检验p-value的计算方法
- 蛋白质磷酸化基序指的是位于磷酸化位点周围具有位置特殊性的氨基酸序列.磷酸化基序挖掘是生物信息学中的一个重要问题.针对该问题,已经提出了一些有效的挖掘方法.但是,这些方法所挖掘到的磷酸化基序中会存在很多的假阳性结果.采用这...
- 吴军何增有张琳
- 面向PCP-MS数据的PPI网络推断算法被引量:1
- 2019年
- 随着蛋白质组学的发展,研究者们开始聚焦于人类的全部蛋白质相互作用(Protein-Protein Interaction,PPI)网络的建立,质谱分析技术已成为预测蛋白质相互作用的代表方法。质谱技术是构建蛋白质相互作用网络的主要实验手段之一,基于质谱技术产生了大量的蛋白质纯化数据,如AP-MS数据和PCP-MS数据等。这些数据为PPI网络的构建提供了重要的数据支持,但是通过人工的手段来构建PPI网络不仅低效,而且很不现实。因此,面向PCP-MS数据的网络推断算法是生物信息学研究的一个热点问题。文中针对一类主流的质谱(PCP-MS)数据的PPI网络构建算法问题开展研究,从解决目前存在的瓶颈问题出发,达到构建高质量PPI网络的目的。现有的面向PCP-MS数据的PPI网络推断算法的研究还处于初级阶段,相关方法较少。同时,算法结果的质量还存在着一些问题:1)很多错误的相互作用被包含在不同的推断算法结果中,同时一些正确的相互作用在结果中被遗漏;2)不同的推断算法在同一数据集上的表现差异较大;3)对于不同的数据集,同一算法表现性能的波动方差较大。因此,为了从PCP-MS数据中推断出结构可靠、质量较高的PPI网络,文中提出一种基于相关性分析与排序整合的PPI评分方法。该方法基于无监督学习,包括以下两个步骤:1)计算蛋白质之间的相关系数,得到多组相关性结果;2)采用排序整合的方法对多组结果进行整合,得到整合后的PPI分数。实验结果表明,所提方法在不使用参考标准的情况下,可以达到与有监督学习方法接近的结果。
- 陈征田博何增有
- 关键词:PPI网络
- 大规模交易数据库的聚类算法与离群点检测
- 聚类分析与离群点检测是数据挖掘中的关键问题,该文针对大规模交易数据库,研究聚类与离群点检测算法.主要研究工作包括:1)提出了一个高效的符号属性聚类算法:Squeezer算法.该算法能够在产生好的聚类结果的同时具有良好的伸...
- 何增有
- 关键词:聚类离群点数据流数据挖掘
- 文献传递
- 面向客户群分析的数据挖掘技术
- 客户群分析是分析型客户关系管理中最重要、最核心的问题之一。本文从客户群分析过程的全生命周期出发,运用数据挖掘方法,针对客户群分析各个阶段对数据挖掘算法的特殊需求,提出了新的数据挖掘算法并且提取新的数据挖掘问题,以满足客户...
- 何增有
- 关键词:数据挖掘聚类分析算法
- 文献传递
- 一种基于垂直分布的非数值数据聚类算法被引量:2
- 2003年
- 在本文中 ,我们提出了一种新的非数值数据聚类算法 -VBCCD .VBCCD算法由关系表计算关系的一维分割 ,再由关系的分割来构造一个超图 ,而后通过超图分割算法 ,对构造出来的超图进行优化分割 ,得到最终的聚类结果 .试验结果表明 ,该算法比传统的针对数值数据设计的聚类算法有更好的效果 .
- 何增有邓胜春徐晓飞宋玉福
- 关键词:数据挖掘超图