刘晓燕 作品数:63 被引量:193 H指数:8 供职机构: 哈尔滨工业大学 更多>> 发文基金: 国家自然科学基金 国家教育部博士点基金 中央高校基本科研业务费专项资金 更多>> 相关领域: 自动化与计算机技术 建筑科学 生物学 天文地球 更多>>
基于信息增益理论的整体基因中基因互作挖掘方法 2015年 复杂疾病一般由多个基因共同作用发生,单个基因的效应微小,为了更好地研究基因互作对复杂疾病的影响,提出了一种基于基因的信息增益模型。信息增益在分类系统中指变量为分类带来信息的多少,带来的信息越多,该变量对分类越重要。该模型从一个整体基因的所有单核苷酸多态性位点(single nucleotide polymorphism,SNP)出发,采用病例-对照数据来检测基因互作对疾病的影响。由于基因是功能表达的最小单位,与基于SNP的交互作用分析方法相比,该模型更能从生物学的角度解释疾病的遗传机制。最后,采用模拟数据和类风湿性关节炎疾病的真实数据进行实验,并与基于SNP的熵模型以及基于基因的核典型相关分析模型(kernel canonical corelation based U statistic,KCCU)两种模型比较,结果均验证了该模型的有效性。 黄冬丽 郭茂祖 李晋 刘晓燕 王春宇关键词:复杂疾病 基因互作 信息增益 基于读分割最优匹配的indels识别算法 被引量:1 2017年 高通量测序技术的发展,极大地推动了基因组结构变异识别的研究.当前,该领域主要使用覆盖度、读分割或片段组装方法来识别变异,但目前的方法识别结果不够准确,敏感度高,对基因组结构变异的信息(如变异序列、变异坐标等)挖掘不充分.插入和删除类型的结构变异统称为indels,在基因组结构变异中最为常见.为此,针对indels的精确识别,提出了基于读分割和动态规划的最优序列匹配算法(optimal split-read matching algorithm,简称OSRM).OSRM算法能将异常读片段以最少的空位打断比对到参考序列上.首先,建立异常读片段与特定参考序列的匹配得分矩阵;然后,建立回溯路径矩阵;最后,用以变异特点设计的得分公式对每条路径进行最优匹配筛选,输出精确识别的indels坐标及序列.实验结果显示,该方法对小中型的indels有很高的识别性能.此外,与读分割法的经典算法Pindel进行了比较,证实OSRM算法在小中型的indels识别方面有更好的效果,可识别更复杂的情况. 王春宇 潘俊 郭茂祖 刘晓燕 刘扬 刘国军关键词:拷贝数变异 动态规划 海洋石油工程数据管理模式的探讨 结合数据库最新发展技术,讨论面向海洋石油工程数据管理系统开发过程中应注意的问题.系统地分析总结了海洋石油工程数据的组织管理方法,对已有系统的改进及新系统的开发有着重要的促进作用. 黄虎杰 郭萍 段忠东 刘晓燕 欧进萍 陆钦年 杨国金 关永福关键词:数据库设计 工程数据管理 海洋石油工程 基于显著图的弱监督实时目标检测 被引量:4 2020年 深度卷积神经网络(Deep convolutional neural network,DCNN)在目标检测任务上使用目标的全标注来训练网络参数,其检测准确率也得到了大幅度的提升.然而,获取目标的边界框(Bounding-box)标注是一项耗时且代价高的工作.此外,目标检测的实时性是制约其实用性的另一个重要问题.为了克服这两个问题,本文提出一种基于图像级标注的弱监督实时目标检测方法.该方法分为三个子模块:1)首先应用分类网络和反向传递过程生成类别显著图,该显著图提供了目标在图像中的位置信息;2)根据类别显著图生成目标的伪标注(Pseudo-bounding-box);3)最后将伪标注看作真实标注并优化实时目标检测网络的参数.不同于其他弱监督目标检测方法,本文方法无需目标候选集合获取过程,并且对于测试图像仅通过网络的前向传递过程就可以获取检测结果,因此极大地加快了检测的速率(实时性).此外,该方法简单易用;针对未知类别的目标检测,只需要训练目标类别的分类网络和检测网络.因此本框架具有较强的泛化能力,为解决弱监督实时检测问题提供了新的研究思路.在PASCAL VOC 2007数据集上的实验表明:1)本文方法在检测的准确率上取得了较好的提升;2)实现了弱监督条件下的实时检测. 李阳 王璞 刘扬 刘国军 王春宇 刘晓燕 郭茂祖基于加性噪声模型的基因调控网络构建算法 被引量:1 2015年 为在统计推断方法通过相关性来筛选基因对时,能够体现调控关系的因果性,受因果定向算法能够有效定向调控关系的启发,将加性噪声模型与因果定向算法相结合,用基于加性噪声的定向算法度量因果关系的程度,提出了一种基因调控网络构建的算法.该算法首先将加性噪声模型的因果定向算法扩展为一个特征选择算法,并通过建立调控因子集合与每个基因间的加性噪声模型来选择基因的调控因子.在DREAM5的3个数据集上的实验结果显示,结果比其他算法有明显提升,该算法可有效构建基因调控网络. 王春宇 宋建春 郭茂祖 邢林林 刘晓燕关键词:基因调控网络 生物信息学中的文本挖掘方法 被引量:2 2011年 从两个角度讨论应用于生物信息学中的文本挖掘方法。以搜索生物知识为目标,利用文本挖掘方法进行文献检索,进而构建相关数据库,如在PubMed中挖掘蛋白质相互作用和基因疾病关系等知识。总结了可以应用文本挖掘技术的生物信息学问题,如蛋白质结构与功能的分析。探讨了文本挖掘研究者可以探索的生物信息学领域,以便更多的文本挖掘研究者可以将相关成果应用于生物信息学的研究中。 邹权 林琛 刘晓燕 郭茂祖关键词:生物信息学 文本挖掘 蛋白质相互作用 SVM与主动学习方法相结合的蛋白质相互作用预测 被引量:2 2014年 提出了基于SVM的主动学习算法,用来解决蛋白质相互作用的预测问题。细胞中的生物过程是通过蛋白质相互作用实现的。但是通过实验验证蛋白质之间是否具有相互作用的代价非常大,而且数据很难获取。为了在有限的阳性样本情况下更加快速准确地预测蛋白质之间是否具有相互作用,引入了主动学习方法。主动学习算法可以用来构造有效训练集,其目标是通过迭代抽样,每次寻找最富有信息量的数据点,找到最有利于提升分类效果的样本,进而减小分类训练集的大小。比较了5种不同的主动学习算法,以寻找在有限资源前提下提高分类算法效率的最佳途径。实验表明,主动学习方法与SVM算法相结合,能够在保证SVM分类性能的前提下,有效减少学习所需的样本数量。 史文丽 郭茂祖 李晋 刘晓燕关键词:支持向量机 蛋白质相互作用 大跨空间结构智能方案设计的评价与决策系统 被引量:2 2005年 针对结构方案设计中方案评价的多人、多层次、多目标的综合性问题,以专家系统开发工具C-AD-VISOR 3.0为平台,开发了一个大跨空间结构智能方案设计的评价及决策系统,实现了大跨空间结构方案设计的多因素多级模糊综合评判及基于相似接近度的模糊多属性决策.应用实例表明,此系统可以有效地应用于实际工程的方案评价和决策过程. 王力 刘晓燕 吕大刚 王光远关键词:大跨空间结构 专家系统 高层结构智能型式优化的实例库与数据挖掘系统 首先,构建了基于面向对象技术的工程实例集成信息模型,统一制订了43个实例调查表, 获取了1008个工程实例;其次,给出了将面向对象模型转换为关系模型的规则,实现了它们间的转换, 建立了高层结构实例库表关系结构,在SQL ... 张世海 罗燕球 刘晓燕 欧进萍关键词:高层建筑结构 实例库 数据挖掘系统 文献传递 一种融入约束信息的远程监督关系抽取方法 一种融入约束信息的远程监督关系抽取方法,涉及自然语言处理技术领域,为了解决基于远程监督的关系抽取中所出现的标签噪声问题和长尾关系问题,采用本申请提出的关系抽取方法,可以通过引入实体类型信息和关系约束信息来丰富关系抽取模型... 刘扬 梁天铭 刘晓燕 刘国军 王春宇 郭茂祖文献传递