湖南省自然科学基金(07JJ5086)
- 作品数:6 被引量:13H指数:2
- 相关作者:骆嘉伟陈涛杨华苏涵沐刘芳更多>>
- 相关机构:湖南大学更多>>
- 发文基金:湖南省自然科学基金国家自然科学基金更多>>
- 相关领域:自动化与计算机技术生物学更多>>
- 基于BW ratio与二进制量子粒子群的基因选择方法
- 2011年
- 信息基因选择在肿瘤识别问题中起着关键作用。本文提出了一种新的组合式的肿瘤信息基因选择方法,首先从单个基因的样本相关性角度出发,采用BW-ratio过滤指标对基因子集进行初选;然后采用二进制量子粒子群算法进一步对信息基因精选,支持向量机(SVM)作为分类器来测试和评估所选出的肿瘤信息基因的分类能力。在二进制量子粒子群算法中,我们给出了一种新的粒子更新的公式。实验是在两个公开的基因表达谱数据集急性白血病(Leukemia)和结肠癌(Colon Tumor)上完成,分别只需5和7个信息基因就能获得了100%和96.77%的10折交叉验证识别准确率。实验结果表明了所提出的信息基因选择方法对于肿瘤的识别问题研究的有效性和可行性。
- 杨华骆嘉伟
- 关键词:基因表达谱支持向量机
- RNA二级结构的2D图形表示及相似性分析
- 2010年
- 结合RNA序列的核苷酸分类提出了一种新的RNA二级结构的2D图形表示法。该图形表示法能够唯一地表示RNA二级结构,而且图形是无退化的,即不存在重叠或交叉现象。把该图形表示法应用于9个病毒RNA二级结构,通过计算这些序列的数字特征和序列之间的相似性,实验表明该图形表示法是可行的。
- 杨卫东骆嘉伟
- 关键词:RNA二级结构
- 基于茎区组合的RNA二级结构预测算法被引量:2
- 2010年
- RNA二级结构预测是生物信息学的研究热点和难点,特别是对于含假结的RNA二级结构的预测,已经被证明是NP问题。根据RNA折叠的特点,提出了一种基于茎区组合的智能优化算法来预测RNA的二级结构。该算法以RNA的茎区为基本单元,结合图论思想,通过二元关系的基本理论,依据自由能最小原则获取茎区的最优组合。该算法的时间复杂度为O(n3),空间复杂度为O(n2),而且可以发现假结。实验结果证明了算法的有效性。
- 骆嘉伟陈涛
- 关键词:RNA二级结构茎区
- 基于信息离散度的DNA序列相似性分析被引量:4
- 2009年
- 信息离散性度量方法在生物信息处理领域中获得成功的应用,其基本思想是利用子序列分布差异来表示序列之间的差异,但是子序列长度的变化对结果的影响较大。文中提出了一种新的基于信息离散度的DNA序列相似性分析方法,利用不同距离的碱基对的联合概率分布差异来表示DNA序列之间的差异,并分析了信息集变化对结果的影响。实验结果表明,该方法是分析DNA序列相似性的简单且有效的工具。当信息集变化时,相似度较高的序列间的距离值变化很小。
- 骆嘉伟刘芳杨华
- 关键词:碱基对
- 基于最小二乘模糊支持向量机的基因分类研究被引量:6
- 2010年
- 随着大量基因表达数据的涌现,把海量的数据划分成数量相对较少的组,有助于提取对生理学和医药学等有价值的生物信息。基因分类技术能够很好地处理和分析这些基因数据。提出了一种应用于基因分类的模糊最小二乘支持向量机方法,通过设置模糊隶属度改变分类中样本的贡献属性。该方法不仅考虑了样本与类中心点的距离关系,还充分考虑样本与样本之间的关系,减弱噪声或野值样本对分类的影响。采用美国威斯康星乳腺癌数据和皮马印第安人糖尿病数据进行实验检测,均取得了很好的效果。
- 骆嘉伟苏涵沐陈涛
- 关键词:最小二乘隶属度函数模糊支持向量机
- 基于YKW图形表达的人类基因短编码序列识别被引量:1
- 2011年
- 针对人类短编码序列的识别问题,根据碱基在密码子三个位置的偏性和碱基自身物理化学性质的分类,提出一种新的图形表示方法——YKW图形,然后在此图形上,提取了9个有效的面积矩阵特征,识别过程中,为了提高识别率利用递增特征选择算法添加4个统计特征,并采用主元分析(PCA)方法对这13个特征降维,最后使用支持向量机(SVM)对人类的短编码序列进行编码区/非编码区识别。实验结果表明,与其他方法相比,该方法使用较少的特征(7个或4个)取得了更好的识别结果。
- 骆嘉伟颜军何海峰
- 关键词:基因序列