国家自然科学基金(60772028)
- 作品数:8 被引量:11H指数:2
- 相关作者:王立宏武栓虎宋宜斌秦洋赵宪佳更多>>
- 相关机构:烟台大学青岛大学上海大学更多>>
- 发文基金:国家自然科学基金山东省自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于潜在语义分析的启动子识别
- 本文提出一种基于潜在语义索引的启动子预测方法,给出了算法的详细描述。利用该算法对6个基因序列上的启动子进行查找,实验结果比现有文献结果略好一些。
- 秦洋王立宏武栓虎宋宜斌
- 关键词:潜在语义索引启动子
- 文献传递
- 基于二值图像的指纹特征点快速提取算法被引量:2
- 2009年
- 提出了一种基于二值图像的特征点快速提取算法。该方法仅通过对二值图像中的有效点进行一次顺序遍历,根据二值图像的局部特征可以准确地提取出指纹图像中的特征点,具有简单快速并且有效的特点。
- 胡海威公绪成孙立民
- 关键词:指纹识别二值图像特征点提取
- 启动子的潜在语义索引差异识别算法被引量:1
- 2010年
- 启动子是基因前面的一个短序列,定位启动子即能找到基因,因此启动子的识别具有重要意义.潜在语义索引差异模型(DLSI)能够扩大类间的差异,降低噪声的干扰,从而提高识别的精度.本文提出基于DLSI的启动子识别算法,利用潜在语义索引差异模型进行特征词选择,通过将样本变换到潜在语义空间中实现降维,建立了启动子-外显子、启动子-内含子分类器,把两分类器的串联结果作为最终的分类结果.实验验证了算法的有效性.
- 秦洋王立宏武栓虎宋宜斌
- 关键词:潜在语义索引启动子识别
- 基于EM的启动子序列半监督学习被引量:3
- 2009年
- 启动子的预测对于基因的定位有重要意义.已有多种对启动子进行预测的算法,涉及到信号搜索、内容搜索和CpG岛搜索等多种策略.基于马尔可夫模型的启动子分类方法也有研究,其中的转移概率都是直接通过统计已标号训练样本序列得来的.将半监督学习思想引入启动子序列分析中,推导出转移概率等参数的最大似然估计公式.实验中将待测试基因序列片段同已标号训练样本混合,利用得出的参数值对基因序列片段进行识别,使用少量的已标号的样本数据能得出较好的启动子识别结果.
- 王立宏赵宪佳武栓虎
- 关键词:马尔可夫模型最大似然估计启动子识别半监督学习
- 离散化方案的度量被引量:2
- 2008年
- 分析数值决策表离散化方案的度量指标,包括断点数、条件信息熵、粒度熵、类-属性互信息、类-属性互相依赖冗余等.认为相容决策表的条件信息熵和类-属性互信息都是常数,对离散化方案不再有指导作用.讨论粒度熵与互相依赖冗余的关系,证明粒度熵随断点的加入而增加.设计实验度量这些指标之间的关系,实验发现,断点数和粒度熵与预测精度之间的相关程度不相上下,和具体的数据集有关.
- 王立宏吴耿锋
- 关键词:粒度熵断点粗集
- 基于DNA双链特征的启动子预测方法
- 2009年
- 真核启动子预测是DNA序列分析的重要问题之一.本文提出一个基于内容的新算法,考虑DNA的双链特征,特征的出现频率用位置权矩阵表示,利用boosting算法进行训练和预测,得出的结果与其他算法相比,有很好的敏感性和特异性.
- 王雯雯武栓虎
- 关键词:启动子预测
- 基于拉普拉斯矩阵的DNA序列集相似性分析被引量:1
- 2009年
- 研究两个序列集合之间相似性度量,提出基于拉普拉斯矩阵特征值的分离度概念和公式表示.基于人工序列和真实DNA序列上的实验结果,证实了分离度能够度量序列间的相似程度.
- 秦洋王立宏武栓虎宋宜斌
- 关键词:拉普拉斯矩阵启动子DNA序列
- 信息表的闭离散化方案研究
- 2008年
- 提出对象域U的有序划分概念,讨论一种特殊的离散化方案(闭离散化方案)。给出对象域U的有序划分对应的闭离散化方案获取算法CDA,分析闭离散化方案与对象域U的有序划分之间的关系,证明了闭离散化方案在离散格到划分格的映射f下能保持交并运算。
- 王立宏
- 关键词:粗集
- 一种潜在语义索引差异模型被引量:2
- 2008年
- 通过对全局模型和局部模型的分析,提出一种新的潜在语义索引差异模型,能将类别信息反应在词项中.以医学网页为实验对象,将网页中的文本抽取出来并分别用全局模型和差异模型表示,采用SVD和SLSI降维,利用SVM算法进行分类并计算分类正确率和F1指标.实验发现:采用差异模型表示时,2种降维技术下分类正确率和F1指标较全局模型都有明显提高;同时采用差异模型和SLSI算法并不能对分类结果有更大改善.
- 米晓芳王立宏宋宜斌
- 关键词:潜在语义索引文本分类SVM算法