王宇伟
- 作品数:5 被引量:5H指数:2
- 供职机构:南京航空航天大学更多>>
- 发文基金:国家自然科学基金更多>>
- 相关领域:自动化与计算机技术生物学更多>>
- 基于文本关系相似性的蛋白质交互关系识别方法
- 本发明公开了一种基于文本关系相似性的蛋白质交互关系识别方法,包括如下步骤:步骤1:获取文本集中的蛋白质对关键词的句子,对所有句子进行集合得到签名档S;每个蛋白质对为(p1,p2),每个目标蛋白质对都会有签名档与其相对应;...
- 牛耘王宇伟吴红梅魏欧
- 基于关系相似性的蛋白质交互作用识别被引量:3
- 2015年
- 针对目前蛋白质提取方法仅以单句信息为依据的不足,文中提出了以相似性为框架基于大规模文本的蛋白质交互关系识别方法。首先通过搜索医学文献数据库建立蛋白质对的签名档,然后提取签名档中的重要特征建立蛋白质对的向量空间模型,最后通过K近邻分类方法判断蛋白质对的交互关系。实验比较了向量空间模型下不同的距离度量策略对分类效果的影响,得出了比较合理的衡量相似性的函数。结果表明基于大规模文本采用基于余弦距离度量相似性的近邻方法识别蛋白质交互关系取得了较高且均衡的精确度和召回率,并且此方法直接利用了已有的交互信息,从而免除了额外的人工标注负担。
- 王宇伟牛耘
- 关键词:空间向量模型K近邻分类
- 基于文本关系相似性的蛋白质交互关系识别
- 蛋白质交互(PPI)信息是生物学研究的重要内容之一。目前通过生物学实验发现的PPI信息主要以非结构化文本的形式保存在生物文献当中,生物学家试图从这些文献中手工地识别出PPI并将其录入关系数据库,用以建立可利用的知识网络。...
- 王宇伟
- 关键词:向量空间层次聚类自动识别
- 文献传递
- 基于相似性混合模型的蛋白质交互识别被引量:2
- 2015年
- 现有采用机器学习方法的蛋白质交互关系识别系统仅以单句为依据,并且存在标注数据缺乏导致训练集规模小的问题。为此,基于相似性混合模型提出一种新的蛋白质交互识别方法。采用基本的关系相似性(RS)模型做初始判断,利用大规模文本计算单词特征间的相似性,在基本RS模型的基础上通过特征聚类方式引入单词相似性模型,从而建立一个混合模型。实验结果表明,该方法能够取得较高且较均衡的精确度和召回率,而单词相似性的引入又进一步提高了F值,并且其直接利用已有的交互信息,可避免额外的人工标注。
- 王宇伟牛耘魏欧
- 关键词:K近邻分类层次聚类
- 基于文本关系相似性的蛋白质交互关系识别方法
- 本发明公开了一种基于文本关系相似性的蛋白质交互关系识别方法,包括如下步骤:步骤1:获取文本集中的蛋白质对关键词的句子,对所有句子进行集合得到签名档S;每个蛋白质对为(p1,p2),每个目标蛋白质对都会有签名档与其相对应;...
- 牛耘王宇伟吴红梅魏欧
- 文献传递