朱丽萍
- 作品数:15 被引量:95H指数:5
- 供职机构:中国石油大学(北京)地球物理与信息工程学院更多>>
- 发文基金:国家科技重大专项北京市重点实验室国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术石油与天然气工程天文地球更多>>
- 面向海量小文件的分布式存储系统设计与实现被引量:13
- 2016年
- 针对当前大数据环境下急速增长的小文件的保存和管理问题,提出一种基于分布式海量小文件存储系统的设计和实现方案。采用IO复用和异步调用技术开发分布式系统,保证良好的并发性能和扩展性,使用Redis系统提高元数据存储和检索效率,采用Google Protobuf设计一套消息传递和分发机制,通过块存储方案提高大量小文件在单机存储系统上的IO效率并降低磁盘碎片化。实验结果表明,该系统在并发性、吞吐率测试上都有良好表现,是一个较为稳定高效的海量小文件分布式存储系统。
- 李洪奇朱丽萍孙国玉王露
- 关键词:分布式存储海量数据并发性
- 基于语义模式和引用分布的科技文献信息抽取被引量:3
- 2015年
- 科技文献中回顾前人研究成果、分析存在的问题、提出解决方法等语言片段是论文创新性信息的构成部分。分析论文写作过程中问题分析信息的逻辑思维以及在文章中呈现的篇章关系,综合利用引用分布特征、篇章关系特征、否定情感特征构建具有普适性的信息抽取语义模式。从论文原始文本中通过匹配定义好的语义模式抽取出问题分析信息。同时,利用引导词特征、语义相似度计算从论文文本中抽取出论文的主要工作信息。以数据挖掘领域科技文献为例,对比人工抽取结果对提出的方法进行评价,结果表明该方法能较准确抽取相应信息,为科技论文聚类、论文推荐提供基础数据来源。
- 杨中国李洪奇朱丽萍刘蔷
- 关键词:语义模式引导词
- 基于模型驱动数据挖掘的低阻油层识别方法被引量:5
- 2010年
- 基于多参数信息的低阻油层的识别属于高维、非线性的模式识别问题.结合研究工区低阻油层储层特征,分析研究工区构造和沉积特征,以数据挖掘方法为基础,确定模型驱动数据挖掘的理论框架;以测井、岩心和试油的相关信息为源数据,利用聚类和关联分析获取敏感参数;以敏感参数为核心,采用决策树、贝叶斯网络、支持向量机和人工神经网络方法获得多参数组合的预测模型,并结合参数的物理含义和低阻油层的实际特征,对预测模型进行修正,改进预测模型的实用性.结果表明:利用模型驱动数据挖掘方法得到的最优预测模型,预测研究工区的低阻油层的识别准确率为90.05%.
- 朱丽萍李雄炎李洪奇
- 关键词:数据挖掘低阻油层储层预测特征参数
- 声波测井极端扩径校正算法在CUDA平台上的实现
- 2013年
- 声波测井是获得井眼附近地层参数的重要测井方法之一。然而许多钻井中存在着极端扩径情况,这对声波测井数据有一定的影响,因此有必要对声波测井数据作环境校正。已经证明声波测井极端扩径校正算法可以有效地校正因井径不规则产生的对声波测井数据的影响。然而该方法在计算机运行的过程中暴露出数据占用空间大、运行时间较长等弊端,无法满足测井解释工作现场快速处理的要求。针对声波反演校正算法的这些弊端,通过对声波测井极端扩径反演校正算法的研究,根据CUDA并行计算适合大规模重复计算的特点,设计了声波反演校正算法的CUDA并行算法。在搭建的CUDA编程平台上,实现了声波测井极端扩径校正算法的并行计算。通过对实际井资料的处理实验发现与串行计算相比,CUDA并行计算在保证精度的基础上处理200米井数据所用时间可降低30%。因此从计算结果和计算时间上说明声波测井极端扩径校正算法适合在CUDA上并行计算。
- 李洪奇赵阳阳朱丽萍
- 关键词:声波测井并行计算CUDA
- 基于WebGL的三维WebGIS场景实现被引量:40
- 2014年
- 寻求一种不需要组件加载来实现三维WebGIS场景的解决方案,对突破目前三维WebGIS缺乏高效前端显示技术的瓶颈具有重要意义。将WebGL作为图形引擎,采用真实空间数据作为验证和测试数据,使用JavaScript编写一套较完整的三维WebGIS场景及图层元素类库,设计简单的数据服务,形成一个简单的GIS系统。实验验证了WebGL是一种可行有效的实现零组件三维WebGIS场景构建的技术手段。
- 朱丽萍李洪奇杜萌萌王莹
- 关键词:地理信息系统
- 基于数据集相似性的分类算法推荐被引量:6
- 2016年
- 近年来,随着大数据分析需求的急剧增长,分类算法的运用也越来越广泛,如何为用户选择适用的分类算法成为数据挖掘技术在应用上亟待解决的难题。相关研究表明,同一算法在相似数据集上具有相近的分类效果。根据这一理论,构建基于数据集相似性的分类算法选择模型。首先采用数据集离散化方法来对数据集进行特征提取,构建样本库,然后结合邻近相似的原则为数据集推荐合适的分类算法。通过UCI数据集上的算法实验,结果表明大多数情况下推荐得到的分类算法具有良好的性能。
- 李洪奇徐青松朱丽萍戚雪晨
- 关键词:数据挖掘性能评价
- 基于Hadoop的地震属性数据存储结构被引量:2
- 2017年
- 地震属性分析在储层评价、地层岩性解释等方面有着重要的作用。单机环境地震属性分析计算比较耗时,使用Hadoop分布式并行计算框架,可以缩短计算时间。单一地震属性以SEGY格式独立保存,多种地震属性上传至HDFS时被分发至不同节点,而计算时通常使用多种地震属性共同参与计算,增加了节点之间的数据传递的开销。通过改变地震属性数据组织形式,抽取同一坐标地震属性进行组合,并把坐标位置相邻的地震属性组合到一个文件中,减少集群节点间不必要的数据传递。实验表明相比于传统方法,使用MapReduce完成地震属性分析相关计算用时明显减少,并且计算用时随着集群中节点数目的增加而减少。
- 朱丽萍王显灿李洪奇王建东王小朋
- 关键词:HADOOP分布式文件系统地震属性
- 一种面向科技文献引言的信息抽取方法被引量:6
- 2015年
- 分析了引言部分写作模型,将文本按照句子级别划分为背景知识、问题分析、工作描述三个类别。统计每个部分句子的引导词、句型表达、线索词、所处位置的特征,并构建相应规则库。在分词和词性标注基础上,利用规则匹配每个句子得出所属的类别,从而抽取出三个部分的信息。以石油勘探开发类科技文献和数据挖掘类科技文献为例,进行人工判别和本文方法抽取试验,结果表明本文方法能准确获取相应信息。
- 朱丽萍李洪奇杨中国刘蔷
- 关键词:信息抽取背景知识
- 采油厂信息银行化管理系统的设计与实现被引量:1
- 2006年
- 介绍了信息银行化管理系统的概念以及大庆油田某采油厂信息银行化管理系统的设计与实现。系统的底层由FTP,SMTP,POP3,HTTP等协议支持,综合运用了包括加密解密和ASP.NET等多种技术。着重介绍了域用户系统的结构和配置,COM组件在W eb中的应用,ActiveX技术,多层数据库的原理和实现。信息银行化管理系统可以为大中型企业提供信息管理的企业级解决方案。
- 李勤朱丽萍邵国强郝凤鹰
- 关键词:COM组件多层数据库
- 基于数据集特征的KNN最优K值预测方法被引量:13
- 2016年
- KNN算法中的参数K的选择一般采取多次交叉验证方法求取,数据规模较大时并不适用。同时,影响参数选择最根本的因素是数据集本身。因此,提出利用数据集本身的特征预测最优K值的方法。首先提取历史数据集的简单特征、统计特征、信息熵特征、简单算法精度特征、复杂度特征等构建特征向量,然后利用线性回归、神经网络等方法建立特征向量与最优K值之间的预测模型,并用该模型预测新数据集的最优K值。在UCI数据集上的实验表明,该方法能迅速预测最优K值,并确保一定的精度。
- 李洪奇杨中国朱丽萍刘蔷
- 关键词:KNN分类算法信息熵