在Hadoop平台中采用索引文件来辅助查询是解决海量RDF(Resource Description Framework)查询的一种新思路。目前在Hadoop平台中实现的RDF查询都较少利用索引文件,且主要针对RDF的静态数据,对数据动态更新操作的兼容性都比较差。为了克服这两个缺点,提出IMSQ(using Index in MapReduce to Segment and Query)算法来对RDF文件进行分布式查询。该算法主要分为分割和查询两部分:首先为RDF进行一次星形分割,得到若干个分割,文件并建立索引文件;其次在查询时,按照分层生成连接计划,采用过滤选择策略,先找索引文件,缩小文件集,再对相应的分割文件进行查询;最后进行一次结果合并和输出。在LUBM数据集上进行的测试实验表明,在数据量大的情况下IMSQ方法的查询效率具有明显的优势。
案例推理技术已经成为故障诊断、管理辅助决策、专家系统等实现的重要手段.现有的案例推理算法针对海量案例集时,普遍存在检索效率不高问题.设计了一种带权重的多维案例推理算法(Weighted DimensionReduction and R-tree,WDRR),该算法结合案例的多维特征权重,将多维案例降维成二维案例点,并在此基础上建立R树空间索引;案例检索时首先借助R树索引,确定案例的二维点所在,再结合二次权重和K近邻(KNN)算法进行精确过滤,根据相似度阈值输出案例推理的结果,并完成案例学习和索引修正.实验证明该方法针对海量案例集的检索效率和准确率都有较大的提升.
现有的RDF数据分布式并行压缩编码算法均未考虑结合本体文件,导致编码后的RDF数据没有表示任何语义信息,不利于分布式查询或推理。针对这些问题,提出SCOM(Semantic Coding with Ontology on MapReduce)算法在分布式MapReduce下完成RDF数据的语义并行编码。该算法首先结合RDF数据本体,构建类关系和属性关系模型;在三元组项分类与过滤之后,对三元组项进行编码并生成字典表,最终完成RDF数据带有语义信息且具有规律性的编码。此外,SCOM算法能够很容易地将编码后的RDF数据文件恢复为原始文件。实验表明,SCOM算法能够高效地实现大规模数据的分布式并行编码。