江苏省“六大人才高峰”高层次人才项目(06-E-037)
- 作品数:9 被引量:21H指数:3
- 相关作者:崔志明方巍赵朋朋胡鹏昱黄黎更多>>
- 相关机构:苏州大学江苏省计算机信息处理技术重点实验室江苏广播电视大学更多>>
- 发文基金:国家自然科学基金江苏省“六大人才高峰”高层次人才项目江苏省普通高校研究生科研创新计划项目更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于最大熵分类器的Deep Web查询接口自动判定被引量:2
- 2008年
- Web中包含着海量的高质量信息,它们通常处在网络深处,无法被传统搜索引擎索引,将这样的资源称为Deep Web。因为查询接口是Deep Web的唯一入口,所以要获取Deep Web信息就必须判定哪些网页表单是Deep Web查询接口。由于最大熵模型可以综合观察到的各种相关或不相关的概率知识,对许多问题的处理都可以达到较好的结果。因此,基于最大熵模型的分类性能,利用最大熵分类算法自动判定查询接口。并通过实验,将最大熵分类法与其它常用分类方法进行了比较,结果显示它的分类性能优于Bayes方法和C4.5方法,与SVM方法相当,表明这是一种非常实用的查询接口分类方法。
- 方巍黄黎崔志明
- 关键词:DEEP网页表单最大熵模型
- 基于属性高频字的深网数据库重叠率估计被引量:3
- 2009年
- 在同一领域中,不同Web数据库之间有重叠部分,为估计重叠部分在Web数据库中所占比例,提出一种基于属性高频字的重叠率估计方法。以中文高频字作为起点,迭代诱导属性高频字。通过属性高频字的查询结果计算重叠部分出现的条件概率,进而估计重叠率。实验证明,该方法的偏差度和波动度都小于5。
- 苗忠义赵朋朋胡鹏昱崔志明
- 关键词:深网数据库
- 深网数据源质量估计模型被引量:9
- 2009年
- 为从海量深网中获得有价值的信息,提出一种深网数据源质量估计模型,综合考虑接口查询能力、接口页面质量和服务质量3方面因素,采用SVM和Ranking SVM机器学习方法得到质量估计函数。实验结果表明,该估计函数得到的数据源质量排序序列和人工排序序列的Kendall’sτ距离超过0.5,且获得较高的精度。
- 胡鹏昱赵朋朋方巍崔志明
- 关键词:深网查询能力查询接口服务质量
- 用Capture-Recapture方法估计Web数据库大小被引量:1
- 2009年
- 为了估计网络数据库的大小,提出了基于Capture-Recapture过滤二字亲密、二字排斥的方法。通过在接口文本框提交属性高频字,利用返回的结果集,在两两之间作交集,根据交集中的两字分布分析采样的独立性,过滤掉其中不独立的情况,再利用Capture-Recapture方法估计网络数据库的大小。在模拟和真实的环境下进行了实验,该方法偏差度和波动度均较小。
- 苗忠义胡鹏昱崔志明
- 关键词:深网网络数据库
- 基于领域样本查询的Deep Web数据库分类被引量:2
- 2010年
- 提出了一种基于领域样本查询的方法以分类这类Web数据库.通过分析领域的高级查询接口自动获取领域主属性并使用领域知识为主属性构建查询样本,然后对查询接口提交试探查询,根据返回结果页面的结果模式和记录内容估计Web数据库与领域的相关程度.通过在多个领域的Web数据库上进行实验验证,说明该方法分类只提供简单查询接口的Web数据库是有效的,取得了较高的分类精确率,召回率和F-measure值.
- 鲜学丰赵朋朋辛洁方巍崔志明
- 关键词:DEEPWEBWEB数据库数据库分类
- 结构化信息的去重方法被引量:3
- 2009年
- 针对载有结构化信息的网页,提出一种基于学习的去重方法。通过先期准备的样本定义分类器,根据分类器对页面中结构化信息的不同属性字段进行分类和距离计算,计算出整个信息对象和已分类样本信息的距离,以这些距离与阈值的大小关系判断该信息对象是否重复。
- 李林刘桂峰赵朋朋崔志明
- 关键词:去重聚类
- 基于世界知识的深网数据源增强分类模型被引量:3
- 2010年
- 针对传统词袋方法在深网(Deep Web)数据源分类应用中的局限性,提出一种基于世界知识的Deep Web数据源增强分类模型,通过对外部知识库的主题分析,建立特征映射,构造基于领域概念的辅助分类器,丰富Deep Web查询表单的特征集合。基于Wikipedia百科知识库对真实Web数据进行分类。实验结果证明该模型有效。
- 黄黎赵朋朋方巍崔志明孙振强
- 关键词:深网主题分析特征映射世界知识
- 复杂Web页的Wrapper自动化生成技术研究
- 2010年
- 针对基于模板生成Web页的基本特点,结合Ontology知识,探索Deep Web垂直搜索中,复杂Web页面的Wrapper自动化生成的解决方案.对实际复杂Web页面抽取的实验结果表明,该方法达到了较高的抽取准确率.
- 陈洪平方巍李林崔志明
- 关键词:本体数据抽取包装器
- 基于主题概念实现对购物网站的自动主题分类
- 2010年
- 基于传统的关键词统计的分类方法难以正确识别网页的主题,从而难以实现按主题进行分类。为了有效地对Web上的结构化数据源进行主题分类,结合语义知识,将基于概念的主题分类方法,应用到网络购物网站数据源的自动主题分类中。实验表明,该方法能够较好地提高主题分类的精度。
- 陈洪平方巍黄黎崔志明
- 关键词:本体主题网页分类