江苏省基础研究计划(BK2009563) 作品数:7 被引量:11 H指数:2 相关作者: 赵朋朋 崔志明 卓林 杨舟 岳亮 更多>> 相关机构: 苏州大学 江苏省现代企业信息化应用支撑软件工程技术研究开发中心 更多>> 发文基金: 江苏省基础研究计划 国家自然科学基金 江苏省高校自然科学研究项目 更多>> 相关领域: 自动化与计算机技术 自然科学总论 更多>>
基于Choquet积分的深层网数据源选择 被引量:1 2011年 提出一种基于Choquet模糊积分的深层网数据源选择方法。通过在1组关键字上的查询结果评价深层网数据源的质量,评价时不仅考虑到关键字间的权重,同时还考虑多个关键字之间存在的交互作用。实验结果表明,该方法有效,且对深层网数据源的评价更接近真实。 郭若飞 蔡欣宝 赵朋朋 崔志明关键词:数据源选择 CHOQUET模糊积分 基于关联规则的Deep Web查询接口集成 被引量:2 2011年 论述查询接口集成的相关工作,提出基于查询单项间关联规则的接口模式匹配方法解决查询接口集成中模式匹配问题,同时给出复杂模式匹配处理方法。以图书、房产等领域为实验对象,模式匹配的平均准确率达到91.6%,匹配中能准确发现复杂模式匹配,表明该方法具有较好的可行性和有效性。 岳亮 王海龙 赵朋朋 崔志明关键词:接口集成 关联规则 Deep Web中基于表单特征的松弛方法 2012年 在Deep Web数据集成系统中进行查询松弛时,面对众多异构数据源的属性,如何来判断松弛的先后顺序目前没有很好的方法。根据表单特征来判定属性的重要程度,提出一种针对Deep Web环境的属性松弛顺序判定方法。同时在结果的排序过程中考虑影响松弛结果与查询条件相似性的主要因素,提出了一种更为高效的排序方法。实验结果表明了该方法的有效性。 陈明 郭建兵 赵朋朋 崔志明关键词:深网 数据集成 一种针对商品数据记录的自动抽取方法 被引量:8 2010年 提出一种针对电子商务网站商品列表页数据记录的自动抽取方法。该方法根据商品记录的特点,通过商品记录中商品的文本、图片以及布局等节点类型信息计算节点对应的值,依据节点值的相似度对节点进行分组,再从不同分组中过滤出包含数据记录节点的集合,从而抽取整个页面的数据记录。实验结果证明该方法有效且抽取效率较高。 杨舟 卓林 赵朋朋 崔志明关键词:WEB信息抽取 数据抽取 信息集成 基于二维混合条件随机场的Web记录抽取模型 2011年 提出一种基于混合二维条件随机场的Web记录抽取模型,以克服线性链条件随机场不能充分利用Web实体间二维依赖关系的缺点,且训练条件随机场模型时无需大量手工标注的样本数据。对当当网上的742个数据记录进行抽取,对比同等情况下的其他模型。实验结果表明,混合二维条件随机场模型在抽取TDS数据集时展现了更优越的性能。 卓林 杨舟 赵朋朋 崔志明关键词:条件随机场 信息抽取 一种基于特征信息的Blog自动文摘研究 2011年 为了有效地对Blog进行摘要抽取,以一种合理的方式挑选出对Blog摘要抽取有帮助的评论,然后在考虑句子词频的基础上结合Blog的结构化信息和挑选出的评论信息来计算Blog句子权重。针对基于句子权重选择摘要句容易忽略次要主题的缺陷,提出一种结合Blog段落形式特点进行二次摘要抽取的解决方法。在随机下载的Blog数据中进行了实验,该方法具有较好的覆盖性和概括性。 陈明 王邦军 赵朋朋 崔志明关键词:特征信息 一种面向Deep Web集成服务的查询结果动态排序方法 2011年 Deep Web集成服务的快速发展,方便了用户对Deep Web信息检索需求。如何提高查询结果的排序效果,将最接近用户查询的结果显示给用户,逐渐成为研究重点。提出了一种综合评判方法,从数据源质量、查询相关度以及查询响应反馈三个方面,综合计算出查询结果的评价分值,并用于查询结果排序,具有较好的可行性和有效性。 岳亮 杨舟 卓林 赵朋朋 崔志明关键词:数据源选择 TF-IDF