搜索到7757篇“ 半结构化信息“的相关文章
基于反馈学习的结构化信息抽取方法研究
随着互联网的快速发展,海量的信息以可读性良好的网页形式展示在人们面前。很多的网页以结构相似的形式展示记录列表,比如电商的商品信息列表。为处理这类网页并将网页中的记录以规整的形式格式到数据库中,出现了很多信息抽取算法。算...
孙玉玺
关键词:半结构化信息抽取
基于结构化信息的产品推荐系统
产品推荐是指从海量网络产品信息中依据用户兴趣进行选择并向用户进行推荐。好的产品推荐系统一方面能极大节约用户搜索及挑选产品的时间,另一方面能有效增加商家的用户粘性。因此,产品推荐系统在电商中得到了越来越广泛的应用,与此同时...
季成晖
关键词:命名实体识别属性抽取相似度度量条件随机场
国家标准《文件管理元数据原则》中文件管理元数据的结构化信息结构化信息的理解被引量:3
2011年
论文对国家标准《文件管理元数据原则》中文件管理元数据的结构化信息结构化信息的定义、由来及其如何理解进行了探讨,并对作为典型的结构化信息的《都柏林核心元数据集》进行了辨析,同时,对文件管理元数据的结构化信息进行了辨析,最后指出了文件管理元数据的结构化信息结构化信息的意义所在。
张正强
关键词:结构化信息半结构化信息
基于归纳学习的Web结构化信息抽取
近几年来随着互联网的飞速发展,网络已成为最为重要的知识库。对这些知识实现高效快速地抽取并加以利用,具有良好的应用前景和应用价值。因特网页面固有的数量巨大、结构化并且动态变的特点,给Web信息抽取带来了复杂度高、可扩展...
张晨樾
关键词:半结构化信息抽取抽取规则
文献传递
基于XML的Web结构化信息抽取被引量:4
2007年
Web信息抽取是信息抽取技术在B/S体系中的新发展,在增量信息存储与搜索中有着广泛的应用。本文阐述的基于XML的Web结构化信息抽取,是将Web表示层作为信息源,基于XML、JTidy数据清洗及Xquare-bridge等技术及开源项目,实现Web中结构化的隐式信息点抽取,生成结构化、语义更清晰的表示及存储形式。
李哲琦张莹
关键词:信息抽取数据清洗XML
提取结构化信息源中对象间精确语义相似性的方法研究被引量:1
2006年
为了从结构化信息源中提取本体,统一地分析和处理所有信息源,本文为数据源提供了一个统一的概念模型,并定义了结构化信息源到概念模型的转换规则。基于该模型,本文提出了计算模式中时象间精确语义相似性的方法。
高英郭荷清邹智敏
关键词:本体
互联网结构化信息抽取研究
本论文以提高结构化信息抽取方法针对信息数量和信息类型的适应能力为目标,针对上述问题,分别对结构化文本信息抽取和网页信息抽取展开研究。具体完成的工作可以概括为以下几点: 研究针对结构化文本信息抽取存在的问题,提...
于琨
关键词:半结构化信息信息抽取半结构化文本互联网自然语言处理
文献传递
基于Boosting的结构化信息抽取被引量:1
2005年
为了对结构化文本实现自动抽取信息.介绍了一种基于Boosting算法的信息抽取方法,它能够自动对一个训练例生成规则,将该规则应用于正例集并改变正例集权重分布,找到权重最大的正例生成下一条规则.给出了一种能描述不符合英文词法的词的模式匹配约束.试验表明:在特征简单的抽取规则学习中,该方法精确度与召回率可达100%.在特征比较复杂的抽取规则学习中,该方法F1评估值也能达到80%以上.
刘椿年宋霞
关键词:BOOSTING算法抽取规则半结构化文本
结构化信息抽取在股票交易中的应用研究被引量:4
2005年
针对股票的网站越来越多,如何从这些网站的有关页面进行信息抽取,并得到相关知识,为股民提供股票交易的决策参考,是一个值得研究的课题。本文剖析了信息抽取常用的Wrapper方法,以及抽取知识的获取方法。最后,根据可视信息抽取的原则,设计了一个可视信息抽取的实验,取得了良好的效果。
马玉春孙冰
关键词:信息抽取股票交易相关知识可视化
基于Web的结构化信息抽取技术研究被引量:23
2004年
信息抽取技术的发展和趋势作了一定分析,并讨论了当前结构化信息检索领域的先进抽取技术。从应用的角度提出一种新的结构化信息获取方法。该方法包括网页分析过程、映射的自动生成和信息抽取过程。通过建立标记树来进行网页结构分析,利用实例路径归纳学习出用户需求信息的公共路径,将效用的抽取结果提交用户,减少了用户负担,提高了查全率和查准率,为进一步满足Web信息抽取提供了一种新的高效信息抽取工具。
张树瑜杜国宁朱仲英
关键词:互联网半结构化标记树自动映射

相关作者

黄豫清
作品数:9被引量:107H指数:2
供职机构:南京大学计算机科学与技术系多媒体计算机研究所
研究主题:数据库 半结构化信息 多媒体 WEB文档 WEB
张福炎
作品数:224被引量:3,119H指数:28
供职机构:南京大学
研究主题:信息检索 INTERNET 多媒体 WWW 计算机
胡大洋
作品数:7被引量:5H指数:1
供职机构:盐城工学院
研究主题:MSP430 半结构化信息 非结构化信息 信息提取 SQL
王克宏
作品数:194被引量:844H指数:14
供职机构:清华大学信息科学技术学院计算机科学与技术系
研究主题:JAVA语言 JAVA 人工智能 JAVA技术 WEB
钱龙华
作品数:83被引量:210H指数:9
供职机构:苏州大学
研究主题:文本 语料库 关系抽取 抽取 树核函数