搜索到18篇“ HTML解析器“的相关文章
基于Swing的HTML解析器的实现与应用
2024年
HTML页面解析是一切工作的基础。首先,通过分析HTML解析器感兴趣的标签与超链接的分类,在Java的Swing包的基础上实现了一个HTML解析器,用来提取HTML文档的超链接和锚文本;其次,把HTML解析器应用到多媒体信息检索系统的搜索Spider的开发中,通过设定若干个种子网站,选择合适的搜索算法,从中筛选出包含音频、视频和Flash动画的Web页面,并将其存放在数据库中。
宋宇
关键词:解析器HTMLSWING超文本链接
基于HTML解析器的Web信息提取技术被引量:2
2008年
提出一种使用开源的HTML解析器包和正则表达式来提取W eb网页信息的方法.该方法能够解析HTML文件的组成结构,并从中提取主体文本以供处理.实验表明,该方法的抽取准确率可达到95%以上,具有简单、准确的特点.
王琳琳
关键词:WEB信息提取正则表达式HTML解析器主题信息
一种嵌入式浏览中的HTML解析器的设计被引量:7
2008年
本文主要介绍了一种HTML解析器的设计,以及其在数字电视机顶盒中的实现;另外还简述了CSS层叠样式表技术在嵌入式浏览中的实现。
唐云
关键词:HTML嵌入式浏览器解析器CSS
基于自动机的嵌入式HTML解析器的设计与实现
随着嵌入式系统的广泛应用和网络技术的快速发展,嵌入式浏览已成为嵌入式平台上非常重要的的应用软件。嵌入式浏览是一个网络信息浏览,支持HTTP或者WAP等其他传输协议,支持HTML,XML,XHTML,JavaScri...
岳珂
关键词:嵌入式浏览器HTML解析器有限自动机软件设计
设计模式在HTML解析器中的应用被引量:6
2005年
作为一种高级软件重用技术,设计模式可以更加简便地重用成功的设计和体系结构。该文分析了HTML语言(version4)规范的特点,将HTML语言中的每一个标签抽象成为标签类,设计过程中使用了合成模式和简单工厂模式,避免解析器设计过程中复杂关键字栈的使用,清晰了系统的设计,提高了系统的灵活性和可扩展性。
伍星王茜
关键词:解析器设计模式HTML语言软件重用技术关键字
设计模式在HTML解析器中的应用
本文在对软件维护性和软件可复用性进行了研究.软件结构的复杂程度的不断增加,在软件的开发过程中和软件交付后的维护中,由于软件在结构上的僵化,增大了软件的维护难度.软件的复用在也是最近的一个研究热点,软件部件的构造过程中,没...
伍星
关键词:设计模式可维护性软件复用面向对象技术统一建模语言
Web文档清洗系统中HTML解析器的开发被引量:14
2002年
对于组建一个面向Web的信息系统来说 ,去除掉脚本、广告链接以及导航链接等无用数据 ,将提高信息存储和检索的效率 ;同时 ,基于语义对Web文档进行合并和分割也会有助于信息的管理 ,这些都是Web文档清洗系统的任务。在Web文档清洗中 ,无论是脱机的规则学习还是联机的文档清洗 ,都需要建立在对Web文档的结构和内容进行分析的基础之上。从HTML解析的一般概念入手 ,结合Web文档清洗系统的需求 ,描述了一个自主开发的HTML解析器的结构 ,并对其组成部分 :词典。
王强王强王继成武港山
关键词:HTML解析器WEBINTERNET
Web文档清洗系统中HTML解析器的开发
对于组建一个面向Web的信息系统来说,去除掉脚本,广告链接以及导航链接等无用数据,将提高信息存储和检索的效率;同时,基于语义对Web文档进行合并和分割也会有助于信息的管理,这些都是Web文档清洗系统的任务。在Web文档清...
关键词:
关键词:HTML解析器
基于Heritrix和Jsoup的信息抽取系统的设计与实现被引量:2
2015年
应用开源的Heritrix和Jsoup设计了一个通用性强的网络商品信息抽取系统,实现了Web信息的抽取、存储.系统由三个分别独立的功能模块组成,即采集网页模块、抽取信息模块、数据存储模块,并对抽取算法在真实数据页面上进行了验证.实验结果表明系统具有良好的召回率和准确率,抽取效果良好.
刘全志于治楼
关键词:WEB信息抽取HTML解析器网络爬虫
基于Android的校园通应用程序的设计与实现被引量:3
2014年
目前Android手机的普及率在高校里已经相当高,所以研究设计一款基于Android手机的校园服务应用对于广大高校生来说具有深远的现实意义。实现一个基于Android的校园通应用程序,主要功能包括有学院概况、校园通讯、新生专题、校图书馆、成绩课表、课室查询、校园信息、在线问吧、出行指南等模块,基本上满足学生所需要的校园服务,可以在一定程度上提高学生的学习和生活效率。
黄震吴程龙
关键词:ANDROID校园应用HTML解析器

相关作者

伍星
作品数:35被引量:118H指数:6
供职机构:重庆大学
研究主题:金字塔 图像 特征抽取 HTML解析器 设计模式
王强
作品数:4被引量:23H指数:3
供职机构:南京大学计算机科学与技术系
研究主题:WEB INTERNET HTML解析器 法器 XPATH
王继成
作品数:36被引量:1,732H指数:19
供职机构:南京大学
研究主题:信息检索 WEB WWW VSM WEB信息检索
田东风
作品数:13被引量:29H指数:5
供职机构:中国地质大学(北京)
研究主题:控制程序 WINCE 程序设计 POCKET WINDOWSCE
刘全志
作品数:3被引量:4H指数:1
供职机构:山东师范大学
研究主题:信息抽取 HTML解析器 HERITRIX WEB信息抽取 网络爬虫