王志琪 作品数:4 被引量:40 H指数:3 供职机构: 上海交通大学电子信息与电气工程学院计算机科学与工程系 更多>> 发文基金: 国家高技术研究发展计划 更多>> 相关领域: 自动化与计算机技术 文化科学 更多>>
HTML文件的文本信息预处理技术 被引量:17 2006年 介绍了一种常用的文件类型HTML文件的文本信息预处理技术。该方法能够解析HTML文件的组成结构,并从中提取出主体文本以供处理。测试表明该方法能有效地得到大部分HTML网页的主体部分。文中对HTML文件的解析不仅可以用于提取出HTML文件的主体文本,也可以用于得到HTML文件中其他的元素的内容,具有推广应用价值。 王志琪 王永成关键词:HTML 文本信息 预处理 论自动文摘及其分类 被引量:14 2005年 自动文摘,即利用计算机自动编制文摘,是信息时代的需要.本文讨论了文摘的不同定义、特点和功能.目前,文摘的分类方法不适用于自动文摘的分类,因此,本文试着从多角度对自动文摘系统进行了分类,这样的分类根据自动文摘的特点进行的划分,是对自动文摘分类的一种总结,可以作为构造自动文摘系统和思考自动文摘发展方向的参考和借鉴.最后,概述了中文自动文摘系统的研究状况,展望了自动文摘的发展趋势. 王志琪 王永成 刘传汉关键词:自动文摘 自然语言处理 利用分割技术提高对话文本自动摘要的一致性 被引量:2 2007年 针对传统的基于抽取的自动摘要方法不能很好地处理对话文本一致性的问题,提出了对话文本自动摘要中的体裁、问题-回答对识别等关键技术.设计了一种类似于TextTiling的文本分割方法对候选的回答段落进行分割,以便提高问题-回答对的关联精度.实验结果表明,利用问题-回答对的关联信息能够提高对话文本自动摘要的整体一致性. 刘传汉 王永成 刘德荣 王志琪关键词:文本分割 一致性 基于互增强关系的自动文摘句子加权方法 被引量:9 2007年 针对自动文摘处理,提出一种新颖的自动文摘句子加权方法.该方法采用基于互增强关系(MRP)的迭代算法模拟句子和词之间的循环加权关系,计算句子权重.实验结果表明,基于MRP的迭代算法收敛速度快;与传统的自动文摘方法和MS Word Summarizer相比,所提出的基于MRP的句子加权方法可以使自动文摘系统具有更好的性能. 王志琪 王永成 刘传汉关键词:自动文摘 迭代算法