吕琳 作品数:15 被引量:78 H指数:5 供职机构: 北京理工大学管理与经济学院 更多>> 发文基金: 国家自然科学基金 国家部委预研基金 更多>> 相关领域: 自动化与计算机技术 文化科学 环境科学与工程 经济管理 更多>>
文本自动分类技术和算法研究综述 2004年 文本自动分类技术是面向Internet搜索引擎的重要研究方向和关键技术。它是指在给定的分类体系下,根据文本的内容自动确定文本关联类别的过程。本文总结和跟踪了各种常用和最新的文本分类的技术、算法及其适用范围,对评价与比较分类器性能的定理和方法进行了分析,并简述了独立于算法的机器学习。 吕琳 刘玉树关键词:文本自动分类 分类器 文本分类 搜索引擎 定理 运用语义集索引法实现英文文本分类 被引量:3 2006年 为克服当前文本分类法中基于词形匹配带来的局限性,基于WordNet语义词典和隐含语义索引(LSI)模型,提出了基于语义集索引的英文文本分类方法.该方法在分类初期首先利用WordNet构建语义词典库,利用单词的语义集代替单词作为文本特征向量的特征项;然后利用LSI模型进一步深入挖掘语义集概念间的深层联系,将语言知识和概念索引有效地融合到文本向量空间的表示中.针对Na ve Bayes及简单向量距离文本分类法的实验结果显示,2种文本分类法的分类准确率均随着语义分析的深入逐步提高,充分表明了语义挖掘对文本分类的重要性和必要性. 吕琳 刘玉树 刘妍关键词:文本分类 隐含语义索引 KNN及其改进方法研究 文章分别从基本思想、向量表示、距离度量、收敛性和误差率、计算复杂度等方面对KNN算法作了全面的概述,并分析了其优点和不足.总结和评价了KNN的一系列改进方法.最后,指出它们的发展方向. 吕琳 刘玉树关键词:向量表示 计算复杂度 文献传递 面向通信技术领域的中美专利情报对比分析 以通信技术领域的中美专利数据为基本数据源,利用数理统计原理,集成数据挖掘、技术组(群)智能识别、技术组(群)的关联模型和关联关系表达技术等当今的信息前沿技术与管理方法,结合传统的统计学文献计量学、科学计量学理论,开展大型... 吕琳 朱东华 刘玉琴关键词:专利情报 情报分析 专利数据 数据挖掘 文献传递 美国专利关键技术检索系统的设计与实现 以美国专利数据库为后台数据库,综合利用全文索引、海量数据输入输出、远程登录和异地存储等多项技术,设计与实现了美国专利关键技术检索系统。该系统成功实现了对美国专利数据库的摘要和标题字段中的专利关键技术词及短语的简单检索、任... 吕琳 雷孝平 朱东华关键词:全文索引 海量数据 文献传递 最大熵和Brill方法结合识别英语BaseNPs 被引量:7 2006年 为了进一步提高基本名词短语(BaseNPs)的识别精度,针对最大熵方法和Brill方法各自的特点,提出基于两者相结合的英语基本名词短语识别算法.该算法是在高准确率词性标注的基础上实现的.在训练和测试两个阶段中,均先采用最大熵方法识别基本名词短语,然后将已具有很高精度的识别结果作为初始标注结果运用于Brill方法中.实验结果表明,此联合算法达到了94%的准确率和召回率,充分融合了最大熵方法和Brill方法的优点,可与基于相同训练和测试语料的目前最理想的英语基本名词短语识别结果相比. 吕琳 刘玉树关键词:基本名词短语 短语识别 最大熵 面向数据仓库的数据预处理研究综述 从定义、任务、内容、方法、算法等多角度,对数据预处理技术进行了全方位的探讨,强调了其对于构建数据仓库的重要性和必要性。通过建立美国专利数据挖掘系统,设计出数据预处理的通用框架。最后总结了数据预处理未来的研究方向。 吕琳 朱东华 刘玉琴关键词:数据预处理 数据仓库 数据挖掘 文献传递 技术强国对华出口限制的分析与战略高技术选择 朱东华 胡望斌 汪雪锋 文胜 荆雷 李波 任智军 刘嵩 郭颖 王丹云 孙吉 吕琳 刘玉琴 雷孝平 赖院根 该项目从技术进口受限与技术发展两者之间的辩证关系出发,应用数据挖掘、知识发现等计算机前沿技术,开展基于互联网环境下对瓦瑟纳尔协议(WA)、澳洲集团(AG)等国际出口管制组织以及美国、日本、欧盟等技术强国针对中国实施的技术...关键词: 基于文本挖掘技术的产品技术成熟度预测 被引量:29 2008年 为使产品技术成熟度预测的应用更加有效和广泛,结合国内外研究状况,提出了基于文本挖掘技术的产品技术成熟度预测方法。该方法应用文本挖掘技术挖掘隐含于专利数据库中内在的、客观的、定量的信息,引入技术新颖度度量函数量化技术的新颖程度,评价专利质量;同时,以专利维持成本反应专利的获利情况,并结合专利数量作为预测指标,进行产品技术成熟度预测。阐述了应用该方法进行预测的具体步骤,预测了我国光通信技术的成熟度情况,实验结果显示了该方法的有效性。 刘玉琴 朱东华 吕琳关键词:发明问题解决理论 文本挖掘 一种高性能英文词性标注器的设计与实现 被引量:5 2005年 针对统计和规则方法各自的优点和局限,提出运用V iterb i和FTBL(fast transform ation-based learn ing)算法相级联的算法,实现一种英文自动词性标注器.该级联方法以FTBL算法为整体算法,在它的规则学习和最终标注两个阶段,均以V iterb i算法作为其初始化过程.实验结果表明此算法优于其中任何一种单独的算法,达到了98%的高准确率,验证了自然语言处理中统计与规则并举的主流设计思想. 吕琳 周世斌 刘玉树关键词:VITERBI 隐马尔可夫模型