国家高技术研究发展计划(2001AA114040) 作品数:11 被引量:240 H指数:7 相关作者: 张俊林 孙玉芳 孙乐 曲卫民 俞士汶 更多>> 相关机构: 中国科学院软件研究所 北京大学 清华大学 更多>> 发文基金: 国家高技术研究发展计划 国家自然科学基金 国家重点基础研究发展计划 更多>> 相关领域: 自动化与计算机技术 语言文字 更多>>
基于混合模型的组块分析技术 组块分析根据“分而治之”的原则降低完整句法分析的难度,基于统计和基于规则的技术对于组块分析的实现各有优势。本文中,统计方法采用了最大熵模型框架,规则方法采用有限自动机技术,同时还提出用基于转换的机器学习把两种技术结合起来... 李素建 刘群关键词:组块分析 最大熵模型 有限自动机 文献传递 一种自适应的网页分类策略 网络信息资源的快速膨胀,使得传统的人工分类检索的方法力不从心,而信息的实时性和动态性又使得静态的分类方法显得不适应。本文提出了一种能够自动适应网络信息更迭特点,主动发掘新信息类型的自适应分类策略。该策略通过改进的Rocc... 孙学刚 陈群秀 马亮关键词:自适应分类 定语类型和槽关系类型的对应及其对名词语义分析的作用 在名词短语中定语的类型和名词槽关系研究成果的基础上,首先研究了各种类型的定语与槽关系类型的对应,然后探讨了这种对应在名词短语语义解释上的作用。 张卫国 梁社会关键词:定语类型 文献传递 基于浅层分析的网页相关度研究 本文介绍了北京大学天网知名度系统的设计与开发工作,重点论述了其中网页相关度评价的因素、算法和相应的检索结果。系统在北京大学天网搜索引擎的基础上,运用中文信息提取的新技术,结合网页信息的特点,针对名人网页的检索提出了一种新... 昝红英 苏玉梅 孙斌 俞士汶关键词:相关度 信息提取 特征信息 文献传递 TREC2002介绍及清华大学实验研究 文本信息检索会议(TREC)是由美国国家标准技术局和美国国防高级研究计划局组织召开的一年一度的国际标准评测会议,在文本信息检索领域规模最大最具权威性并深有影响。本文主要介绍TREC2002中的三个主要项目:Web检索、新... 张敏 马亮 马少平 陈群秀关键词:文本信息检索 WEB信息检索 文献传递 基于主题的汉语语言模型的研究 被引量:4 2003年 基于主题的自适应语言模型能有效地解决语言模型跨主题应用的问题 ,针对其面临的两个主要问题———语料的分类和各语言模型的融合 ,采用了一种新的语料分类算法 ,突破了原有分类方法的一些局限性 ,并提出了一种改进的融合各语言模型的方法 :概率 +线性插值法 ,该方法既改善了语言模型的性能 。 曲卫民 张俊林 孙乐关键词:语言模型 自适应 主题 现代汉语述语形容词机器词典的研究与实现 现代汉语语义知识库是自然语言处理过程中汉语语义资源的重要工程之一。目前,已经完成了现代汉语语义知识库的三个组成部分:《现代汉语述语动词机器词典》、《现代汉语名词槽关系机器词典》和《现代汉语语义分类系统》,在此基础上本文描... 尹一瓴 陈群秀关键词:计算词典学 文献传递 语料库加工中的规范问题——谈《信息处理用现代汉语词类标记集规范》 被引量:14 2003年 本文就制定《信息处理用现代汉语词类标记集规范》阐述我们对于规范问题的看法和做法。规范不是强制的 ,只规范加工结果 ,不规范加工过程。《规范》研制的目的在于为中文信息处理研究提供一套可以作为国家规范的现代汉语词类标记集体系 ,以便各个中文信息处理系统能够使用规范统一的词类标记集。这个《规范》试图解决词类标记的统一问题 ,该《规范》的特点是 :继承性 ,单功能性 ,通用性和可扩充性。本文还主要讨论了关于研制规范的一些原则性问题和小类标记问题 ,最后给出基于《规范》的词性标注在真实语料中的覆盖实验数据。 靳光瑾 郭曙纶 肖航 章云帆关键词:语料库 汉语部分分析研究 本文概要介绍了近年来我们在汉语部分分析方面的研究工作,包括设计部分分析和标注体系构建大规模的部分信息标注语料库、探索不同层次的部分分析方法等,并提出了一些应用设想。 周强关键词:语料库标注 文献传递 信息过滤技术研究 被引量:19 2003年 As the rapidly growing information on Web, information filtering techniques have been more and morewidely used. This paper introduces two main filtering methods ,named content-based and collaborative filtering; con-trastively describes the key techniques in information filtering,including the representation,creation and rebuilding ofuser profile ,and similarity computing. 毛颖 周源远 王继成 张福炎关键词:信息过滤 搜索引擎 信息检索 互联网