姚天昉 作品数:69 被引量:547 H指数:11 供职机构: 上海交通大学 更多>> 发文基金: 国家自然科学基金 德国大众基金 国家电子信息产业发展基金 更多>> 相关领域: 自动化与计算机技术 语言文字 文化科学 天文地球 更多>>
汉语主客观文本分类方法的研究 在意见挖掘中所涉及到的文本类型是主观性文本。这就需要解决主客观文本的分类问题。本文首先介绍了主客观文本的定义和它们之间的区别。接着针对主观性文本的特点提出了分类适用的预选特征。在此基础上,介绍了通过实验选择稳定的分类特征... 姚天昉 彭思崴关键词:文本分类 文献传递 使用“数据黑匣子”对付休眠数据 2009年 数据仓库(Data Warehousing,简称DW)工作过程中,休眠数据也会以同样的增长率在成长,其增长大大影响了数据仓库的工作效率。常规处理休眠数据的方法存在许多不足之处。文章阐述如何使用收集数据本身的一些元数据帮助数据仓库管理在最快时间内处理休眠数据。"数据黑匣子"对数据操作语言进行分析,分离关键词,再提取相关信息,并将关键信息数据送入"数据黑匣子"进行存储。最后,通过信息的频繁使用度,自动分析所有的休眠数据。 张瑶 姚天昉关键词:数据仓库 一种用于汉语信息抽取的词汇本体 在研究特定领域汉语命名实体和实体关系识别时,笔者建议了一种可用于上述任务的词汇体育本体模型.根据这个模型,本文设计和实现了这个本体.它被来自知网的词汇概念信息与笔者建议的语义限制方法半自动地组合.除了概念类层次体系的关系... 姚天昉关键词:汉语 信息抽取 体育领域 文献传递 汉语意见型主观性文本标注语料库的构建 被引量:10 2009年 汉语意见型主观性文本是目前自然语言处理中的一个研究热点。该文介绍了汉语意见型主观性文本标注语料库构建方面的一些经验,讨论了设计和建设语料库方面的几个重要问题,包括语料的选取、标注、存储、检索和统计,以及语料库相关工具的设计等。汉语意见型主观性文本标注语料库与普通的语料库相比,其特点在于深度标注了主观性文本的词性、句法、语义和意见元素等信息,忠实记录了主观性文本的语言现象。汉语意见型主观性文本标注语料库的构建为人们分析和研究汉语主观性文本提供了有力的资源支持。 宋鸿彦 刘军 姚天昉 刘全升 黄高辉关键词:计算机应用 中文信息处理 语料库 基于Web数据挖掘的B2C推荐系统的设计 2012年 电子商务相对传统贸易具有成本上面的优势。随着互联网的普及,电子商务的一种重要分支,企业对个人的电子商务(BUSINESS TO CUSTOMER,B2C)被越来越多人们接受和使用。但是互联网上的信息量非常巨大,普通消费者往往不知道如何才能买到自己心仪的商品。利用WEB数据挖掘的相关技术,设计了一个可以在B2C贸易中推荐优惠商品给用户的系统。 时睿 姚天昉关键词:数据挖掘 电子商务 汉语情感问题类型分类研究 随着网络搜索引擎技术的飞速发展,对于问答系统的需求愈发迫切。而问答系统处理问题的第一步就需要分辨情感问题和非情感问题并对情感问题进行分类。本文首先分析了当前问答系统和问题分类领域的研究现状,总结了一些存在的问题。然后针对... 葛正荣 李婷玉 姚天昉关键词:情感问题 问答系统 自然语言处理 文献传递 基于LDA模型的论坛热点话题识别和追踪 被引量:22 2016年 在当今处于信息数量爆炸式增长的互联网时代,如何分析海量文本中的信息并从而提取出所蕴含的有利用价值的部分,是一个值得关注的问题。然而论坛语料作为网络语料,其结构和内容较一般语料相比更为复杂,文本也更加短小。该文提出的方法利用LDA模型对语料集进行建模,将话题从中抽取出来,根据生成的话题空间找到相应的话题支持文档,计算文档支持率作为话题强度;将话题强度反映在时间轴上,得到话题的强度趋势;通过在不同时间段上对语料重新建模,并结合全局话题,得到话题的内容演化路径。实验结果说明,上述方法是合理和有效的。 徐佳俊 杨飏 姚天昉 付中阳关键词:LDA 第三届中文倾向性分析评测(COAE2011)语料的构建与分析 被引量:6 2013年 文本倾向性分析已成为自然语言处理领域研究的热点问题之一。为进一步推动中文倾向性分析的研究,中国中文信息学会信息检索专业委员会举办了第三届中文倾向性分析评测(COAE2011)。该次评测主要关注领域和上下文语境(Context)对中文倾向性分析的影响。该文主要介绍COAE2011评测语料的构建及其对评测的支撑:首先介绍了COAE2011语料的领域选取、媒介分布等获取过程,然后详细阐述语料的标注原则与方法,最后依据评测结果分析领域和上下文语境因素对倾向性的影响。COAE2011语料的建立将为中文倾向性分析提供强大的资源支持。 廖祥文 许洪波 孙乐 姚天昉关键词:中文信息处理 汉语主客观文本分类特征的研究 在意见挖掘中所处理的文本是主观性文本,这就涉及到主客观文本的分类问题。本文首先介绍了主客观文本的定义。接着针对主观性文本的特点提出了分类适用的预选特征。在此基础上,介绍了通过实验选择稳定的分类特征并把它们应用于Weka工... 姚天昉 彭思崴关键词:汉语 文本分类 文献传递 多语种自然语言生成系统中的语言模型 被引量:4 2000年 介绍了在多语种自然语言生成系统中如何用统一的模型来表示各语种的语言知识 .本文将语言知识分为语义资源和语法资源两个部分 .前者通过 Schema和优化规则确定文本的内容 ;后者根据句子结构类、句法规则和词典确定文本的具体形式 .该模型以复杂特征集为语言知识的载体 。 张冬茉 葛永 姚天昉关键词:语言模型