国家自然科学基金(60442005)
- 作品数:15 被引量:160H指数:8
- 相关作者:何婷婷戴文华焦翠珍姬东鸿张小鹏更多>>
- 相关机构:华中师范大学咸宁学院清华大学更多>>
- 发文基金:国家自然科学基金教育部科学技术研究重点项目国家社会科学基金更多>>
- 相关领域:自动化与计算机技术理学化学工程天文地球更多>>
- 基于词语属性的计算机辅助获取流行词语研究被引量:8
- 2006年
- 本文以2005年的1月1日至6月25日新浪网上下载的各类页面上的文本内容为研究资源集合,从中提取出有效词语,对词语的流行程度的判定属性做了定性定量的分析研究,对词语的流行特性进行了定义,在此基础上,引入衡量关注程度的量化方法,并配合依据词语判定属性与时间关系而绘制的走势曲线图,设置淘汰机制与评分机制,得到了候选流行词语,验证了流行词语判定属性规范的合理性,为机器辅助判定词语特性提供了参考数据。
- 何婷婷朱薏张勇任函
- 关键词:计算机应用中文信息处理流行词语
- 基于质子串分解的中文术语自动抽取被引量:26
- 2006年
- 针对中文术语构成特点,提出了一种基于质子串分解的术语自动抽取方法,将词分为2类:结构简单的质词和有复杂结构的合词;使用参数F-MI抽取结构简单的质词;并在其基础上,进一步使用质子串分解方法抽取具有复杂结构的合词。实验结果显示,该算法有效地提高了中文自动术语抽取的精确度。目前该算法已在国家网络媒体监测项目中得到了应用,并显示了良好的效果。
- 何婷婷张勇
- 关键词:术语自动抽取互信息
- 基于HowNet概念获取的中文自动文摘系统被引量:28
- 2005年
- 本文提出了一种中文自动文摘的方法。不同于其它的基于词频统计的一般方法,运用概念(词义)作为特征取代词语。用概念统计代替传统的词形频率统计方法,建立概念向量空间模型,计算出句子重要度,并对句子进行冗余度计算,抽取文摘句。对于文摘测试,采用两种不同的方法进行测试:一是用机器文摘和专家文摘进行比较的内部测试;二是对不同文摘方法进行分类,通过对分类正确率的比较的外部评测方法。
- 王萌何婷婷姬东鸿王晓荣
- 关键词:计算机应用中文信息处理HOWNET自动文摘概念向量空间模型
- 利用BP神经网络的中文词义消歧模型被引量:1
- 2005年
- 词义消歧在自然语言处理中一直是一个难点问题,同时,也是很多领域都需要解决的一个重要环节.本文介绍了一种基于BP神经网络和统计方法相结合的有导词义消歧模型,详细讲解了BP神经网络原理;对使用这种混合人工智能的消歧模型的可能性和优越性进行了讨论;通过试验发现实际和预测结果的误差并不随着试验迭代次数而递减,而是实际误差随着次数的增加在零的附近呈现波动状态,即使用很少的迭代次数也可以得到比较好的结果.由此得出,BP神经网络预测模型在词义消歧的中具有良好的应用前景.
- 何婷婷谢芳
- 关键词:词义消歧基于统计BP神经网络语料库
- 基于小生境混合遗传算法的文本特征词聚类研究
- 2008年
- 提出一种基于小生境混合遗传算法的文本特征词聚类方法。该方法首先采用贝叶斯语义模型对语料库进行统计分析,并以K-L距离度量特征词间的距离,然后将小生境遗传算法与K-Means算法相结合,对文本特征词进行聚类,为文本特征词聚类提供了较高的效率和精确度。实验表明该方法是一种高效可行的文本特征词聚类方法。
- 戴文华何婷婷焦翠珍
- 关键词:小生境遗传算法K-MEANS聚类
- 基于质子串分解的网络新词汇自动抽取
- 针对中文词汇构成特点,本文提出了一种基于质子串分解的网络新词汇自动识别方法。我们从Internet上采集网页,使用改进的互信息参数(F-MI)抽取结构简单的词汇(质词):并在其基础上,进一步使用质子串分解方法抽取具有复杂...
- 张勇何婷婷
- 文献传递
- 基于遗传算法的自适应文本模糊聚类研究被引量:2
- 2008年
- 针对FCM聚类算法对初始聚类中心的选择敏感,以及聚类数C难以确定的问题,提出一种基于遗传算法的自适应文本模糊聚类方法。该方法首先将文档集合表示成向量空间模型,并采用一种新型的可变长染色体编码方案,随机选择文本向量作为初始聚类中心形成染色体,然后结合FCM算法的高效性和遗传算法的全局优化能力,通过遗传进化,有效地避免了局部最优解的出现,同时得到了优化的聚类数目和聚类结果。实验表明该算法是一种精确高效的文本聚类方法。
- 戴文华焦翠珍何婷婷
- 关键词:遗传算法FCM聚类文本聚类模糊聚类
- 特定领域本体自动构造方法被引量:18
- 2007年
- 提出了一种自动构造特定领域本体的方法,该方法应用术语抽取和多重聚类技术。在术语抽取阶段,通过术语在专业语料与背景语料中出现概率的对比,采用LLR公式对术语进行评分,取得了更好的抽取效果。在层级关系发现过程中,采用上下文共现信息结合HowNet中词语的语义相似度,进行术语间相似度度量,力求获得术语间最合理的相关状况。同时改进了k-medoids聚类算法,更准确地发现术语的层级关系,进而构造出特定领域的本体。
- 何婷婷张小鹏
- 关键词:本体术语抽取聚类
- 基于多分类器决策的词义消歧方法被引量:9
- 2006年
- 词义消歧问题可以形式化为典型的分类问题.通过学习少量带有词义标注的语料构造多个消歧分量分类器,并利用未标语料动态地对这些分类器进行更新,根据最终分量分类器分别对多义词义项的判定结果,组合决策多义词的义项.该方法无需手工构造大规模具有词义标注的语料库,并且具有较高的消歧准确率.
- 全昌勤何婷婷姬东鸿余绍文
- 关键词:自然语言处理词义消歧ADABOOST
- 大规模在线文本的自动分类研究
- 文本分类是自然语言处理的应用领域中比较重要的一个部分。为了适应因特网上大规模在线文本的分类要求,提出一种过滤网页噪音数据的方法,并使用基于词的类权重模式,将词放在类别中进行考虑,加强类别中文本之间的相互联系,扩大不同类别...
- 任函何婷婷
- 关键词:文本分类
- 文献传递