国家自然科学基金(60173060)
- 作品数:27 被引量:154H指数:7
- 相关作者:何中市李良炎易勇黄丽琼黄永文更多>>
- 相关机构:重庆大学重庆理工大学武警广州指挥学院更多>>
- 发文基金:国家自然科学基金重庆市自然科学基金重庆市高等教育教学改革研究项目更多>>
- 相关领域:自动化与计算机技术自然科学总论文学理学更多>>
- 一种基于SVM和规则消除组合型歧义的算法被引量:3
- 2005年
- 歧义的处理是影响分词系统切分精度的重要因素,也是中文自动分词系统中较为困难的问题.提出一种基于支持向量机(SVM)和规则(Rules)相结合的算法(SR算法),对中文分词过程中的组合型歧义字段进行排歧.SR算法主要思想是利用支持向量机分类的原理,结合词性搭配的一些规则排除组合型歧义.实验表明,用此算法对几种不同的语料进行排歧测试,排除组合型歧义字段的切分正确率可达83%左右,为解决中文自动分词难题提供了一条新路径.
- 刘禹孜何中市
- 关键词:自然语言处理中文分词组合型歧义支持向量机
- 基于依存内容单元的金字塔自动摘要评估被引量:3
- 2009年
- 提出一种基于依存内容单元的金字塔自动摘要评估方法,通过确定依存内容单元,构建金字塔模型,给出相应的自动评估流程。该方法不仅能够避免人工处理的不稳定性,并可实现整个评估过程的自动化。仿真实验结果表明,该方法的Person相关系数及Sperman相关系数均大于传统ROUGE-1算法。
- 龙华何中市伍星李双庆
- 关键词:依存语法
- 一种基于粗糙集启发式的特征选择算法被引量:9
- 2007年
- 本文基于粗糙集中关于非精确集和精确集理论思想,提出了一个新的特征度量指标,即相对互信息比RMI,由此,设计了一种基于粗糙集的启发式特征选择算法MRMI-UC。首先利用可辨识矩阵,计算出条件属性相对于决策属性的核,以核形成当前候选特征子集作为基准点,以最大化相对互信息和不确定性系数为原则,筛选剩余特征。通过对比实验,结果表明,本文提出的算法在多数情况下能够得到较优的特征子集,算法是有效的,切实可行的。
- 梁琰何中市
- 关键词:粗糙集理论启发式算法互信息
- 基于词联接的语义分析原理及其算法被引量:5
- 2004年
- 现有自然语言处理方法主要采取自下而上的由词到句、由句到篇的语言分析过程,而且语义分析能力有限,因此难以对大规模真实文本进行语义处理。笔者提出了一种基于词联接的语义分析方法。该方法以词联接的语义知识为基础,采取整句切入、先下后上的语义分析过程,核心算法是句子最优树搜索和词联接语义符合度计算。目前该方法已应用于国家自然科学基金资助的计算机辅助诗词创作研究项目。
- 李良炎何中市易勇
- 关键词:自然语言处理真实文本语义计算
- 句法标注的一般模型与参数分析被引量:1
- 2007年
- 句法标注是语料标注的重点、难点所在,必须以一定的句法理论为基础。短语结构语法和依存语法是句法标注的基础理论,彼此却有很大的不同。本文以形式化为目标,提出句法标注的一般模型,分析比较两种句法标注的参数异同,深刻揭示了基于短语结构语法和基于依存语法的句法标注与一般模型之间的关系,并提出阅读依存中心原则,力图解决基于依存语法的句法标注难以标注缺省结构的问题。
- 李良炎何中市
- 关键词:依存语法
- 一种新型的文本无监督特征选择方法被引量:3
- 2007年
- 结合文档频数DF(Document Frequency)和特征相似度FS(Feature Similarity)方法,提出一种新的无监督特征选择方法DFFS。该方法利用文档频数过滤掉90%的特征之后,再借助特征相似度移除尽可能多的冗余特征。采用K-均值方法,对比DFFS方法与其他3种常用特征选择方法(DF,TC,TS)的聚类性能。实验一:当特征数量由6000减少到1047时,DF方法的聚类性能急剧下降,而DFFS方法则有提高,甚至当特征数量进一步减少到350时,DFFS方法也没有下降。实验二:在保持10%~2%的特征时,DFFS方法优于其他3种方法,特别是在只保留2%的特征时,DFFS方法的明显优于其他方法。
- 何中市徐浙君
- 关键词:自然语言处理
- 基于词联接的诗词风格评价技术被引量:11
- 2005年
- 在当前自然语言处理的研究状况下,文学语言处理应当受到足够的重视。诗词艺术集中体现了文学语言的形象性、情感性、个性等特征,是文学语言处理研究很好的切入点。风格评价是文学语言处理的重要课题,极具挑战性。本文以诗词语言为具体研究对象,以基于词联接的自然语言处理技术为技术背景,着重介绍并验证基于词联接的诗词风格评价技术。提出了计算方法,设计了诗词风格评价问卷调查实验。结果表明,人的诗词风格评价共性大于个性,基于词联接的诗词风格评价技术能够有效地评价诗词风格。
- 李良炎何中市易勇
- 关键词:计算机应用中文信息处理诗词风格
- 基于关键词语的文本特征选择及权重计算方案被引量:18
- 2006年
- 文本的形式化表示一直是文本分类的重要难题。在被广泛采用的向量空间模型中,文本的每一维特征的权重就是其TFIDF值,这种方法难以突出对文本内容起到关键性作用的特征。提出一种基于关键词语的特征选择及权重计算方案,它利用了文本的结构信息同时运用互信息理论提取出对文本内容起到关键性作用的词语;权重计算则综合了词语位置、词语关系和词语频率等信息,突出了文本中关键词语的贡献,弥补了TFIDF的缺陷。通过采用支持向量机(SVM)分类器进行实验,结果显示提出的Score权重计算法比传统TFIDF法的平均分类准确率要高5%左右。
- 刘里何中市
- 关键词:文本分类向量空间模型特征提取支持向量机
- 改进传统文本结构关系图的文本结构分析被引量:7
- 2009年
- 文本结构分析是文本处理领域中的重要内容,它可以有效地改进文本摘要、文本检索以及文本过滤的精度。文中简要描述了传统上使用文本结构关系图分析文本结构的方法并指出其缺点,然后提出改进方法,使经过文本结构分析后的文本更具有有序性和可操作性强,便于解释,不依赖于具体领域。最后通过实验证明,该改进方法是可行的。
- 梁文婷何中市龙华田春娥
- 关键词:文本结构分析向量空间模型
- 基于词性信息的汉语时间语词消歧算法
- 2005年
- 切分歧义是影响汉语自动分词系统精度的一个重要因素.时间语词包括指明事件发生确定时间位置的时点时间词和指明动作或状态持续一段时间的时段时间词.基于现代汉语语料库加工规范,特定类型的时间语词存在切分歧义及考察时间语词的语用,提出了基于时间语词上下文词性信息的统计语言模型和基于极大似然原理的消解这类歧义的算法,其开放测试正确率约为90%.
- 代建英何中市
- 关键词:自然语言处理切分歧义统计语言模型