您的位置: 专家智库 > >

国家社会科学基金(07BYY051)

作品数:10 被引量:45H指数:4
相关作者:陈家骏戴新宇周俊生濮小佳胡仁龙更多>>
相关机构:南京大学南京师范大学更多>>
发文基金:国家社会科学基金国家自然科学基金国家高技术研究发展计划更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 10篇中文期刊文章

领域

  • 10篇自动化与计算...

主题

  • 3篇信息处理
  • 3篇中文
  • 3篇中文信息
  • 3篇中文信息处理
  • 3篇文本分类
  • 3篇向量
  • 3篇句法分析
  • 3篇计算机
  • 3篇计算机应用
  • 2篇支持向量
  • 2篇支持向量机
  • 2篇向量机
  • 2篇句法
  • 1篇对齐
  • 1篇信息抽取
  • 1篇信息增益
  • 1篇依存句法分析
  • 1篇语料
  • 1篇语言模型
  • 1篇搜索

机构

  • 10篇南京大学
  • 2篇南京师范大学

作者

  • 9篇陈家骏
  • 7篇戴新宇
  • 2篇周俊生
  • 1篇李天侠
  • 1篇袁春风
  • 1篇张建兵
  • 1篇何亮
  • 1篇赵迎功
  • 1篇黄书剑
  • 1篇奚宁
  • 1篇张亮
  • 1篇金自翔
  • 1篇武港山
  • 1篇胡仁龙
  • 1篇马若策
  • 1篇别致
  • 1篇田宝明
  • 1篇濮小佳

传媒

  • 4篇中文信息学报
  • 3篇广西师范大学...
  • 2篇计算机工程与...
  • 1篇计算机工程

年份

  • 3篇2009
  • 6篇2008
  • 1篇2007
10 条 记 录,以下是 1-10
排序方式:
中心词驱动的汉语统计句法分析模型的改进被引量:3
2008年
在对Dan Bikel基于Collins中心词驱动概率句法分析模型实现的句法分析器进行深入研究分析的基础上,对其进行了两个方面的改进。一是通过提供N-best词性候选序列,改进原模型在词性方面的处理,改善了句法分析的结果;二是在该模型中引进单独的基本名词短语识别,从而降低句法分析的复杂度,提高了效率,其中,针对中文的特点,通过对BaseNP的概念进行一系列的扩展,深入研究了基于不同层次概念的BaseNP对句法分析的影响并探讨更适合中文句法分析的BaseNP定义。利用改进的句法分析模型进行中文句法分析实验,实验结果表明,改进模型可以缩短分析时间26%,提高F值4.4个百分点,交叉括号平均减少18%。
何亮戴新宇周俊生陈家骏
关键词:计算机应用中文信息处理基本名词短语汉语句法分析
一种基于贪婪算法的KNN参数选择策略被引量:1
2008年
K近邻算法是基于向量空间模型的最好的文本分类算法之一。使用KNN算法时通常要用贪婪算法进行参数选择,最终的参数不仅取决于每个参数的初始值及候选值,而且和参数选择的顺序密切相关。不同的参数选择策略间存在较大差异,通过实验,指出了KNN算法进行文本分类时一个较好的参数选择策略。
金自翔戴新宇陈家骏
关键词:文本分类K近邻贪婪算法
决策式中文依存句法分析模型的改进
2009年
决策式依存分析方法是一种以统计学习分类算法为基础,在每一个分析步骤中挑选最有可能的分析动作,由最终的动作序列确定分析结果。该方法具有快速、高效,易于实现的特点。然而,各步分析动作相对独立,并且容易造成错误累积。针对这些问题,对原始算法进行了一定的改进,引进了局部搜索算法和两阶段分析。实验表明,基于局部搜索的两阶段决策式依存分析模型,在性能上好于原始决策式依存分析方法,同时保持了较低的时间复杂度。
马若策戴新宇陈家骏
关键词:依存句法分析局部搜索
文档分类之特征选择方法的实验比较被引量:7
2008年
在自动化信息处理中,由于大量信息是基于文字表达的,使得文本分类成为其核心任务之一。其中,相比较其他分类算法,基于类中心的文档分类方法凭借其极高的效率和较好的性能得到了更广泛的应用。然而,该分类方法的性能很大程度上取决于文本的特征空间表示。在此将4种较大差异的特征选择方法作为预处理方法,构造适合类中心点分类的特征空间,对它们的性能进行分析。实验表明,基于支持向量机的特征选择方法不仅有较好的最低错误率,并且对选择的特征数目不敏感,因此我们推荐在实际应用中使用基于支持向量机的特征选择方法作为基于类中心的文档分类算法的预处理。
张建兵戴新宇陈家骏
关键词:文本分类信息增益RELIEF支持向量机
一种基于随机森林的多视角文本分类方法被引量:9
2009年
基于词的向量空间模型是文本分类中的传统的表示文本的方法。这种表示方法的一个缺点是忽略了词之间的关系。最近一些使用潜在主题文本表示的方法,如隐含狄利克雷分配LDA(Latent Dirichlet Allocation)引起了人们的注意,这种表示方法可以处理词之间的关系。但是,只使用基于潜在主题的文本表示可能造成词信息的损失。我们使用改进的随机森林方法结合基于词的和基于LDA主题的两种文本表示方法。对于两类特征分别构造随机森林,最终分类结果通过投票机制决定。在标准数据集上的实验结果表明,相比只使用一种文本特征的方法,我们的方法可以有效地结合两类特征,提高文本分类的性能。
田宝明戴新宇陈家骏
关键词:计算机应用中文信息处理文本分类向量空间模型
基于SVM-Adaboost的中文组块分析被引量:2
2008年
组块分析是一种非常重要的句法分析预处理手段,通过将文本划分成一组互不重叠的片断,来达到降低句法分析的难度。提出一种基于SVM-Adaboost的中文组块分析方法,将基于线性核函数的支持向量机与Adaboost算法相结合,以基于线性核函数的SVM作为Adaboost的分量分类器,在学习过程中改变分量分类器的核参数。实验结果表明了该算法的有效性。
别致周俊生陈家骏
关键词:ADABOOST支持向量机
一种错误敏感的词对齐评价方法被引量:3
2009年
对齐错误率(Alignment Error Rate,AER)是目前通用的词对齐评价标准。近年来的研究表明,AER虽然在一定程度上能够反映词对齐的质量,但它与机器翻译最终结果BLEU得分的相关性并不好。该文针对基于短语的机器翻译系统(PBSMT)分析了AER可能存在的一些问题,并根据词对齐结果中存在的不同类型的错误,提出了一种错误敏感的词对齐评测方法ESAER(Error-Sensitive Alignment Error Rate)。实验表明,该文提出的ES-AER与BLEU的相关性要远远好于AER。
黄书剑奚宁赵迎功戴新宇陈家骏
关键词:人工智能机器翻译统计机器翻译词对齐AER
基于混合模型的交集型歧义消歧策略被引量:2
2008年
针对交集型歧义这一汉语分词中的难点问题,提出了一种规则和统计相结合的交集型歧义消歧模型。首先,根据标注语料库,通过基于错误驱动的学习思想,获取交集型歧义消歧规则库,同时,利用统计工具,构建N-Gram统计语言模型;然后,采用正向/逆向最大匹配方法和消歧规则库探测发现交集型歧义字段;最后,通过消歧规则库和评分函数进行交集型歧义的消歧处理。这种基于混合模型的方法可以探测到更多的交集型歧义字段,并且结合了规则方法和统计方法在处理交集型歧义上的优势。实验表明,这种方法提高了交集型歧义处理的精度,为解决交集型歧义提供了一种新的思路。
李天侠戴新宇陈家骏
关键词:交集型歧义统计语言模型全切分
基于大规模语料库的句法模式匹配研究被引量:8
2007年
通过大量记录的正确处理实例的分析过程和结果,在句法分析时,搜寻近似实例或片段,匹配相似语言结构和分析过程,这样的句法分析体现了"语言分析依赖经验"的思想。基于这样的思想,本文提出了一种基于模式匹配的句法分析的方法,即从大规模标注语料树库中抽取出蕴含的句法模式,构建模式、子模式及其规约库,句法分析的过程转化为模式匹配和局部模式转换的过程。实验表明句法分析的各项指标都比较理想,尤其是处理效率很高,平均句耗时0.46秒(CPU为Intel双核2.8G,内存为1G)。
张亮陈家骏
关键词:计算机应用中文信息处理句法分析
基于重复模式的自动Web信息抽取被引量:10
2008年
互联网上存在很多在线购物网站,抽取这类网站页面里的商品信息可以为电子商务、Web查询提供增值服务。该文针对这类网站提出一种自动的Web信息抽取方法,通过检测网页中的重复模式以及分析主题内容的特征获取网页的主题内容,该方法在抽取过程中不需要人工干预。对10个在线购物网站进行了测试,实验结果表明提出的方法是有效的。
胡仁龙袁春风武港山濮小佳
关键词:WEB信息抽取DOM树
共1页<1>
聚类工具0