陈玉泉
- 作品数:26 被引量:146H指数:5
- 供职机构:上海交通大学更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术文化科学语言文字经济管理更多>>
- 基于支持向量机方法的中文组织机构名的识别被引量:24
- 2008年
- 在应用基本的支持向量机算法的基础上,提出了一种分步递增式学习的方法,利用主动学习的策略对训练样本进行选择,逐步增大提交给学习器训练样本的规模,以提高学习器的识别精度。实验表明,采用主动学习策略的支持向量机算法是有效的,在实验中,中文机构名识别的正确率和召回率分别达到了81.7%和86.8%。
- 陈霄刘慧陈玉泉
- 关键词:机构名识别支持向量机
- 基于多层有限状态自动机的多输入汉语词性标注系统被引量:1
- 2001年
- 将带有歧义的切分字段作为词性标注系统的输入,并在词性标注系统中引入了有限状态自动机进行部分句法分析以排除切分和标注歧义,实现了一个结合部分句法分析的汉语词性标注系统。
- 孔骏陈玉泉陆汝占
- 关键词:有限状态自动机自然语言处理
- 在线社交网络中基于多态信任融合的信任估计
- 2024年
- 为提高大型在线社交网络中信任计算方法的准确性和鲁棒性,采用共被引和转置信任传播操作,提出一种基于多态信任融合的信任估计方法估计连续信任/不信任值。结合信任者、被信任者的相邻用户的信息以及被信任者对信任者的信任,平均估计出两个用户信任或被其它用户信任的差异,以及一个用户信任另一个用户和被该用户信任的差异;利用这些差异,计算4种部分信任估计值,将这些部分估计值加权平均,得到信任者对被信任者的最终信任估计值。仿真结果表明,所提方法比其它最新的现有信任计算算法更准确和鲁棒,对应用于大型网络更高效。
- 任蓓蓓陈玉泉陈芸
- 关键词:信任计算加权有向图均方根误差
- 一个可扩展的汉语词法和句法分析一体化系统
- 本文构造了一个汉语词法和句法分析的一体化处理系统,该系统将汉语分词、词性标注、句法分析以及未登录词识别紧密地结合起来,在各模块之间实现了充分的信息共享.更重要的是,该系统同时又具有良好的可扩展性,整个系统构建在统计模型的...
- 江丰刘慧陈玉泉陆汝占
- 关键词:中文信息处理汉语词法分析汉语句法分析
- 文献传递
- 机助自适应考试(CAT)系统题库的仿真研究被引量:4
- 2005年
- 该文用模拟的方法讨论了机助自适应考试系统中题库的容量、知识点分布和题目参数的分布。容量模拟试图在题库的规模和实用性上作一个折中,使得测试能够正确地完成而题库的量尽量的少,因为建立题库的花费非常的大;知识点分布模拟和题目参数的分布模拟,希望找出能够让自适应算法发挥最大优势的知识点分布状况和题目参数分布状况。基于实验结果,对当前的HSK(汉语水平考试)考试系统的题库的扩充方法进行了研究,并且建立信息管理模块对题库参数进行优化。
- 田怀凤袁琰王立陈玉泉
- 关键词:题库自适应算法知识点
- 基于数据挖掘技术的汉语新词语的发现
- 该文在现有的结构化数据挖掘技术基础之上,提出一种适合于非结构化数据的数据挖掘技术,由此给出了从大规模现代汉语语料库中发现新词语的一种方法。
- 王命琴张益民陈玉泉徐良贤陆汝占
- 关键词:数据挖掘
- 文献传递
- 基于Web的概念属性抽取的研究被引量:7
- 2009年
- 针对现今通用搜索引擎存在信息量大、查询不准确、深度不够的问题,提出概念分析的方法。它是用于研究信息检索的一条重要思路,它所倡导的以叠置原理为核心的语义分析技术,目标是自动地解析复合概念的语义,解决从简单的符号处理走向词的意义处理。通过实现基于Web的属性抽取,以支持基于概念的搜索模型。最终使用实验来分析验证算法,所获得的查全率随着迭代的递增,不断增加;相反,准确率却相应下降,这个评测结果说明属性抽取方法的可行性。
- 吴月萍陈玉泉
- 关键词:属性抽取查全率准确率
- 自学习结合部分句法分析的汉语词性标注
- 2001年
- 针对词性标注中单独使用概率方法或规则方法的缺陷 ,将概率方法和规则方法有机地结合起来 ,并引入了部分句法分析排除切分歧义和标注歧义 .利用机器学习得到的规则对输出结果进行修正 。
- 孔骏陈玉泉陆汝占
- 关键词:汉语词性标注切分歧义
- UP、β_n和FewP完全问题的相对同构性
- 1995年
- 本文引进相对的多项式化归和相对多一多项式同构等概念,对UP、βn的FewP的相对完全集讨论它们的相对同构问题。并得到如下结果:1(1)对任何mP,Bn─βnBn完全集C,C≈PBnAn←→C为PBn柱。(2)对任何mP,B─FewPB完全集C,C≈PB∪n∈NAn←→C为PB柱,其中B=SAT-∪n∈NAn。(3)对任意OracleC和任何mP,C-NPC完全集A,A≈PCSAT←→A为PC柱。2(1)存在A使得≤mP,A—UPA完全集非PA同构。(2)存在A使得mP,A-βnA完全集非PA同构。(3)存在A使得mP,A—FewPA完全集非PA同构。
- 吕义忠陈玉泉
- 计算机辅助新词新语词典的编纂被引量:3
- 2000年
- 在参照众多语言学家关于新词新语的定义及其界定的基础上 ,定义了适合计算机处理的新词新语的扩充集——新现词语 ,给出了从大规模现代汉语语料库中基于数据挖掘技术的新现词语发现 ,并利用该技术辅助新词新语词典的编纂 .新现词语发现先将非结构化数据准结构化 ,再利用数据变换函数将其转换为结构化数据 ,最后再用结构化数据挖掘技术进行数据挖掘 .利用上述方法 ,对 1 991年人民日报的部分语料 (约 4 0 0万字 )进行了初步测试 。
- 陈玉泉顾顺莲陆汝占
- 关键词:编纂