公共文化服务平台

2025年1月11日星期六

|

欢迎来到佛山市图书馆•公共文化服务平台

登录 | 注册 | 进入后台

[APP下载]

[APP下载]

扫一扫,既下载

全民阅读
职业技能
专家智库
参考咨询

您的位置： 专家智库 > >

乔维: 作品数：4 被引量：9H指数：2; 供职机构：清华大学计算机科学与技术系更多>>; 发文基金：国家自然科学基金国家高技术研究发展计划更多>>; 相关领域：自动化与计算机技术语言文字更多>>

合作作者

孙茂松清华大学计算机科学与技术系

作品列表
供职机构
相关作者
所获基金
研究领域

文献类型

2篇期刊文章
2篇会议论文

领域

3篇自动化与计算...
2篇语言文字

主题

4篇中文
2篇语料
2篇切分
2篇分词
1篇信息处理
1篇一体化
1篇语料库
1篇统计特性
1篇歧义
1篇中文分词
1篇中文信息
1篇中文信息处理
1篇自动分词
1篇命名实体识别
1篇计算机
1篇计算机应用
1篇汉语
1篇汉语自动分词
1篇词频
1篇M

机构

4篇清华大学

作者

4篇乔维
4篇孙茂松

传媒

1篇清华大学学报...
1篇中文信息学报
1篇第三届学术计...

年份

1篇2010
1篇2008
2篇2006

共 4 条记录，以下是 1-4

全选清除导出

排序方式：

基于M^3N的中文分词与命名实体识别一体化被引量：5: 2010年; 中文分词和命名实体识别经常被视为2个独立的任务。该文提出一种基于最大间隔Markov网络模型(M3N)的中文分词和命名实体识别一体化方法,将二者统一在一个字序列标注框架下,进行联合训练和测试。在SIGHAN_2005分词数据集上的实验结果显示,与基于条件随机场模型的分词器相比,基于M3N的分词器加权综合值提高0.3%~2.0%。在SIGHAN_2005分词数据集和SIGHAN_2006命名实体数据集上进行测试的结果显示,与分步方法相比,一体化方法能够同时提高中文分词和命名实体识别的性能,加权综合值的提高幅度分别为1.5%~5.5%和5.7%~7.9%。同时,还基于分词任务考察了特征模版和不合法序列对M3N性能的影响。; 乔维孙茂松; 关键词：中文分词命名实体识别

基于生语料、最大匹配切分语料以及熟语料的中文词频估计方法: 词频估计在NLP的各个领域中都有着重要的应用,中文的特点使得中文词频估计对我们来说依然是一个严峻的挑战.其中一个主要因素就是缺少一个供我们作词频估计的'完美的'语料库.我们现有的语料库有:规模可以任意大的生语料库;由生语...; 乔维孙茂松; 关键词：语料库; 文献传递

汉语交集型歧义切分字段关于专业领域的统计特性被引量：4: 2008年; 交集型分词歧义是汉语自动分词中的主要歧义类型之一。现有的汉语自动分词系统对它的处理能力尚不能完全令人满意。针对交集型分词歧义,基于通用语料库的考察目前已有不少,但还没有基于专业领域语料库的相关考察。根据一个中等规模的汉语通用词表、一个规模约为9亿字的通用语料库和两个涵盖55个专业领域、总规模约为1.4亿字的专业领域语料库,对从通用语料库中抽取的高频交集型歧义切分字段在专业领域语料库中的统计特性,以及从专业领域语料库中抽取的交集型歧义切分字段关于专业领域的统计特性进行了穷尽式、多角度的考察。给出的观察结果对设计面向专业领域的汉语自动分词算法具有一定的参考价值。; 乔维孙茂松; 关键词：计算机应用中文信息处理汉语自动分词

基于生语料、最大匹配切分语料以及熟语料的中文词频估计方法: 词频估计在NLP的各个领域中都有着重要的应用,中文的特点使得中文词频估计对我们来说依然是一个严峻的挑战。其中一个主要因素就是缺少一个供我们作词频估计的“完美的”语料库。我们现有的语料库有:规模可以任意大的生语料库;由生语...; 乔维孙茂松; 关键词：词频; 文献传递

全选清除导出

共1页<1>

执行隐藏清空

网站首页| 关于我们| 联系我们| 产品服务| 客服中心| 版权声明

版权所有：重庆维普资讯有限公司 ©2014－2017，客户热线：400-638-5550

渝B2-20050021-1　渝公网安备 50019002500403号　违法和不良信息举报中心　互联网出版许可证　新出网证(渝)字10号

用户登录

用户反馈

标题：

*标题长度不超过50

邮箱：

*

反馈意见：

反馈意见字数长度不超过255

验证码：

看不清楚？点击换一张