魏博诚
- 作品数:4 被引量:8H指数:2
- 供职机构:安徽大学计算机科学与技术学院计算智能与信号处理教育部重点实验室更多>>
- 发文基金:安徽省自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 中文分词交集型歧义处理研究
- 词是最小的能独立表示语义的语言单位,因而是处理各种自然语言文本的基础。汉语书写显得很特别,因为它没有明确的标志将词与词分开,而是一段连续的汉字串。如何把汉字串正确地切分成词串,即对词边界的自动识别,是中文信息处理中迫切需...
- 魏博诚
- 关键词:中文分词分词算法中文信息处理
- 基于SSH的渠道管理系统的设计与实现被引量:4
- 2011年
- 结合电信行业渠道管理信息化建设的现状和需求,采用基于Struts+Spring+Hibernate(SSH)的轻量级分层技术架构的解决方法,设计和开发了一套B/S架构的渠道管理系统。实验结果表明,SSH框架的使用不仅简化了系统的开发过程,而且提高了系统的可扩展性和可维护性。
- 沙先军王爱平魏博诚
- 关键词:STRUTSSPRINGHIBERNATE
- 一种消除中文分词中交集型歧义的方法被引量:4
- 2011年
- 切分速度和精度是中文分词系统的两个主要性能指标。针对传统的中文分词中出现的分词速度慢和分词精度不高的问题,采用了双层hash结构的词典机制来提升分词的速度,对于匹配结果中出现的交集型歧义字段,通过互信息的方法来消除,以提高分词精度。并对该分词系统进行了实现。通过与传统的中文分词系统的分词速度以及分词效果的对比,发现该系统在分词速度和精度上都有所进步,从而取得较好的分词效果。
- 魏博诚王爱平沙先军王永
- 关键词:中文分词互信息交集型歧义
- 一种基于SFP树的快速关联规则挖掘算法
- 2011年
- 对于传统的FP-Growth算法而言,当事务数据库D很大时,构造基于内存的FP树可能是不现实的。针对此问题,提出了一种基于样本事务数据库的SFP算法。该方法对事务数据库D进行随机抽样,得到样本数据库S,此时以比指定的支持度min_sup小的支持度(min_sup')在S中挖掘频繁项集L',根据求得的频繁项集L',在剩余的数据库D-S中求得L'中各事务的支持数,这在大多数情况下就可以求得所有的频繁项集,但是有时可能会漏掉一些。这时可以对D进行二次扫描以发现漏掉的频繁项集。该算法大多数情况下只需要对数据库进行一次扫描,最坏情况下也只需要对数据库进行二次扫描。当把效率放在首位时,比如计算密集事务数据库的频繁项集时,SFP算法尤其合适。
- 李龙澍王永魏博诚
- 关键词:关联规则频繁项集FP树