搜索到488篇“ 分词算法“的相关文章
一种设备端中英分词算法的设计与实现
2024年
文章针对设备端中英文分词的需求,设计并实现了一种端侧中英文分词算法。该算法基于词典匹配原则,结合散列hash算法实现高效的词典查找。通过优化词典结构、采用自适应分词策略以及引入用户反馈机制等策略,提高了分词的准确率和处理速度。实验结果表明,无论在通用PC还是低性能嵌入式设备上,该算法都表现出良好的性能。在人工标注的中文和英文测试集上,整句分词准确率分别达到90%和80%以上,为设备端分词的实现提供了一种可行的思路。未来的工作重点是进一步优化英文处理,并适配低端硬件设备。
高群
基于行文本框分词算法的文本内容提取识别方法
本发明公开了一种基于行文本框分词算法的文本内容提取识别方法,根据行文本框的位置信息、语义信息、手指坐标信息,使用简单高效的算法实现提取出距离手指最近的词语,该算法简单高效,解决了服务器资源不足的问题。同时本发明使用目标检...
冯杰刘新天朱明航孟泽正张海翔
带有偏移映射的分词算法
提供了一种计算机系统,包括处理器,该处理器耦合到存储指令的大容量存储设备,该指令在由处理器执行后,使处理器存储由多个字符组成的原始串,对原始串执行分词算法,并将原始串标记化以生成已处理串,该已处理串包括由空格分隔的多个词...
M·古普塔K·莫特拉尼
基于中文分词算法和众包协同的高校课程思政资源共享与互助系统
2023年
近年来,广大高校教师积极参与“课程思政”教改实践,但却经常面临创新思路单一、参考资源查找效率低、教学资源制作的技能和精力不足等困扰。针对现有研究的不足,设计并实现了一个基于中文分词算法和众包协同的高校课程思政资源共享与互助系统。该系统使用TF⁃IDF算法和众包机制来整合互联网上的课程思政资源,联结了多方平台和参与者,使用Spring Boot和Vue框架进行开发。该系统由协同互助、课程思政、讨论区、资源检索、个人中心等模块组成,可为高校教师提供课程思政教学的辅助支持,具有良好的应用价值。
张露童颖佳马华
关键词:中文分词算法
一种最大逆向匹配分词算法与GPT结合的文本生成方法
本发明属于自然语言处理技术领域。具体涉及一种最大逆向匹配分词算法与GPT结合的文本生成方法,逆向最大匹配分词算法能够融入用户的常用词汇、句子信息,而GPT网络模型却可以在海量数据中学习字、词汇、句子之间的统计规律和内在联...
曹肖攀舒彬
基于SLE中文分词算法的拼音输入法研究与实现
随着互联网的发展,中国网民数量逐年增长,计算机已经改变了人们生活中的传统休闲娱乐方式并成为了人们日常工作不可或缺的生产力工具。输入法软件作为人机信息交互的重要媒介之一,如今已经成为计算机用户的必备装机软件。由于拼音知识简...
王亚威
关键词:拼音输入法中文分词
基于行文本框分词算法的文本内容提取识别方法
本发明公开了一种基于行文本框分词算法的文本内容提取识别方法,根据行文本框的位置信息、语义信息、手指坐标信息,使用简单高效的算法实现提取出距离手指最近的词语,该算法简单高效,解决了服务器资源不足的问题。同时本发明使用目标检...
冯杰 刘新天 朱明航 孟泽正张海翔
一种用于电力大数据业务的电力分词算法
本发明公开一种种用于电力大数据业务的电力分词方法,涉及电力文本分词处理领域,利用基于多策略融合分词机制将带有大量专业词汇的相关电力大数据业务词汇进行自主区分并组成通顺的词组;采用本发明方法构建的电力大数据业务的电力分词方...
周俊王磊夏天杨卫东唐立合胡畔高强王峰汤宁田大东付嘉渝明涛
基于隐马尔可夫模型的分词算法的设计与实现被引量:4
2022年
汉语的自动分词问题是计算机处理汉语时面临的基础性工作,是诸多应用系统不可或缺的一个重要环节。其中基于隐马尔可夫模型的分词算法独树一帜,分词的准确度和召回率都达到了实用的程度。但是目前的基于隐马尔可夫模型的分词工具很少,复杂的代码结构限制了它的普及。针对隐马尔可夫模型的特点与中文分词相结合,简单设计并实现了基于隐马尔可夫模型的分词算法,代码简单易理解,对以后基于此的词法分析的研究有很大的参考价值。
林游龙
关键词:隐马尔可夫模型中文分词
基于数据词典的中文分词算法优化实现被引量:4
2022年
中文分词算法是中文自然语言理解的基础,文章运用C#语言实现了正向、逆向、最长词、最短词的分词算法,通过大量样本实例分析,对不同算法进行了比较,介绍了分词算法在新词发现、歧义发现中的应用,重点阐述了关系型数据库、文本文件等不同数据结构的数据词典对中文分词算法速度的影响,创新性地引入一种非常规的数据词典索引表,大大提升了分词算法的速度。
鲍曙光
关键词:中文分词新词发现歧义消除自然语言识别

相关作者

李堂秋
作品数:46被引量:223H指数:9
供职机构:厦门大学信息科学与技术学院计算机科学系
研究主题:机器翻译 文本表示 中文分词 知网 人工智能
曾华琳
作品数:25被引量:74H指数:3
供职机构:厦门大学
研究主题:智能科学与技术 句子 树结构 N元模型 分词算法
亢临生
作品数:15被引量:42H指数:4
供职机构:山西大学
研究主题:自动分词 分词算法 分词 数据库 分词系统
李学俊
作品数:34被引量:80H指数:5
供职机构:西南科技大学计算机科学与技术学院
研究主题:知识图谱 自动评分 矢量空间模型 文本匹配 中文分词算法
张海营
作品数:27被引量:102H指数:6
供职机构:湖北文理学院
研究主题:图书馆 实证分析 图书 分词算法 自动分词