搜索到863篇“ 分类标引“的相关文章
基于大模型微调的生成式文献层次分类标引
2025年
对文献进行自动的分类标引,有利于实现文献的分类存储、排列和检索。已有研究通常采用判别式模型对文献的浅层类别进行自动识别,而在深层次类别划分和准确性方面能力不足。鉴于此,本研究将文献的层次分类问题转换为文献层次类别标签的生成任务,并构建了基于大模型微调的生成式文献层次分类标引框架。首先,该框架采用自然语言的形式对文献的层次分类号进行标签解释;其次,采用高效微调技术对开源大语言模型进行有监督微调;最后,采用微调后的大模型直接生成文献的多层分类标签,通过标签映射得到文献的中图分类号。在经济、医药卫生和工业技术三类学科数据上进行实验检验,结果表明,有监督微调能够有效提升通用大语言模型在文献层次分类标引任务上的理解与推理能力,也取得了比传统判别式模型更好的分类性能;整合文献的摘要、题名和关键词,可以有效提升微调大语言模型的分类性能;通过对比不同参数规模的Baichuan2和Qwen1.5大模型,发现微调后的Qwen1.5-14B Chat模型表现最佳,其在一级类目上能够达到98%的分类性能,在最具挑战性的五级类目上也达到了80%的准确性;典型样例分析展示了微调后的Qwen1.5-14B-Chat具备一定的纠错能力。
胡忠义税典程吴江
关键词:文献分类标引《中国图书馆分类法》
基于分类标引原理的宗教文化类目探讨
2024年
调查《中图法》第5版“B9宗教”类目存在的体系结构缺乏逻辑、类号编制不规范以及国家图书馆和中国知网学术期刊库宗教文化分类标引混乱等问题,以期为《中图法》的改版提供参考。根据宗教的组成要素,按照类目之间的逻辑关系,将佛教、基督教、伊斯兰教(三大宗教)、其他宗教和术数作为宗教的主标目,将宗教哲学、宗教教义、宗教体制等共性问题作为宗教“理论与方法论”的内容,以期为各类宗教的仿分提供便利;将术数的具体内容设置为专类复分表,以期为各国术数提供仿分便利。通过对“B9宗教”类目的改进,增强了类目的伸缩性,节省了分类法的篇幅。
蒋鸿标杨雪莹
关键词:宗教文化类目体系分类标引《中国图书馆分类法》
基于经济学原理的经济文献分类标引研究
2024年
[目的/意义]分析《中国图书馆分类法》(第5版)“F经济”类目存在的体系结构不合理、编码不规范、注释不当等问题,以期为《中图法》的改版提供参考。[方法/过程]依据经济学由理论经济学和应用经济学构成的原理,并根据《中图法》“从总到分,从一般到具体”的编制原则,按照经济学理论与方法论、国民经济学(应用经济学)、产业经济学(部门经济学)、劳动经济学、商品经济学的结构对“F经济”类目作了科学分类。[结果/结论]提高了经济类目设置的科学性、逻辑性和实用性。
葛英蒋鸿标
关键词:经济学原理《中图法》
大语言模型在分类标引工作中的应用探索被引量:3
2024年
[目的 /意义]文献分类标引是图书馆等信息机构基础工作之一,目前有限的人工难以类分数量庞大的文献。大语言模型以优异的自然语言理解和处理能力,被用于完成诸如文本生成、自动摘要、文本分类等相关自然语言任务,能够与文献标引全过程相结合,有助于缓解分类标引压力。[方法 /过程]结合《全国报刊索引》长期工作实践,从减轻标引人员阅读压力、大语言模型直接用于分类以及和自动标引模型相结合为切口,探索如何将大语言模型引入分类标引工作环节,以提高标引效率。[结果 /结论]通过一系列对比测试和分析,设计Prompt辅助主题分类模型以及ACBKSY自动标引模型。Prompt辅助主题分类模型标引人员快速了解文献重点,减少阅读压力。ACBKSY模型整体分类准确率提高了2.16%,非拒绝准确率提高了3.77%。在此基础上优化实际标引工作流程,目前此流程已在R、F大类文献标引中投入使用,经优化后的工作流程可以提高标引效率1.1~1.4倍。
姜鹏任龑朱蓓琳
关键词:分类标引
标准文献CNMARC格式分类标引的探讨
2024年
随着行业标准化、规范化要求的提高,图书馆收藏的标准文献不断增加。国际标准分类号和中国标准分类号是标准文献检索的重要途径。CALIS联合编目中心和国家图书馆对标准文献分类标引没有明确的规则。在CALIS和国家图书馆联合目录数据库中,标准文献都只标引中国图书馆分类分类号,缺少标准文献专业分类号。编目人员应结合标准文献特点,依据CNMARC格式的686字段属性更规范、更完整地标引标准文献分类
朱晓燕刘孝平
关键词:CNMARC格式
云原生科技咨询数据分类标引服务平台的研究与实现
云原生科技咨询数据分类标引服务平台是面向科技咨询专家和业务人员的、高效且易用的数据分类标引和分析服务平台。随着互联网和行业的不断发展,科技咨询数字化转型成为必然的发展趋势,如何快速构建科技咨询领域数据资产,实现数据价值成...
丛丽静
基于深度学习的文献数字资源智能分类标引研究
2023年
[目的/意义]研究并构建基于深度学习的智能分类标引系统,并对文献数字资源进行正确的分类标引,以期降低文献分类标引过程中的人工成本。[方法/过程]首先,通过对比分析BERT-Base模型、贝叶斯算法、Text-CNN算法、对抗训练算法、IndRNN算法、LSTM算法这6种模型或算法对经济类文献数字资源分类的影响,发现BERT-Base模型的分类准确率最高。其次,选取艺术类、金属学与金属工艺类、医药卫生类的文献数字资源进行验证,BERT-Base模型的分类表现均较好,满足通用性要求。最后,采用BERT-Base中文预训练模型,构建文献数字资源一级大类分类模型,对模型进行预训练和文献分类研究,实现了一级大类分类测试总体准确率为90.44%。[结果/结论]基于BERT-Base中文预训练模型的深度学习算法能显著提高文献数字资源的分类效果,且在多类目大规模训练集下更能体现其分类的优越性。
王静姜鹏沈立力
关键词:数字资源
基于多源信息融合的学位论文自动分类标引被引量:2
2023年
[目的/意义]学位论文是图书馆的特色馆藏文献,实现学位论文的自动分类标引对智慧图书馆建设具有积极意义。[方法/过程]首先基于BERT分别获取题名和摘要的词向量表示,然后将二者进行加权代数和计算得到融合向量,最后将其输入到基于Pytorch框架构建的Softmax经典分类器进行学位论文的自动分类标引实践探讨。[局限]在数据信息源和学科内容的多样性方面尚需进一步加强。[结果/结论]模型分类F1值达到了79.55%,优于基于单一信息的题名或摘要的分类效果,能较好满足实际应用要求。
谢庆恒
关键词:学位论文信息融合
面向非平衡数据的文献分类标引方法研究
现有文献的分类标引多采用《中图法》。在文献出版量飞速增长的背景下,完全依靠人工进行文献标引已经不可行,通过文本自动分类算法实现机器标引变得非常必要。然而,中图分类体系下存在数据不平衡现象。这影响了现有分类算法的性能,难以...
翁梦娟
关键词:文献标引非平衡数据卷积神经网络
不均衡数据集下基于CNN的中图分类标引方法被引量:4
2020年
【目的】提高类间分布不均匀数据下中图分类标引的精度。【方法】提出一种使用卷积神经网络(CNN)作为融合分类器的分类方法,相比于其他Stacking融合方法,本方法将各基模型的分类标签概率分布信息堆叠后作为CNN输入,无须人工设置基模型权重。【结果】实验以中图分类法G4下三级类目为例,结果显示,本方法对不均衡中图类目的平均标引准确率达60%,相比于基线模型,本方法的分类精度有19%的绝对提升。【局限】在方法设计上依赖卷积神经网络中卷积核的设计,只能通过实验确定效果最佳的网络结构;融合阶段训练分类器的复杂度会随着类目数量和基模型数量的增加而增加。【结论】本方法可有效提高不均衡数据集下的标引精度,可与层级分类策略结合使用,实现中图全类目的自动化分类标引
翁梦娟姚长青韩红旗韩红旗冉亚鑫
关键词:分类标引CNNSTACKING

相关作者

刘少武
作品数:57被引量:80H指数:4
供职机构:天津市汉沽区图书馆
研究主题:中图法 类目设置 分类标引 《中图法》 中国图书馆分类法
邓福泉
作品数:164被引量:436H指数:9
供职机构:辽宁石油化工大学图书馆
研究主题:著录 机读目录 字段 CNMARC 题名检索点
张光德
作品数:11被引量:15H指数:2
供职机构:潍坊市图书馆
研究主题:分类标引 《中图法》 机读数据 机读目录 中国图书馆分类法
施振宏
作品数:74被引量:226H指数:7
供职机构:淮阴师范学院图书馆
研究主题:《中图法》 类目设置 类目复分 加0问题 加0
文榕生
作品数:186被引量:627H指数:13
供职机构:中国科学院文献情报中心
研究主题:文献编目 机读目录 文献著录 图书馆 检索语言