搜索到1111篇“ 文档结构“的相关文章
基于深度学习的多格式文档结构化数据特征提取系统
本发明公开了基于深度学习的多格式文档结构化数据特征提取系统,包括以下步骤:步骤S1:文档预处理;对输入的PDF报表进行格式标准化处理,包括文档的去噪、旋转校正;步骤S2:格式自适应识别;应用机器学习算法,基于已有的文档样...
杨玉新刘波吕伟佟晓月孟宪卿潘成才杨犁庞海湾刘瀚达冯翼雷
基于文档结构上下文增强的知识检索方法、系统、设备及介质
本发明涉及一种基于文档结构上下文增强的知识检索方法、系统、设备及介质,其中方法包括以下步骤:获取多源异构结构文档并进行统一的结构解析和格式化,提取文档的元数据和层次结构信息;根据提取的文档元数据和层次结构信息,构建文档...
叶峻刘建志刘雨虹郑琦薇向巍巍孟令斌
一种基于LLM的文档结构化自动处理方法及系统
本发明公开了一种基于LLM的文档结构化自动处理方法及系统,涉及文档处理技术领域,包括步骤:S1、文档输入和预处理:去除无序文本中的特殊字符、统一编码格式,调整其语义密度;S2、去冗余和关键词提取:去除无序文本中的重复信息...
吴见乐谢丰泽何骁
多模态大模型的销售助手产品文档结构识别方法、系统
本申请涉及多模态大模型技术领域,尤其涉及多模态大模型的销售助手产品文档结构识别方法、系统。通过获取待识别的销售助手产品文档信息;将获取待识别的销售助手产品文档信息,输入预先设置的多模态模型,输出识别后的销售助手产品文档信...
夏英洲
多模态大模型的销售助手产品文档结构识别方法、系统
本申请涉及多模态大模型技术领域,尤其涉及多模态大模型的销售助手产品文档结构识别方法、系统。通过获取待识别的销售助手产品文档信息;将获取待识别的销售助手产品文档信息,输入预先设置的多模态模型,输出识别后的销售助手产品文档信...
刘学谦
文档结构切分方法、装置、设备和介质
本发明公开了一种文档结构切分方法、装置、设备和介质。其特征包括:获取待切分文档,通过预设的聚类算法依次对待切分文档的待切分文档页进行文字聚类,得到至少一个文字聚类簇和文字聚类簇对应的聚类簇包围框;基于所述文字聚类簇和所述...
王斐高雪峰仲光庆杨成虎
文档结构化方法、装置、电子设备和存储介质
本发明提供一种文档结构化方法、装置、电子设备和存储介质,所述方法包括:提取目标文档中各文本行的视觉特征;基于各文本行的视觉特征,对各文本行逐行进行结构关系解码和基于结构关系的结构化类型解码,得到各文本行之间的结构关系,以...
朱辉辉张建树宋时德
一种基于深度学习的文档结构化编辑方法及装置
本申请的实施例提供了一种基于深度学习的文档结构化编辑方法、装置、设备和计算机可读存储介质。所述方法包括获取待处理的多层级文档;通过优化的编辑模型对所述多层级文档进行分层级语义分析,生成结构化编辑建议;基于所述结构化编辑建...
杨良志白琳汪志新卢业波方跃涵廖丹谢永顺
文档结构识别方法、文档结构识别的模型训练方法和装置
本申请公开了文档结构识别方法、文档结构识别的模型训练方法和装置,涉及自然语言处理和深度学习技术领域,用于文档布局分析。具体实现方案为:获取文档图像,从文档图像中选取候选区域,对候选区域进行图像特征提取,得到图像特征,对候...
彭艺宇曾凯路华陈永锋
交互式文档结构化信息提取方法、装置、电子设备及存储介质
本发明公开了一种交互式文档结构化信息提取方法、装置、电子设备及存储介质,具体涉及文档处理领域,包括:识别文档,获取文档版式;将文档版式与知识库存储的样本版式进行匹配,选择匹配版式并执行对应任务指令提取文档结构化信息;用户...
梁俊豪

相关作者

杨勇
作品数:31被引量:33H指数:2
供职机构:北京北大方正电子有限公司
研究主题:文档 样式 文档模板 服务器 结构化文档
万小军
作品数:66被引量:232H指数:6
供职机构:北京大学
研究主题:句子 文档 语言文字 排序 主题检测
余忠华
作品数:8被引量:0H指数:0
供职机构:北大方正集团有限公司
研究主题:文档 小样 文档结构 样式 XML
闫国龙
作品数:47被引量:1H指数:1
供职机构:北大方正集团有限公司
研究主题:排版 可变数据 印刷 样式 排版系统
邓吉秋
作品数:92被引量:169H指数:7
供职机构:中南大学
研究主题:词项 文档 文本 基于GIS GIS