搜索到260篇“ 中文文档“的相关文章
基于n-gram模型的中文文档的OCR后处理方法、装置及可读介质
本发明公开了一种基于n‑gram模型的中文文档的OCR后处理方法、装置及可读介质,该方法先利用OCR识别得到每个文本框的平均识别置信度、位置和n‑gram模型的评分判断是否需要进行文本框合并,如果需要进行文本框合并,则再...
王新池天宏徐抒杰
基于互联网检索的中文文档识别方法
本发明公开了一种基于互联网检索的中文文档识别方法,包括:对文档图片通过构建的候选切分网络,得到基元片段;将相邻的N个基元片段组合构成候选字符模式,将所有的候选字符模式构成候选切分网格;通过字符识别器识别候选切分网格中的候...
王秋锋黄开竹
一种中文文档事件抽取的方法和系统
本发明公开了一种中文文档事件抽取的方法和系统,所述方法包括:检测所述文档的实体和实体类型;检测所述文档中句子的事件类型;根据所述事件类型,获得所述事件类型所需要的论元角色及其重要度;根据所述论元角色的重要度,获得每个句子...
王雷
一种中文文档解析与编码识别系统
2022年
本论文为促进工作的信息化、自动化,设计了一个文档解析系统。其核心功能是读取并解析规程文档的内容,并且识别出文档中存在的设备编码,从而将规程文档中有价值的信息提炼出来以便工作人员能够更有效地利用或者更快速地检索需要的规程文档。本论文提出的编码识别系统基于正则表达式和支持向量机技术。正则表达式用于提取文档中的疑似编码,利用支持向量机训练了一个二分类器用于判断疑似编码是否为真正的编码。研究结果表明该系统可以有效的地用于工程实践中,具有很高的可用性,能够大大提高工作人员的工作效率。
姚昊
关键词:文档解析支持向量机正则表达式
一种基于数值-字符串混合编码的中文文档基因量化与表征方法
本发明针对一种28种混合特征的中文文档基因,面向文档保护与匹配检测场景,提出了基于数值‑字符串混合编码的中文文档基因量化与表征方法,将数值向量与字符串向量的特征区分开,单独量化;进一步定义特征内部要素与特征间的编码分隔符...
李岩
文献传递
一种中文文档事件抽取的方法和系统
本发明公开了一种中文文档事件抽取的方法和系统,所述方法包括:检测所述文档的实体和实体类型;检测所述文档中句子的事件类型;根据所述事件类型,获得所述事件类型所需要的论元角色及其重要度;根据所述论元角色的重要度,获得每个句子...
王雷
文献传递
中文文档抽取式摘要方法
本申请公开了一种中文文档抽取式摘要方法,包括:文本向量化;识别基本篇章单元;抽取摘要句,所述文本向量化,包括:对输入文本进行分句、分词、标识符插入操作,使用中文Bert预处理模型,对文本进行向量化。本申请实施例提供的中文...
游新冬吕学强李宝安孙少奇
文献传递
一种基于混合特征的中文文档基因提取方法
本发明涉及一种基于混合特征的中文文档基因提取方法。该方法针对中文文档格式,面向文档逃避检查场景,提出了文档载体特征、属性特征、内容特征融合的混合特征,首次将顺序关系引入内容特征,作为内容特征的有效补充,并最终形成一种相对...
李岩
文献传递
一种基于多权重体系的中文文档基因匹配方法
本发明针对中文文档基因匹配,面向文档逃避检查场景,提出了面向28种混合文档基因特征的匹配方法,特别是首次引入多权重体系,体现体系间与体系内的基因差异化考虑,形成了统一的相似度计算公式。基于本发明的文档基因匹配方法,可精细...
李岩
文献传递
一种基于语义相似的中文文档抄袭检测方法
2020年
为解决在文本抄袭行为中由于避开检测而对文本内容进行的一些同义词替换、文本释义等操作问题,提出了一种基于语义相似计算的中文文档抄袭检测方法,将文档以句子为单位切分,利用word2vec模型将句子中的词语表示为词向量的形式,作为卷积神经网络(convolutional neural net-work,CNN)的输入,使用卷积神经网络提取和筛选句子的特征,计算句子对之间的差异,输出句子对的相似度,相似度高的句子对视为抄袭.利用大型可公开的腾讯云文本相似数据集检测试学生作业的抄袭情况,结果表明,传统的移动窗口指纹特征提取法虽然能够较为准确地找出两个文档中相同的片段,但是对于语义相似的文本容易受到噪声影响,提出的基于语义相似计算方法能够发现文档中语义相似的部分.
胡布焕张晶张凌
关键词:抄袭检测语义相似度

相关作者

周水庚
作品数:134被引量:1,064H指数:15
供职机构:复旦大学
研究主题:数据挖掘 机器学习技术 可扩展性 解释性 GML
胡运发
作品数:229被引量:1,733H指数:21
供职机构:复旦大学
研究主题:互关联后继树 数据挖掘 信息检索 INTERNET 人工智能
刘超
作品数:252被引量:2,014H指数:16
供职机构:北京航空航天大学仪器科学与光电工程学院
研究主题:软件工程 软件测试 逆向工程 软件开发 面向对象
李桥玮
作品数:5被引量:0H指数:0
供职机构:西安理工大学
研究主题:中文文档 碎纸机 笔画 单字 概率统计
朱虹
作品数:280被引量:568H指数:11
供职机构:西安理工大学
研究主题:图像 相机 视频 摄像机 目标跟踪