孙哲
- 作品数:6 被引量:1H指数:1
- 供职机构:北京邮电大学更多>>
- 相关领域:自动化与计算机技术经济管理更多>>
- 基于文本序列错误概率和中文拼写错误概率融合的汉语纠错算法
- 2023年
- 中文拼写纠错是一项检测和纠正文本中拼写错误的任务。大多数中文拼写错误是在语义、读音或字形上相似的字符被误用,因此常见的做法是对不同模态提取特征进行建模。但将不同特征直接融合或是利用固定权重进行求和,使得不同模态信息之间的重要性关系被忽略以及模型在识别错误时会出现偏差,阻止了模型以有效的方式学习。为此,提出了一种新的模型以改善这个问题,称为基于文本序列错误概率和中文拼写错误概率融合的汉语纠错算法。该方法使用文本序列错误概率作为动态权重、中文常见拼写错误概率作为固定权重,对语义、读音和字形信息进行了高效融合。模型能够合理控制不同模态信息流入混合模态表示,更加针对错误发生处进行学习。在SIGHAN基准上进行的实验表明,所提模型的各项评估分数在不同数据集上均有提升,验证了该算法的可行性。
- 孙哲禹可吴晓非
- 变电站巡检图像的语义通信传输方法及系统
- 本申请提供一种变电站巡检图像的语义通信传输方法及系统,所述方法包括:在变电站中将自身采集的目标巡检图像输入预设的语义编码模型,以使该语义编码模型输出所述目标巡检图像对应的语义特征向量;将所述目标巡检图像的语义特征向量经无...
- 范森然王秋苏孙哲董辰刘庚
- 北京网通宽带业务发展战略
- 孙哲
- 关键词:宽带业务
- 基于门控特征融合的中文错别字纠正模型
- 2023年
- 针对在中文错别字纠正中,平等地融合汉字的语义、读音和字形信息进行建模的方法会由于错误的读音或字形信息而影响模型性能的问题,提出了一种基于门控特征融合的中文错别字纠正模型,利用自适应门控来选择性地融合语义、读音和字形信息,提升模型性能并加强模型的可解释性。此外,使用改进的四角号码编码汉字的字形信息,有效地提取了汉字的字形特征,并且基于此扩展了模型预训练时的字形相似混淆集。使用了基于混淆集替换的预训练掩码策略,使模型能有效学习文本错误知识。在公开数据集SIGHAN13、SIGHAN14和SIGHAN15上,所提模型分别取得了78.7%、67.8%和77.7%的纠错F1分数,相比于最优基线模型分别提升了1.5%、1.5%和1.0%。
- 周雨昊孙哲吴晓非禹可
- 关键词:四角号码
- 基于Android的终端网络安全管理系统设计与实现
- 随着移动互联网技术的不断发展,人们对移动终端的使用变得越来越普遍。各类应用的出现使得移动终端的用途变得更加的广泛,企业也可以大力地发展对移动终端的使用,从而更好地对企业进行管理。因此,就出现了移动办公的概念。通过对移动终...
- 孙哲
- 关键词:企业管理移动终端网络安全系统设计
- 文献传递
- 输电场景下的监控信息处理方法、系统和检测设备
- 本发明提供一种输电场景下的监控信息处理方法、系统和检测设备,所述方法包括:由用于检测输电场景的各监测设备基于各自内置的预训练的语义分割模型将各自获得的原始监控信息划分为关心重点信息和背景信息,其中,监测设备各自内置监测设...
- 董辰邓天烨孙哲鲍智成刘颖