何彬
- 作品数:5 被引量:127H指数:4
- 供职机构:哈尔滨工业大学计算机科学与技术学院更多>>
- 发文基金:国家自然科学基金更多>>
- 相关领域:自动化与计算机技术医药卫生更多>>
- 基于字级别条件随机场的医学实体识别被引量:6
- 2019年
- 开放域分词器对临床文本进行分词处理时,其性能受到了临床文本独特的子语言特性的极大限制,给后续医学实体边界识别造成了不少错误累积。本文针对该问题构建了面向临床文本的分词器,将该分词器用于医学实体识别模型的词特征提取来减少医学实体边界错误,还构建了字级别的条件随机场模型用于识别医学实体,避免了分词给实体边界识别造成的错误累积问题。
- 何彬关毅
- 关键词:条件随机场
- 基于SVM和CRF双层分类器的英文电子病历去隐私化被引量:9
- 2016年
- 去隐私化是2014 i2b2/UTHealth中的一个任务,目的在于识别并移除电子病历中的隐私信息。本文提出了一种基于支持向量机(SVMs)和条件随机场(CRFs)双层分类模型的去隐私化方法,经过预处理将病历文本进行词切分(tokenize)处理,并在此基础上抽取4类特征,训练SVM模型对隐私信息实体边界进行划分并将结果作为特征添加到特征集中,通过CRF训练多分类器,并通过该分类器对各个类别的隐私信息进行识别。实验表明双层分类模型对于隐私信息识别是有效的,结果 F值达到0.9110。
- 程健一关毅何彬
- 关键词:电子病历SVMCRF
- 基于中文电子病历的心血管疾病风险因素标注体系及语料库构建被引量:14
- 2019年
- 本文讨论了从中文电子病历中标注心血管疾病风险因素及其相关信息的问题,提出了适应中文电子病历内容特点的心血管疾病风险因素标注体系,构建了中文健康信息处理领域首份关于心血管疾病风险因素的标注语料库.
- 苏嘉何彬吴昊杨锦锋关毅姜京池王焕政于秋滨
- 关键词:心血管疾病自然语言处理
- 中文电子病历命名实体和实体关系语料库构建被引量:107
- 2016年
- 电子病历是由医务人员撰写的面向患者个体描述医疗活动的记录,蕴含了大量的医疗知识和患者的健康信息.电子病历命名实体识别和实体关系抽取等信息抽取研究对于临床决策支持、循证医学实践和个性化医疗服务等具有重要意义,而电子病历命名实体和实体关系标注语料库的构建是首当其冲的.在调研了国内外电子病历命名实体和实体关系标注语料库构建的基础上,结合中文电子病历的特点,提出适合中文电子病历的命名实体和实体关系的标注体系,在医生的指导和参与下,制定了命名实体和实体关系的详细标注规范,构建了标注体系完整、规模较大且一致性较高的标注语料库.语料库包含病历文本992份,命名实体标注一致性达到0.922,实体关系一致性达到0.895.为中文电子病历信息抽取后续研究打下了坚实的基础.
- 杨锦锋关毅何彬曲春燕于秋滨刘雅欣赵永杰
- 中文电子病历命名实体识别的主动学习方法研究
- 2017年
- 主动学习通过选择现有模型中未充分训练的数据进行迭代训练,从而利用少量标注数据训练出较高性能的模型。传统的主动学习方法只关注数据本身的信息量而忽略了该数据是否孤立。论文提出一种改进的主动学习方法,利用相似病历中出现的词汇往往雷同的特点,以文档中文字的分布衡量其在样本集的普遍程度,并以此对信息量进行加权。而后实现该方法,并进行了与消极学习和传统主动学习方法的对比实验。结果表明,该方法相对消极学习与传统的主动学习方法,效果有明显提升,能够减少对标注数据的需求。
- 王润奇李雪莉黄玉丽何彬关毅
- 关键词:电子病历