国家自然科学基金(81273177) 作品数:14 被引量:125 H指数:7 相关作者: 薛付忠 刘言训 周苗 杨亚超 刘静 更多>> 相关机构: 山东大学 威海市立医院 胜利石油管理局胜利医院 更多>> 发文基金: 国家自然科学基金 山东省自然科学基金 山东省医药卫生科技发展计划项目 更多>> 相关领域: 医药卫生 更多>>
基于随机森林的精神分裂症血清代谢组学研究 被引量:3 2015年 目的探讨随机森林对精神分裂症患者和健康对照的血清代谢组学数据的分类能力,并筛选出差异代谢物。方法病例组为50例精神分裂症患者,对照组为62例健康个体,收集他们的血清进行代谢组学检测,然后用随机森林对数据进行分类,用OOB误差率估计、五折交叉验证评价分类效果,借助随机森林中变量重要性评分(VIM)获得重要的差异代谢物。结果随机森林对病例组和对照组的血清代谢组学数据分类效果较好。病例组错分率为4.0%,对照组错分率为1.6%。OOB误差率估计为2.68%,五折交叉验证ROC曲线下面积为0.99,并根据VIM筛选出15个重要的差异代谢物。结论将液相色谱-质谱代谢组学技术与随机森林相结合,能够筛选出有潜在临床应用价值的代谢物,可用于代谢组学研究。 刘盈君 张涛 王璐 刘佳 常学润 张敬悬 薛付忠关键词:精神分裂症 代谢组学 山东多中心健康管理纵向观察队列 被引量:14 2017年 目的介绍山东多中心健康管理纵向观察队列,描述该队列资料的主要变量和疾病的特征,阐明本队列构建的目标。方法山东多中心健康管理纵向观察队列为前瞻性、动态开放式队列。自2004年开始了数据采集、数据库构建、队列随访等一系列工作,迄今队列总人数已近100万人,最长观察时间已达12年,大约20%个体与医疗保险疾病结局数据和死因数据库实现了合并。信息收集包括问卷调查、体格检查和实验室检测。结果本次研究个体数为76 368人,男43 818人,女32 550人。高血压、糖尿病、脑卒中、冠心病的累积发病风险分别为49.40%、23.98%、4.74%和6.82%。结论山东多中心健康管理纵向观察队列是研究各种因素在慢性病发生、发展和转归过程中的作用、构建适用于健康管理人群疾病风险评估模型的基础,基于该队列的各项研究结果能够为慢性病的健康干预提供科学依据。 刘娅飞 邢娉 徐秀琴 杨淑芳 刘言训 袁中尚 薛付忠关键词:健康管理 慢性病 多中心 基于网络爬虫技术的健康医疗大数据采集整理系统 被引量:31 2017年 目的快速、准确地获得公共卫生服务系统的医疗数据,并进行数据整理,为建立人群健康风险评估模型提供数据基础。方法运用聚焦网络爬虫技术,设计算法并编程,在自动记录和修正URL异常、原始数据存档、保持登录方式3个方面进行算法改进。将设计好的爬虫应用于爬取已获得授权网站的医疗数据,通过医学数据库系统,对数据进行解析、整理与导出。结果获得多个公共卫生服务基地数据,为当地政府部门提供数据分析报告,利用整理分析的数据完成多项健康风险评估模型建立。结论基于网络爬虫技术建立的数据采集整理系统,可以解决获取及整理网络许可数据的难题,将此技术应用于医药卫生领域,可使现有丰富的医学数据资源得以充分利用并提高利用效率。 卞伟玮 王永超 崔立真 郭伟 李晖 周苗 薛付忠 刘静关键词:网络爬虫 数据库系统 聚焦爬虫 数据采集 数据解析 健康管理人群缺血性异常心电图的影响因素 被引量:8 2017年 目的阐明健康管理人群的缺血性异常心电图的影响因素及非缺血性异常心电图对重要的缺血性异常心电图的预测价值。方法选择山东多中心健康管理纵向观察队列中至少参加2次体检的个体,排除冠心病及缺血性异常心电图患者,构建随访队列。对随访中发生缺血性异常心电图者与未发生缺血性异常心电图者,比较其基线信息,并筛选影响缺血性异常心电图的危险因素,进一步构建缺血性异常心电图的Cox回归分析模型。结果队列中共纳入45 546例,随访时间1~7年,平均3.24年,随访中共有7 656例出现缺血性异常心电图,发病密度为77.57/1 000人年。缺血性异常心电图发生的主要影响因素是年龄偏高、女性、高收缩压和舒张压、高空腹血糖、白细胞计数高以及非缺血性异常心电图R波高电压。结论本研究探讨导致缺血性异常心电图的危险因素,为制定切实可行的健康干预措施提供了科学依据。 李江冰 宋心红 林海燕 张冬芝 李向一 许艺博 王丽 薛付忠关键词:影响因素 队列研究 健康管理人群2型糖尿病发病风险预测模型 被引量:25 2017年 目的构建健康管理人群2型糖尿病3年发病风险预测模型。方法依托山东多中心健康管理纵向观察大数据库,选择20~75岁的基线未患2型糖尿病者构建队列。采用Cox比例风险回归构建2型糖尿病预测模型,以受试者工作特征曲线下面积(AUC)评价模型的预测效能,以十折交叉验证法检验模型的稳定性。结果随访期间共新发糖尿病1 624例,男性和女性的发病密度分别为15.00‰、10.83‰。男性预测模型最终纳入的变量包括年龄、体质量指数、空腹血糖、甘油三酯、谷丙转氨酶、白细胞计数。纳入女性预测模型的变量包括年龄、空腹血糖、甘油三酯、高密度脂蛋白、谷丙转氨酶。男性和女性预测模型的AUC分别为0.795(95%CI:0.764~0.827)和0.707(95%CI:0.654~0.759)。结论分性别建立的2型糖尿病发病风险预测模型在健康管理人群中均具有较好预测能力。 苏萍 杨亚超 杨洋 季加东 阿力木.达依木 李敏 薛付忠 刘言训关键词:2型糖尿病 队列 健康管理人群代谢综合征发病风险预测模型 被引量:12 2017年 目的基于健康管理人群队列,构建代谢综合征的5年发病风险预测模型。方法依托山东多中心健康管理纵向观察队列,选取20~80岁且基线未患代谢综合征者构建队列,采用Cox比例风险回归构建预测模型,并利用十折交叉验证法检验模型的稳定性,通过受试者工作特征曲线(ROC)下面积(AUC)和观测/期望(OE比)评价模型的预测效果。结果随访期间共发生代谢综合征1 591例(男1 273例,女318例),发病密度为38.57/1 000人年。男性代谢综合征预测模型纳入的变量包括年龄、BMI、空腹血糖、甘油三酯、高密度脂蛋白、血尿酸、总胆固醇和是否高血压,女性模型纳入变量包括年龄、BMI、空腹血糖、甘油三酯、血尿酸和是否高血压;模型ROC曲线下面积分别为0.751(95%CI:0.742~0.759)和0.745(95%CI:0.734~0.756);OE比分别为1.03和1.00;十折交叉验证ROC曲线下面积平均值分别为0.749和0.746。结论本研究利用健康管理纵向队列数据,建立了代谢综合征5年发病风险预测模型,经十折交叉验证结果表明,其在健康管理人群中有较好的预测效果,有助于识别高发病风险人群,进而减少和预防代谢综合征的发生。 孙苑潆 杨亚超 曲明苓 陈雁敏 李敏 王淑康 薛付忠 刘云霞关键词:代谢综合征 健康管理人群慢性肾脏病风险预测模型 被引量:6 2017年 目的构建健康管理人群慢性肾脏病(CKD)发病风险预测模型。方法从山东多中心健康管理纵向观察队列中选取年龄20岁以上、至少有两次纵向观察结果、初次观察结果未患CKD的健康管理对象,共17 654人,随访观察结局为CKD。应用Cox比例风险回归模型建立风险预测模型,以受试者工作特征曲线下面积(AUC)评价模型的拟合效果,应用十折交叉验证法验证模型的稳定性。结果观察期间共有770例新发CKD病例,发病密度为17.69/1 000人年。最终纳入模型的预测因子有年龄、性别、高血压、糖尿病、血肌酐、血尿素氮、血尿酸、嗜碱性粒细胞百分比。模型AUC为0.685(95%CI:0.678~0.692),且稳定性较好。结论建立的CKD风险预测模型在健康管理人群中有较好的预测能力。 周苗 夏同耀 孙爱玲 李明 申振伟 卞伟玮 蒋正 康凤玲 柳晓涓 薛付忠 刘静关键词:慢性肾脏病 健康管理 队列 中性粒细胞计数与非酒精性脂肪肝关联性的前瞻性队列研究 被引量:2 2017年 目的探讨中性粒细胞计数与非酒精性脂肪肝(NAFLD)的关联性。方法基于大规模健康管理队列,针对队列基线中无NAFLD的15 463例健康体检对象随访,平均随访时间2.54年,随访结局为发生NAFLD;将基线中性粒细胞计数根据四分位数由低到高划分为4个组段(Q1、Q2、Q3、Q4);采用多元Cox回归计算中性粒细胞计数与NAFLD关联性的相对危险度(HR)。结果随访期间3 846人被诊断为NAFLD。Cox结果显示,以Q1为参照,在调整年龄、性别后,中性粒细胞计数的Q2、Q3、Q4三个组段的HR(95%CI)分别为1.265(1.057,1.514)、1.446(1.214,1.724)、1.605(1.350,1.907),上述基础上再调整谷丙转氨酶和γ-谷酰胺转酞酶后,Q2、Q3、Q4三个组段的HR(95%CI)分别为1.264(1.056,1.512)、1.434(1.202,1.710)、1.582(1.330,1.882),进一步调整血脂四项、空腹血糖、体质量指数(BMI)和高血压后,HR(95%CI)分别为1.181(0.986,1.415)、1.189(0.995,1.420)、1.226(1.026,1.464)。结论中性粒细胞计数是NAFLD发病的独立危险因素。 柳晓涓 蒋正 康凤玲 周苗 林伟强 薛付忠关键词:非酒精性脂肪肝 中性粒细胞计数 队列研究 COX回归 血小板计数与代谢综合征关联性的前瞻性队列研究 被引量:7 2018年 目的探讨血小板计数与代谢综合征的关联性。方法基于大规模健康管理队列,选取随访期间进行过至少两次体检记录、重要指标无缺失、基线未患有代谢综合征的人群建立前瞻性队列。按照基线血小板计数四分位数将研究对象分为4组,比较各组的发病密度。对这4组人群的基线各变量的特征进行描述。使用Cox比例风险回归模型,分别以血小板计数的数值变量或四分位数分组作为研究的变量,逐渐调整年龄、性别、BMI、高血糖、高血压、血脂异常,探究血小板计数在调整混杂因素前后是否仍为代谢综合征的危险因素。结果共计14 173位年龄在21~60岁的体检者进入队列,总计随访41 014.8人年,平均随访时间2.89年,随访中共有1 611人被诊断为代谢综合征,总人群发病密度为39.28/1 000人年。血小板计数在模型1(单因素)、模型2(调整年龄、性别)、模型3(调整年龄、性别、BMI、高血糖、高血压和血脂异常)中的风险比(HR)始终有统计学意义,表明随着血小板计数的增大代谢综合征的发病风险增加。当以血小板计数四分位数分组为研究的变量时,在模型1的单因素回归中,Q2组与Q1组相比,代谢综合征发病风险并未增加; Q3组和Q4组均有较高的风险增加;在模型2和模型3调整混杂因素后,Q2、Q3、Q4组均有统计学意义,且它们相对于Q1组的HR逐渐增大,结果表明随着血小板计数增加,代谢综合征发病风险也会增大。结论血小板计数升高是代谢综合征发生的独立危险因素。 马晓天 顾建华 王丽 薛付忠 刘言训关键词:血小板计数 代谢综合征 体检人群 队列 COX模型 生活方式对代谢综合征的路径分析 被引量:6 2013年 目的探讨生活方式与代谢综合征(MS)组成成分的关系。方法基于山东省某医院健康查体中心平台系统建立的2005-2010年纵向监测健康体检队列,研究对象为济南市城镇职工,共纳入13225名,调查内容包括一般人口学资料、疾病史、生活方式、BMI、血压、FBG、血脂等。比较MS患者与非MS人群一般人口学资料、生活方式的差异;通过探索性因子分析方法提取潜变量,确定研究变量的结构模式,进而依据此结构模式构建偏最小二乘(partial least squares,PLS)路径模型。结果研究对象的年龄为(46.62±12.16)岁,MS患病率为22.43%(2967/13225),其中,男性为26.49%(2535/9570),女性为11.82%(432/3655),男女MS患病率差异有统计学意义(X^2=327.08,P〈0.01)。Ms患者与非MS人群饮食习惯差异有统计学意义(X^2=166.31,P〈0.01),Ms患者中素食、荤素搭配、荤食的比例分别为23.39%(694/2967)、42.50%(1261/2967)、34.11%(1012/2967),在非MS人群中分别为30.80%(3159/10258)、46.37%(4757/10258)、22.83%(2342/10258);两者饮酒状况差异有统计学意义(X^2==374.22,P〈0.01),MS患者中不饮或已戒、偶饮、常饮的比例分别为27.37%(812/2967)、24.71%(733/2967)、47.93%(1422/2967),非MS人群分别为39.60%(4062/10258)、31.36%(3217/10258)、29.04%(2979/10258);两者吸烟状况差异有统计学意义()(。=115.86,P〈0.01),MS患者中不吸或已戒、偶吸、常吸的比例分别为59.72%(1772/2967)、6.24%(185/2967)、34.04%(1010/2967),在非MS人群中分别为70.03%(7184/10258)、5.35%(549/10258)、24.61%(2525/10258)。生活方式及MS相关组分各自受一个潜变量影响,调整年龄、性别后,生活方式潜自变量对MS潜因变� 朱振昕 张成琪 唐芳 宋心红 薛付忠关键词:代谢综合征X