摘要:目的 利用机器学习模型预测青年高血压患者并发焦虑情绪的风险,评价机器学习模型对其的预测价值。方法 回顾性 分析常德市第一中医医院 2021 年 12 月至 2023 年 6 月期间收治的 679 名青年高血压患者的临床资料,根据患者是否存在焦虑状态,分 为无焦虑状态组(464 例)、有焦虑状态组(215 例),统计两组患者基线资料与实验室指标,进行单因素和多因素 Logistic 回归分析 筛选出青年高血压患者并发焦虑状态的影响因素;另将所有患者依据 7 ∶ 3 比例随机分为训练集(475 例)和测试集(204 例),在训 练集中运用机器学习算法构建支持向量机(SVM)、K 邻近(KNN)、分类决策树(Decision Tree)、随机森林(RF)、极端随机树 (Extra Trees)、极限梯度提升(XGBoost)、机器学习算法(LightGBM)预测模型,使用测试集对预测模型进行内部验证;绘制受试者工 作特征(ROC)曲线评估各模型对青年高血压患者并发焦虑状态的预测效能。结果 679 例青年高血压患者中,215 例患者(31.66%)存在 焦虑状态。单因素分析结果显示,与无焦虑状态组比,有焦虑状态组患者年龄较大,吸烟、饮酒、有睡眠障碍、有高血压病家族史、有冠心 病病史、有糖尿病病史、有高血脂病史、有脑梗死病史、有脑出血病史患者占比,汉密尔顿焦虑量表(HAMA)评分,糖化血红蛋白、高 密度脂蛋白、三酰甘油、天冬氨酸氨基转移酶、丙氨酸氨基转移酶、肌酐、同型半胱氨酸水平,左心房内径均较高;淋巴细胞计数、血红蛋 白、左心室射血分数(LVEF)水平均较低;高血压病程较长(均P<0.05 或P<0.001)。多因素 Logistic 回归分析结果显示,年龄大、有吸 烟史、有饮酒史、有睡眠障碍、高血压病程长、有高血压病家族史、有糖尿病病史、有高血脂病史、有脑梗死病史、有脑出血病史、淋巴 细胞计数下降、糖化血红蛋白升高、三酰甘油升高、天冬氨酸氨基转移酶升高、丙氨酸氨基转移酶升高、肌酐升高、左房内径增加及 LVEF 下降均是青年高血压焦虑状态的危险因素(均P<0.05 或P<0.001)。结合多因素 Logistic 回归分析结果,依据 Lassso 回归进一步筛选最佳变 量,按序排列的最佳变量包括三酰甘油、年龄、左房内径、睡眠障碍、肌酐、吸烟、淋巴细胞计数及 LVEF。通过上述筛选出的 8 个最佳变 量,构建 SVM、KNN、Decision Tree、RF、Extra Trees、XGBoost、LightGBM 预测模型,将构建的模型应用于测试集,绘制 ROC 曲线并计 算 ROC 曲线下面积(AUC)。其中,综合性能最佳的是 Extra Trees 模型,AUC 值为 0.996(0.991~1.000)。结论 高三酰甘油、年龄大、 高左房内径、有睡眠障碍、高肌酐、有吸烟史、低淋巴细胞计数、低 LVEF 均为影响青年高血压伴焦虑状态发生的最佳危险因素变量,采取 基于机器学习算法构建的青年高血压合并焦虑状态的 SVM、KNN、Decision Tree、RF、Extra Trees、XGBoost 及 LightGBM 预测模型中, Extra Trees 模型的预测效果最好。因此,该模型可作为辅助诊断工具应用于青年高血压患者并发焦虑状态的筛查中,为青年高血压这一慢 性病管理提供新的临床思路。