
基于小样本不平衡数据构建乙肝相关慢加急性肝衰竭中医辨证分型的
目的 乙肝相关慢加急性肝衰竭(HBV-ACLF)临床病历数据普遍存在样本量小、类别不平衡等问 题,而大部分机器学习模型是基于平衡数据设计的,缺乏可解释性。本研究旨在基于中医辨证论治理论,提 出一种临床可解释、准确率高的 HBV-ACLF 中医诊断模型。方法 本研究收集了 261 例 HBV-ACLF 患者的病 例,包括阳黄证(214 例)、阳阴黄证(41 例)和阴黄证(6 例)三种证型。为了避免机器学习模型过拟 合,排除了阴黄病例。经过数据标准化和清洗,获得阳黄证和阳阴黄证相关的 255 份病历。针对类别不平衡 问题,采用过采样方法和五种机器学习方法,包括逻辑回归(LR)、支持向量机(SVM)、决策树 (DT)、随机森林(RF)和极端梯度提升(XGBoost),构建了证型诊断模型。本研究以精度、F1 得分、 受试者工作特征曲线下面积(AUC)和准确率作为模型评价指标。选择分类结果最好的模型提取诊断规则, 并深入分析其临床意义。此外,我们提出了一种新颖的多轮稳定规则提取(MRSRE)方法,以获得可以展 示模型临床可解释性的稳定特征规则集。结果 利用过采样平衡数据构建的五种机器学习模型精度都超过了 0.90,其中 RF 证型分类准确率为 0.92,阳黄及阳阴黄两类别的 F1 均值分别为 0.93 和 0.94,AUC 值为 0.98。基于 MRSRE 方法的 RF 辨证模型提取规则显示,阳黄及阳阴黄的共同特征是脉弦,身目尿黄,舌体 正常,舌下脉络正常,恶心和厌油纳差。 阳黄的主要特点是舌质红、舌下脉络增粗,阳阴黄的主要特点是 舌质暗、淡白、苔白、无力、脉滑、舌质淡红、舌苔腻和腹胀,该结果与中医专家依据中医辨证论治理论相 一致。结论 本研究构建的模型可用于区分 HBV-ACLF 证型,还可用于生成其他临床可解释的模型,这些模 型对样本量小且类别不平衡的临床数据具有较高的准确性。