《数字化领航》AI应用专刊

创新应用

基于医学场景微调大模型的代谢性疾病出院智能开药实践

文 | 新华三集团技术服务部秦淼夫

随着我国代谢性疾病患者数量持续攀升，出院带药作为连接住院治疗与社区/家庭管理的关键环节，直接影响患者的长期预后和再入院风险。然而，如何从复杂的住院病程记录、检验结果与用药信息中高效提炼关键决策依据，仍是临床实践中的重大挑战。文章以作者参与的阿里云天池大赛——医疗大模型微调竞赛项目为例，创新性地引入训练数据过采样、大模型指令微调及多模型融合等技术路径，构建面向代谢性疾病出院用药决策的智能处方模型，并在测试任务中显著提升了模型的预测精度与稳健性，为大模型在智能开药等关键医疗应用场景中的规范化落地，提供了可行技术路线与方法学参考。

引言：智能化手段赋能临床用药决策

代谢性疾病（如糖尿病、高血压、脂肪肝等）在临床中具有显著个体差异，疾病进展与用药方案高度异质，药物种类多、用药方案复杂。出院带药作为实现“住院-社区／家庭”闭环管理的关键一环，对患者的长期疾病控制和再入院风险具有直接影响。与此同时，中文电子病历中蕴含了病程记录、检验检查、诊断及用药调整等丰富诊疗信息，为构建智能出院用药推荐系统提供了重要数据基础。

在传统模式下，出院处方主要依赖临床医生自身经验和局部信息进行决策。面对复杂且个体差异显著的代谢性疾病，医生需要在有限时间内快速从长时间住院过程中的大量病程记录、检验结果及历史用药中提炼关键决策依据，易受主观经验、信息不完整、认知负荷过重等因素影响。同时，对于药物相互作用、多种并发症共存、出院后依从性与安全性平衡等问题，人工决策存在系统性梳理和全局优化的困难，难以在大规模、高复杂度场景下保持稳定、规范和个体化的用药质量。

该项目基于某知名医院提供的脱敏病历构建了评测数据集CDrugRed，包含超3000 例患者、共5894条诊疗记录，任务要求模型从651种候选药物中生成精准的出院用药推荐。最终评测阶段：根据测试集上的病历信息生成用药推荐，和测试集对应的标准答案进行比对，结合Jaccard指标和F1指标衡量微调后模型效果。本次研究围绕数据预处理、数据增强、模型训练、提示词工程、模型融合等全流程技术开展系统性调优，并探索训练数据过采样、大模型指令微调等关键技术路径。

图1 CDrugRed评测数据集构建

1 核心方案：全流程多层次系统性调优提升性能

1.1 数据预处理：特征工程和过采样处理调优原始语料

在训练样本构建与分析中，发现电子病历各字段对出院带药预测的贡献差异明显：主诉、现病史、既往史、入院状态及出院用药等与诊疗紧密相关的信息是核心特征；而患者序号、民族、性别等与用药决策相关性较弱。微调前有意识地剔除无关字段，可显著提升模型推理性能及可解释性。

同时，为缓解罕见病相关药物样本不足问题，本研究基于药物词频将其划分为高频与低频，并对低频药物占比>0.6的样本复制2次、占比0.4～0.6的样本复制1次，使训练集由3602条增至3740条，罕见病样本占比明显提高。实验表明，采用该过采样策略微调的大模型在罕见病用药推理与预测上优于未增强模型，充分验证了样本平衡对提升临床适用性的价值。

1.2 多模型融合：多模型投票提升推理结果稳定性

模型融合通过综合多个模型的预测结果，以互补不同模型的优势，显著降低单模型偏差和随机误差，提升整体准确性与稳定性。本研究通过最终实测，选取推理效果较优的开源大模型（分别为CareBot_Medical_multi-llama3-8b-instruct、GLM-4-9B-0414、glm-4-9b-chat、Meta-Llama-3-8B-Instruct、Meta-Llama-3.1-8B-Instruct），在完成数据清洗与样本增强后，基于LoRA进行指令微调并部署于GPU服务器，对测试集病历逐一推理，统一输出为JSON文件。在融合阶段采用多数投票策略：同一任务中，若某药物在不少于3个模型的预测结果中出现，则被纳入最终推荐列表，仅被1-2个模型预测的药物则被剔除。该策略有效削弱偶发错误，显著提升出院带药预测的准确性和稳定性，为智能辅助用药决策提供了可靠技术支撑。

1.3 模型推理后优化：推理后调优补齐大模型幻觉短板

在自动药物预测任务中，模型输出的药物名称必须与候选列表中的标准名称严格对应，否则会因别名、缩写、拼写错误等问题影响结果的准确性与临床可用性。为此，本研究设计了药物名称后处理与校正机制：首先利用Python的difflib计算模型输出与标准药名的字符串相似度，当相似度高于阈值（如0.8）时，将其自动纠正为对应的标准名称，以统一表达、消除轻微差异；对于difflib无法有效匹配的非标准药名，特别是模型高频错误或常见俗称，我们构建了人工药名映射表，将这些错误输出一一映射到标准药名。通过“相似度匹配+映射表纠正”两级策略，有效解决了模型输出与标准药名不一致的问题，显著提升了预测结果的规范性、鲁棒性和临床可用性，为智能用药决策系统的可靠部署提供了关键支撑。

2 项目评测效果

本研究围绕数据预处理、样本增强、大模型微调、多模型融合以及推理后校正等全流程进行了系统性调优：通过剔除无关字段与噪声信息、对罕见病相关低频用药样本进行分层过采样，显著提升了模型对关键医学特征的学习能力与对罕见用药场景的覆盖；基于高质量电子病历数据，采用LoRA对多款医学大模型进行定制化微调，并在融合阶段引入多数投票机制，以多模型共识抑制单模型偏差；在推理后，通过字符串相似度匹配与人工映射表双重药名校正策略，保证了输出药物名称的规范性与临床可用性。最终，在天池挑战赛526支参赛队伍中排名第五，获得赛事三等奖，充分验证了该整套优化方案在自动出院用药预测任务中的有效性与应用潜力。

3 展望：多路径优化提升临床应用价值

（1）数据层面：在合规前提下，与医院及数据平台合作获取更多真实、高质量中文电子病历，丰富诊疗过程与出院带药记录，为模型提供更可靠的训练与评测数据基础。

（2）数据扩展：利用大语言模型构建病历自动生成平台，在真实病历上进行放大、改写和模拟，产出大规模、高一致性的合成病历与出院用药清单，提升模型鲁棒性。

（3）模型层面：在参数规模受限（如<10B）条件下，研究结构更优、推理能力更强的基础模型及微调策略，在保持轻量化的同时兼顾复杂医疗任务表现。

（4）融合层面：在现有5模型投票机制基础上，尝试扩展到6-7个模型协同决策，以多模型共识进一步削弱单模型偏差，提升预测稳定性与容错能力。

综合真实数据、合成数据、模型结构优化与融合策略升级，该项目有望显著提升药物预测的准确性与临床应用价值，推动智能医疗决策系统的持续发展。