AI in ALL    AI in ALL
AI in ALL
ICT垂类模型(通信大模型)的训练与精调:
构建智能体的“专业大脑”
文 | 新华三集团解决方案部 禹龙

摘要

随着通用大语言模型(LLM)的爆发,如何将其通识能力转化为特定垂直领域的专业生产力,成为业界关注的核心命题。在信息通信技术(ICT)领域,设备配置复杂、协议众多、故障排查逻辑严密,对模型的准确性与推理能力提出了极高要求。本文以新华三集团百业灵犀(LinSeer)大模型的研发实践为例,深入剖析了ICT垂类大模型的全流程构建技术,涵盖基于Transformer Decoder-only架构的训练改进(如DualPipe并行策略)、从非结构化文档到高质量指令数据的清洗工程、增量预训练与SFT的精细化策略、以及利用DPO(直接偏好优化)解决模型“复读机”问题与对齐人类价值观的实战经验。本文旨在揭示如何通过系统的工程化手段,打造具备深度思考能力的ICT智能体“大脑”。

关键词

ICT大模型;增量预训练;指令微调;DPO;DualPipe;智能运维

引言:通用智能与垂直专家的鸿沟

自ChatGPT问世以来,AIGC技术掀起了全球生产力革命。然而,在ICT(Information and Communications Technology)这一高度专业化的垂直领域,通用大模型往往面临“懂语言不懂行”的窘境。

通用大模型在处理日常对话、创意写作方面表现优异,但面对复杂的网络拓扑分析、专有的CLI(命令行接口)配置、以及深层次的故障根因定位时,常出现幻觉或逻辑断层。例如,在配置EVPN VPWS(以太网虚拟专用网虚拟租用线服务)等复杂业务时,模型不仅需要理解MPLS标签的分发机制,还需要精确匹配设备特定的指令集。

为了跨越这一鸿沟,构建“百业灵犀(LinSeer)”此类ICT私域大模型成为必然选择。这不仅是简单的知识注入,更是一场涉及算法架构优化、数据清洗流水线重构以及训练范式革新的系统工程。本文将详细解构这一过程,探讨如何将一个通用基座模型驯化为ICT领域的顶级专家。

1 核心架构与算力基座:奠定“思考”的基础

ICT大模型的构建始于对基座模型的选择与架构优化。我们选择基于Transformer Decoder-only架构的自回归生成式模型作为底座,并在此基础上进行了针对性的技术改造,以适应长文本、高并发和逻辑推理的需求。

1.1 模型架构的演进

为了提升模型在ICT长文档(如数千页的技术手册)处理中的表现,架构层面的优化至关重要。

RoPE旋转位置编码(Rotary Positional Embedding):

不同于传统的绝对位置编码,RoPE通过旋转矩阵来编码序列中Token的相对位置信息。

通过这种方式,模型能够更好地捕捉Token之间的依赖关系,且依赖性随距离增加而衰减。这使得LinSeer模型能够支持8k甚至扩展至300k的上下文长度,对于分析超长日志、报文等数据至关重要。

GQA分组查询注意力(Grouped-query Attention):

在推理阶段,KV Cache(键值缓存)往往是显存占用的瓶颈。标准的MHA(多头注意力)显存占用大,而MQA(多查询注意力)虽然节省显存但性能有损。我们采用了GQA机制,介于两者之间,在保证模型表现力的同时,大幅降低了推理时的内存消耗,提升了Token生成的吞吐率。

SwiGLU激活函数:

为了保持参数量并提升非线性表达能力,前馈神经网络(FFN)采用了SwiGLU激活函数,相比ReLU,其在深层网络中表现出更好的收敛性和性能。

1.2 训练工程优化:DualPipe并行策略

在大规模模型的训练中,如何提高GPU集群的利用率(MFU)是核心挑战。传统的流水线并行(Pipeline Parallelism, PP),存在明显的“气泡(Bubble)”时间,即GPU在等待数据依赖时处于空闲状态。

我们引入了DualPipe双向流水线并行技术。

图1 Du alPipe 划分的计算和通信模块,展示了F orward/Backward ch unk与通信的重叠

DualPipe的核心改进在于以下三方面。

双向并发:即有两个副本模型的不同层划分在不同的GPU上(例如GPU0和GPU7同时开始处理数据),从两端同时推进。

细粒度调度:将Backward过程进行了更细力度的划分。在反向传播计算梯度后,立即继续反向传播,而无需等待当前层权重的梯度计算完成。

计算与通信重叠(Overlap):如图1所示,Forward chunk在通信时,Backward chunk在计算,从而掩盖了通信延迟。

图2 DualPipe演进后的流水线并行模式,显著减少了气泡时间

实验数据显示,在vpp=8(virtual pipeline parallelism)的分界点上,DualPipe的Bubble overhead显著低于传统1F1B方案,结合FlashAttention3和FP8低精度训练技术,我们在H800集群上训练72B模型实现了589 TFLOPs/s/GPU的高效训练性能。

2 数据工程:ICT知识的“提纯”与“注入”

大模型的表现力取决于数据的质量,ICT领域的数据具有极强的专业性、符号化(代码、日志)和逻辑性特征。我们构建了一套精细的数据处理流水线。

2.1 数据来源与构成

训练数据主要分为以下两类。

通用数据:占比约53%(中文)和36%(英文)。包括Wikipedia、Arxiv论文、GitHub代码(Code)等。这部分数据用于维持模型的通用语言理解能力和逻辑基础。

ICT私域数据(核心):打造垂直模型的关键。我们收集了1116篇Comware技术文档、数百万条日志数据以及大量配置案例。

图3 预训练数据分布,涵盖代码、中英文通用语料及ICT私域数据

2.2 数据清洗与增强流水线

面对原始的PDF手册、Word文档和日志,直接输入模型会导致效果不佳。我们实施了严格的清洗策略。

◆格式标准化:开发了专门的转换工具,将PDF、Word、PPT、Excel甚至HTML转换为统一的JSONL格式。例如,在处理Word文档时,自动去除页眉页脚的干扰信息,保留正文逻辑。

◆去重(De-duplication):采用Jaro-Winkler相似度算法计算行间相似度。当两行内容相似度大于0.9时,视为重复内容剔除。这能将数据量降低5-15%,有效防止模型“死记硬背”导致的过拟合。

◆隐私清洗:通过正则表达式严格过滤手机号、身份证号、IP地址等敏感信息,确保ToB交付的合规性。

◆低质量过滤:剔除HTML残余标签、无意义的Emoji和乱码,将数据量进一步降低10-20%。

3 知识图谱化与合成数据

针对ICT领域文档目录结构深、知识点分散的问题,我们并未止步于简单的文本提取。

◆知识点原子化:根据文档的三级目录,将1116篇Comware语料划分为约40,000个独立知识点。

◆大模型合成数据(LLM-as-a-Generator):利用通义千问-72B和Llama3-405B等超大模型,针对每个知识点生成了665,006个高质量问答对(QA)。例如,基于一段关于“EVPN VPWS配置”的文本,让大模型生成“如何建立AC到PW的交叉连接?”及其标准答案。

◆思维链构建(CoT):为了增强推理能力,不仅生成答案,还生成了包含“思考过程”的数据,使模型学会“先分析网络拓扑,再判断故障点,最后给出配置命令”的思维路径。

4 增量预训练(Incremental Pre-training): 领域适应的第一步

由于基座模型缺乏ICT特定的术语理解(例如,它可能知道"Switch"是开关,但不知道在网络中是交换机及其复杂的二层转发逻辑),必须进行增量预训练。

4.1 训练策略与超参设置

◆硬件环境:12节点 × 8卡 H800 SXM。

◆混合精度:采用FP8 Hybrid模式(前向E4M3,后向E5M2),在保证收敛性的同时极大提升了计算速度。

◆学习率调度:采用Cosine衰减策略,初始学习率1.5e-6,最小学习率1.5e-7。

◆优化器:AdamW,β1=0.9,β2=0.95。

4.2 训练过程监测

图4 增量预训练Loss曲线,从1.6平稳下降至1.523

训练过程中,我们密切关注Loss和PPL(困惑度)。数据显示,Loss从1.6下降到1.523后趋于平稳。关键发现是,虽然通用能力的PPL在ICT数据训练后略有波动,但通过混合通用数据(通用:私域 约为 1:1 或更高),我们成功避免了“灾难性遗忘”。最终,模型在ICT领域的知识问答能力较基座模型有较大提升,同时保留了英语长文本理解和翻译能力。

5 有监督微调(SFT):激发指令遵循与推理能力

预训练让模型“懂知识”,微调则让模型“懂指令”。在这一阶段,我们旨在让模型学会如何作为一名网络工程师去工作。

5.1 多样化的SFT数据配比

为了平衡通用能力和专业能力,SFT数据(共约1.7M条)的配比至关重要。

表1 SFT数据配比

这种混合策略(Replay Strategy)有效地防止了模型在学习专业知识时变得“呆板”。特别是引入代码类数据(Infinite-code),对于提升模型写配置脚本(Python/Ansible/CLI)的能力至关重要。

5.2 训练实施与问题复盘

SFT阶段采用全参数微调(Full Fine-tuning),使用Deepspeed Zero3卸载策略以降低显存压力。

在早期实验中,我们发现了一些严重问题:

“NaN”与特殊符号:训练日志中出现Loss NaN,追查发现是部分训练数据中包含非法的特殊控制字符。改进措施:加强了数据预处理正则过滤。

BadCase分析:模型在回答某些配置问题时,虽然格式正确,但内容与文档不符(幻觉)。改进措施:引入“图谱化”数据增强,确保每个知识点至少有9条不同角度的问答覆盖;同时引入人工专家进行多轮抽检。

6 对齐(Alignment)与强化学习:打造安全且不罗嗦的助手

SFT后的模型往往存在“复读机”现象(重复生成)或输出不安全内容。DPO(Direct Preference Optimization,直接偏好优化)成为解决这一问题的关键武器。

6.1 解决“复读机”问题的实战

在基座模型微调后,我们发现模型在回答开放性问题时容易陷入死循环。例如,让模型“列举中国百家姓”,未对齐的模型可能会在列举几十个后开始重复。

我们构建了6959条中文重复偏好数据集(Pairwise Data),即:

chosen(正面范例): 简洁、准确、无重复的回答。

rejected(负面范例): 包含重复片段、啰嗦的回答。

通过DPO训练,目标函数旨在最大化yw与yi之间的似然差:

超参敏感性实验:

我们对比了不同学习率的效果:

2e-6:重复率1.69%(改善不明显)。

5e-5 (Epoch=2):重复率0.21%,但回答的丰富性有所丢失(过拟合)。

5e-5 (Epoch=1):重复率0.25%,且保留了回答的格式和丰富性。(最终选择此方案。)

图5 经过DPO优化后模型能流畅列举且不重复

6.2 强化推理能力的GRPO与DAPO

除了DPO,百业灵犀训练还使用了高级的强化学习策略:

GRPO (Generalized RPO):通过对数学推理题的采样,结合KL散度约束,强化逻辑链条。

DAPO:针对长序列推理(如复杂的故障排查步骤)进行优化,通过Token级的策略梯度和动态奖励机制,减少长文本生成中的逻辑崩塌。

通过推理能力的强化,百业灵犀成功推出了深度思考模型和融合思考模型,让模型具备ICT基础知识的同时,能够进行专业的思考解决复杂场景问题,在H3C认证考试中取得了优异成绩,具备了网络工程师的能力。

7 评估与成效:从通用指标到业务实战

评估ICT大模型不能仅看C-Eval或MMLU,必须看其在真实业务场景下的表现。

7.1 通用能力评估

尽管进行了大量的垂类训练,LinSeer模型在通用指标上依然保持了高水准,甚至在数学和GSM8K上有所提升(得益于高质量的CoT数据注入)。

表2 大模型通用能力评估结果

7.2 ICT业务能力评估

我们构建了两个专用测评集:

1)模型直接问答(10693题),考察Comware命令记忆和协议理解;

2)召回总结(RAG场景),考察基于文档的阅读理解。

结果显示,微调后的模型在ICT专业知识方面有明显提升,而且在召回总结场景能力基本保持和微调前一致。说明模型在具备领域能力的同时原有能力基本没有下降,如表3所示。

表3 微调前后业务能力对比,ICT专业问答能力提升显著

8 典型应用场景:智能体落地

训练好的ICT大模型不再是一个聊天机器人,而是化身为各类“智能体(Agent)”,嵌入到新华三的UIS、SecPath、U-Center等产品中。

8.1 告警辅助研判与安全分析

在网络安全中心,面对海量的告警日志,人工分析效率极低。LinSeer模型可以提供以下能力。

日志聚合:自动将数千条相关联的“SSH暴力破解”告警聚类。

攻击链分析:结合威胁情报,自动生成攻击路径图。

处置建议:直接生成防火墙阻断策略CLI。

图6 基于大模型的安全风险汇总与勒索病毒分析

8.2 智能配置向导

对于复杂的服务器(UIS R390X)或工控安全卫士配置,管理员只需用自然语言输入:“帮我配置一个针对工控协议的白名单监控策略”。模型即可自动拆解需求,生成对应的JSON配置或CLI命令,并解释每个参数的含义。

图7 大模型辅助的设备配置向导

8.3 自动化运维(AIOps)

在U-Center中,模型与自动化平台联动。当发生故障时,模型自动执行以下步骤。

1)信息收集: 查询设备CPU利用率Top 5。

2)根因分析: 发现某进程异常占用。

3)修复建议: 建议隔离或重启进程。

这标志着运维从“人找数据”转向了“数据找人,AI给方案”。

9 挑战与未来展望

尽管LinSeer取得了显著成果,但在复盘中我们也看到了挑战:

幻觉问题(Hallucination):尽管有SFT和RAG,模型仍可能在极度生僻的配置上“一本正经地胡说八道”。未来需引入更强的Self-Consistency(自洽性验证)机制。

知识实时性:训练数据截止于2023年9月,新的漏洞和协议无法即时体现在模型参数中。RAG(检索增强生成)与模型的深度融合是解决此问题的必由之路。

训练成本:本次训练花费约百万元(包括人力与算力)。未来通过FP8全流程训练和更高效的MoE(混合专家)架构,有望进一步降低垂类模型的构建门槛。

10 结束语

ICT垂类大模型的训练,是一场对通用智能进行“专业规训”的旅程。从DualPipe的底层算力压榨,到百万级私域数据的清洗,再到DPO的价值观对齐,每一步都凝聚了对通信行业的深刻理解。新华三百业灵犀的实践证明,通过科学的训练范式,通用大模型完全可以蜕变为ICT领域的“工程师”,为数字基础设施的智能化转型注入强劲动力。随着技术的迭代,未来的网络将不再仅仅是连接,更将拥有“思考”的灵魂。

关闭