《数字化领航》AI技术专刊

AI in ALL

ICT垂类模型（通信大模型）的训练与精调：
构建智能体的“专业大脑”

文 | 新华三集团解决方案部禹龙

摘要

随着通用大语言模型（LLM）的爆发，如何将其通识能力转化为特定垂直领域的专业生产力，成为业界关注的核心命题。在信息通信技术（ICT）领域，设备配置复杂、协议众多、故障排查逻辑严密，对模型的准确性与推理能力提出了极高要求。本文以新华三集团百业灵犀（LinSeer）大模型的研发实践为例，深入剖析了ICT垂类大模型的全流程构建技术，涵盖基于Transformer Decoder-only架构的训练改进（如DualPipe并行策略）、从非结构化文档到高质量指令数据的清洗工程、增量预训练与SFT的精细化策略、以及利用DPO（直接偏好优化）解决模型“复读机”问题与对齐人类价值观的实战经验。本文旨在揭示如何通过系统的工程化手段，打造具备深度思考能力的ICT智能体“大脑”。

关键词

ICT大模型；增量预训练；指令微调；DPO；DualPipe；智能运维

引言：通用智能与垂直专家的鸿沟

自ChatGPT问世以来，AIGC技术掀起了全球生产力革命。然而，在ICT（Information and Communications Technology）这一高度专业化的垂直领域，通用大模型往往面临“懂语言不懂行”的窘境。

通用大模型在处理日常对话、创意写作方面表现优异，但面对复杂的网络拓扑分析、专有的CLI（命令行接口）配置、以及深层次的故障根因定位时，常出现幻觉或逻辑断层。例如，在配置EVPN VPWS（以太网虚拟专用网虚拟租用线服务）等复杂业务时，模型不仅需要理解MPLS标签的分发机制，还需要精确匹配设备特定的指令集。

为了跨越这一鸿沟，构建“百业灵犀（LinSeer）”此类ICT私域大模型成为必然选择。这不仅是简单的知识注入，更是一场涉及算法架构优化、数据清洗流水线重构以及训练范式革新的系统工程。本文将详细解构这一过程，探讨如何将一个通用基座模型驯化为ICT领域的顶级专家。

1 核心架构与算力基座：奠定“思考”的基础

ICT大模型的构建始于对基座模型的选择与架构优化。我们选择基于Transformer Decoder-only架构的自回归生成式模型作为底座，并在此基础上进行了针对性的技术改造，以适应长文本、高并发和逻辑推理的需求。

1.1 模型架构的演进

为了提升模型在ICT长文档（如数千页的技术手册）处理中的表现，架构层面的优化至关重要。

RoPE旋转位置编码（Rotary Positional Embedding）：

不同于传统的绝对位置编码，RoPE通过旋转矩阵来编码序列中Token的相对位置信息。

通过这种方式，模型能够更好地捕捉Token之间的依赖关系，且依赖性随距离增加而衰减。这使得LinSeer模型能够支持8k甚至扩展至300k的上下文长度，对于分析超长日志、报文等数据至关重要。

GQA分组查询注意力（Grouped-query Attention）：

在推理阶段，KV Cache（键值缓存）往往是显存占用的瓶颈。标准的MHA（多头注意力）显存占用大，而MQA（多查询注意力）虽然节省显存但性能有损。我们采用了GQA机制，介于两者之间，在保证模型表现力的同时，大幅降低了推理时的内存消耗，提升了Token生成的吞吐率。

SwiGLU激活函数：

为了保持参数量并提升非线性表达能力，前馈神经网络（FFN）采用了SwiGLU激活函数，相比ReLU，其在深层网络中表现出更好的收敛性和性能。

1.2 训练工程优化：DualPipe并行策略

在大规模模型的训练中，如何提高GPU集群的利用率（MFU）是核心挑战。传统的流水线并行（Pipeline Parallelism, PP），存在明显的“气泡（Bubble）”时间，即GPU在等待数据依赖时处于空闲状态。

我们引入了DualPipe双向流水线并行技术。

图1 Du alPipe 划分的计算和通信模块，展示了F orward/Backward ch unk与通信的重叠

DualPipe的核心改进在于以下三方面。

双向并发：即有两个副本模型的不同层划分在不同的GPU上（例如GPU0和GPU7同时开始处理数据），从两端同时推进。

细粒度调度：将Backward过程进行了更细力度的划分。在反向传播计算梯度后，立即继续反向传播，而无需等待当前层权重的梯度计算完成。

计算与通信重叠（Overlap）：如图1所示，Forward chunk在通信时，Backward chunk在计算，从而掩盖了通信延迟。

图2 DualPipe演进后的流水线并行模式，显著减少了气泡时间

实验数据显示，在vpp=8（virtual pipeline parallelism）的分界点上，DualPipe的Bubble overhead显著低于传统1F1B方案，结合FlashAttention3和FP8低精度训练技术，我们在H800集群上训练72B模型实现了589 TFLOPs/s/GPU的高效训练性能。

2 数据工程：ICT知识的“提纯”与“注入”

大模型的表现力取决于数据的质量，ICT领域的数据具有极强的专业性、符号化（代码、日志）和逻辑性特征。我们构建了一套精细的数据处理流水线。

2.1 数据来源与构成

训练数据主要分为以下两类。

通用数据：占比约53%（中文）和36%（英文）。包括Wikipedia、Arxiv论文、GitHub代码（Code）等。这部分数据用于维持模型的通用语言理解能力和逻辑基础。

ICT私域数据（核心）：打造垂直模型的关键。我们收集了1116篇Comware技术文档、数百万条日志数据以及大量配置案例。

图3 预训练数据分布，涵盖代码、中英文通用语料及ICT私域数据

2.2 数据清洗与增强流水线

面对原始的PDF手册、Word文档和日志，直接输入模型会导致效果不佳。我们实施了严格的清洗策略。

◆格式标准化：开发了专门的转换工具，将PDF、Word、PPT、Excel甚至HTML转换为统一的JSONL格式。例如，在处理Word文档时，自动去除页眉页脚的干扰信息，保留正文逻辑。

◆去重（De-duplication）：采用Jaro-Winkler相似度算法计算行间相似度。当两行内容相似度大于0.9时，视为重复内容剔除。这能将数据量降低5-15%，有效防止模型“死记硬背”导致的过拟合。

◆隐私清洗：通过正则表达式严格过滤手机号、身份证号、IP地址等敏感信息，确保ToB交付的合规性。

◆低质量过滤：剔除HTML残余标签、无意义的Emoji和乱码，将数据量进一步降低10-20%。

3 知识图谱化与合成数据

针对ICT领域文档目录结构深、知识点分散的问题，我们并未止步于简单的文本提取。

◆知识点原子化：根据文档的三级目录，将1116篇Comware语料划分为约40,000个独立知识点。

◆大模型合成数据（LLM-as-a-Generator）：利用通义千问-72B和Llama3-405B等超大模型，针对每个知识点生成了665,006个高质量问答对（QA）。例如，基于一段关于“EVPN VPWS配置”的文本，让大模型生成“如何建立AC到PW的交叉连接？”及其标准答案。

◆思维链构建（CoT）：为了增强推理能力，不仅生成答案，还生成了包含“思考过程”的数据，使模型学会“先分析网络拓扑，再判断故障点，最后给出配置命令”的思维路径。

4 增量预训练（Incremental Pre-training）：领域适应的第一步

由于基座模型缺乏ICT特定的术语理解（例如，它可能知道"Switch"是开关，但不知道在网络中是交换机及其复杂的二层转发逻辑），必须进行增量预训练。

4.1 训练策略与超参设置

◆硬件环境：12节点 × 8卡 H800 SXM。

◆混合精度：采用FP8 Hybrid模式（前向E4M3，后向E5M2），在保证收敛性的同时极大提升了计算速度。

◆学习率调度：采用Cosine衰减策略，初始学习率1.5e-6，最小学习率1.5e-7。

◆优化器：AdamW，β1=0.9，β2=0.95。

4.2 训练过程监测

图4 增量预训练Loss曲线，从1.6平稳下降至1.523

训练过程中，我们密切关注Loss和PPL（困惑度）。数据显示，Loss从1.6下降到1.523后趋于平稳。关键发现是，虽然通用能力的PPL在ICT数据训练后略有波动，但通过混合通用数据（通用:私域约为 1:1 或更高），我们成功避免了“灾难性遗忘”。最终，模型在ICT领域的知识问答能力较基座模型有较大提升，同时保留了英语长文本理解和翻译能力。

5 有监督微调（SFT）：激发指令遵循与推理能力

预训练让模型“懂知识”，微调则让模型“懂指令”。在这一阶段，我们旨在让模型学会如何作为一名网络工程师去工作。

5.1 多样化的SFT数据配比

为了平衡通用能力和专业能力，SFT数据（共约1.7M条）的配比至关重要。

表1 SFT数据配比

这种混合策略（Replay Strategy）有效地防止了模型在学习专业知识时变得“呆板”。特别是引入代码类数据（Infinite-code），对于提升模型写配置脚本（Python/Ansible/CLI）的能力至关重要。

5.2 训练实施与问题复盘

SFT阶段采用全参数微调（Full Fine-tuning），使用Deepspeed Zero3卸载策略以降低显存压力。

在早期实验中，我们发现了一些严重问题：

“NaN”与特殊符号：训练日志中出现Loss NaN，追查发现是部分训练数据中包含非法的特殊控制字符。改进措施：加强了数据预处理正则过滤。

BadCase分析：模型在回答某些配置问题时，虽然格式正确，但内容与文档不符（幻觉）。改进措施：引入“图谱化”数据增强，确保每个知识点至少有9条不同角度的问答覆盖；同时引入人工专家进行多轮抽检。

6 对齐（Alignment）与强化学习：打造安全且不罗嗦的助手

SFT后的模型往往存在“复读机”现象（重复生成）或输出不安全内容。DPO（Direct Preference Optimization，直接偏好优化）成为解决这一问题的关键武器。

6.1 解决“复读机”问题的实战

在基座模型微调后，我们发现模型在回答开放性问题时容易陷入死循环。例如，让模型“列举中国百家姓”，未对齐的模型可能会在列举几十个后开始重复。

我们构建了6959条中文重复偏好数据集（Pairwise Data），即：

chosen（正面范例）: 简洁、准确、无重复的回答。

rejected（负面范例）: 包含重复片段、啰嗦的回答。

通过DPO训练，目标函数旨在最大化yw与yi之间的似然差：

超参敏感性实验：

我们对比了不同学习率的效果：

2e-6：重复率1.69%（改善不明显）。

5e-5 (Epoch=2)：重复率0.21%，但回答的丰富性有所丢失（过拟合）。

5e-5 (Epoch=1)：重复率0.25%，且保留了回答的格式和丰富性。（最终选择此方案。）

图5 经过DPO优化后模型能流畅列举且不重复

6.2 强化推理能力的GRPO与DAPO

除了DPO，百业灵犀训练还使用了高级的强化学习策略：

GRPO (Generalized RPO)：通过对数学推理题的采样，结合KL散度约束，强化逻辑链条。

DAPO：针对长序列推理（如复杂的故障排查步骤）进行优化，通过Token级的策略梯度和动态奖励机制，减少长文本生成中的逻辑崩塌。

通过推理能力的强化，百业灵犀成功推出了深度思考模型和融合思考模型，让模型具备ICT基础知识的同时，能够进行专业的思考解决复杂场景问题，在H3C认证考试中取得了优异成绩，具备了网络工程师的能力。

7 评估与成效：从通用指标到业务实战

评估ICT大模型不能仅看C-Eval或MMLU，必须看其在真实业务场景下的表现。

7.1 通用能力评估

尽管进行了大量的垂类训练，LinSeer模型在通用指标上依然保持了高水准，甚至在数学和GSM8K上有所提升（得益于高质量的CoT数据注入）。

表2 大模型通用能力评估结果

7.2 ICT业务能力评估

我们构建了两个专用测评集：

1）模型直接问答（10693题），考察Comware命令记忆和协议理解；

2）召回总结（RAG场景），考察基于文档的阅读理解。

结果显示，微调后的模型在ICT专业知识方面有明显提升，而且在召回总结场景能力基本保持和微调前一致。说明模型在具备领域能力的同时原有能力基本没有下降，如表3所示。

表3 微调前后业务能力对比，ICT专业问答能力提升显著

8 典型应用场景：智能体落地

训练好的ICT大模型不再是一个聊天机器人，而是化身为各类“智能体（Agent）”，嵌入到新华三的UIS、SecPath、U-Center等产品中。

8.1 告警辅助研判与安全分析

在网络安全中心，面对海量的告警日志，人工分析效率极低。LinSeer模型可以提供以下能力。

日志聚合：自动将数千条相关联的“SSH暴力破解”告警聚类。

攻击链分析：结合威胁情报，自动生成攻击路径图。

处置建议：直接生成防火墙阻断策略CLI。

图6 基于大模型的安全风险汇总与勒索病毒分析

8.2 智能配置向导

对于复杂的服务器（UIS R390X）或工控安全卫士配置，管理员只需用自然语言输入：“帮我配置一个针对工控协议的白名单监控策略”。模型即可自动拆解需求，生成对应的JSON配置或CLI命令，并解释每个参数的含义。

图7 大模型辅助的设备配置向导

8.3 自动化运维（AIOps）

在U-Center中，模型与自动化平台联动。当发生故障时，模型自动执行以下步骤。

1）信息收集： 查询设备CPU利用率Top 5。

2）根因分析： 发现某进程异常占用。

3）修复建议： 建议隔离或重启进程。

这标志着运维从“人找数据”转向了“数据找人，AI给方案”。

9 挑战与未来展望

尽管LinSeer取得了显著成果，但在复盘中我们也看到了挑战：

幻觉问题（Hallucination）：尽管有SFT和RAG，模型仍可能在极度生僻的配置上“一本正经地胡说八道”。未来需引入更强的Self-Consistency（自洽性验证）机制。

知识实时性：训练数据截止于2023年9月，新的漏洞和协议无法即时体现在模型参数中。RAG（检索增强生成）与模型的深度融合是解决此问题的必由之路。

训练成本：本次训练花费约百万元（包括人力与算力）。未来通过FP8全流程训练和更高效的MoE（混合专家）架构，有望进一步降低垂类模型的构建门槛。

10 结束语

ICT垂类大模型的训练，是一场对通用智能进行“专业规训”的旅程。从DualPipe的底层算力压榨，到百万级私域数据的清洗，再到DPO的价值观对齐，每一步都凝聚了对通信行业的深刻理解。新华三百业灵犀的实践证明，通过科学的训练范式，通用大模型完全可以蜕变为ICT领域的“工程师”，为数字基础设施的智能化转型注入强劲动力。随着技术的迭代，未来的网络将不再仅仅是连接，更将拥有“思考”的灵魂。

摘要

关键词