小规模垂类AI应用解决方案

  • 产品与解决方案
  • 行业解决方案
  • 服务
  • 支持
  • 合作伙伴
  • 关于我们

小规模垂类AI应用解决方案

提交项目需求

概述

  • 概述
  • 方案价值
  • 关键技术
  • 相关资源

概述

小规模垂类AI应用服务基于大模型部署AI应用场景,可提供数十卡到上百卡级别集群用于中小型企业内部模型推理服务,满足以下典型需求:
1 、大模型高性能运行:针对不同规模的模型,提供单机推理、多机推理、PD分离等多中模式,保障推理服务高效运行
2、多模型适配能力:快速支持DeepSeek、Qwen等主流大模型以及场景化模型的推理适配,保障业务快速上线
3、全栈可观测:支持请求级Trace、P99延迟、显存实时监控,及时发现推理性能瓶颈,基于访问并发需求可快速动态调整推理服务实例

方案价值

  • 轻量极简

    基于管理节点本地盘优化的存储系统,实现轻量化快速部署,降低建设成本,加速业务上线速度

  • 极致性能

    基于自研推理引擎的PD分离优化技术,结合RoCE无损网络和超节点,实现长上下文场景(128K)下P99生成延迟降低40%

  • 生产级可靠

    推理实例多副本反亲和部署,单节点故障自动切流,API-Key级别Token限流,保障推理服务稳定运行

  • 开放兼容

    支持用户自定义推理引擎和模型,基于统一模型治理,实现模型和客户业务快速适配验证

关键技术

1、统一推理调度:基于模型推理所需资源,自动适配超节点、OAM模组服务器和PCIE标卡服务器,实现算力融合高效调度
2、PD分离引擎优化引擎:适配多种算力资源池,KV Cache多级分离极致支持超长上下文,提升Cache命中率,提升上下文吞吐,降低首Token延迟
3、全栈可观测:从API请求到GPU 的全链路Trace,实现分钟级的定位性能瓶颈和故障恢复

新华三官网
联系我们