欢迎user
小规模垂类AI应用服务基于大模型部署AI应用场景,可提供数十卡到上百卡级别集群用于中小型企业内部模型推理服务,满足以下典型需求:
1 、大模型高性能运行:针对不同规模的模型,提供单机推理、多机推理、PD分离等多中模式,保障推理服务高效运行
2、多模型适配能力:快速支持DeepSeek、Qwen等主流大模型以及场景化模型的推理适配,保障业务快速上线
3、全栈可观测:支持请求级Trace、P99延迟、显存实时监控,及时发现推理性能瓶颈,基于访问并发需求可快速动态调整推理服务实例
基于管理节点本地盘优化的存储系统,实现轻量化快速部署,降低建设成本,加速业务上线速度
基于自研推理引擎的PD分离优化技术,结合RoCE无损网络和超节点,实现长上下文场景(128K)下P99生成延迟降低40%
推理实例多副本反亲和部署,单节点故障自动切流,API-Key级别Token限流,保障推理服务稳定运行
支持用户自定义推理引擎和模型,基于统一模型治理,实现模型和客户业务快速适配验证
1、统一推理调度:基于模型推理所需资源,自动适配超节点、OAM模组服务器和PCIE标卡服务器,实现算力融合高效调度
2、PD分离引擎优化引擎:适配多种算力资源池,KV Cache多级分离极致支持超长上下文,提升Cache命中率,提升上下文吞吐,降低首Token延迟
3、全栈可观测:从API请求到GPU 的全链路Trace,实现分钟级的定位性能瓶颈和故障恢复
