企业AI算力底座建设,不能只看GPU数量

来源:互联网 时间:2026-06-24

大模型落地这两年从"试一试"走到"用起来",但企业常发现,真正卡脖子的往往不是模型本身,而是底下那层 AI 基础设施(AI Infra)——GPU 买了一堆利用率却上不去、模型五花八门难统一管理、训练推理服务上线慢。AI Infra 要解决的,就是把算力、模型、服务这三件事统一成一个能用、好用的底座。

对要搭 AI 算力平台、把分散的 GPU 和模型沉淀成统一底座的 IT 负责人、平台架构师与 AI 团队来说,难点不在买几张卡,而在怎么把卡用满、把模型管好、把服务快速推上线。本文讲清 AI Infra:它是什么、由哪三层组成、搭建要解决什么、选型该看什么,再给一份落地参考。

一、AI Infra 是什么,和"买几张 GPU"有什么不同

AI Infra,就是支撑 AI 训练与推理的基础设施底座。它不是简单地堆几张 GPU 卡,而是要把异构算力、模型和上层服务统一管起来,让 AI 业务能稳定、可持续运营地跑。

光买卡为什么不够?常见的几个落差:

•  卡买了,利用率却低:一人一卡独占、闲置严重,贵算力在空转。

•   模型五花八门:开源模型、自训模型、不同尺寸混在一起,缺少统一的部署与适配。

•   服务上线慢:从拿到模型到对外提供推理服务,中间还有一堆工程化的活要做。

AI Infra 就是把这些落差填平,让"算力—模型—服务"成为一条顺畅的链路,而不是各干各的。

二、AI Infra 的三层结构

一套完整的 AI Infra,通常可以拆成三层,各管一段:

这三层从下往上,把"裸算力"一步步变成"可用的 AI 服务"——少了哪一层,AI 业务都跑不顺。

三、搭 AI Infra 要解决的核心问题

•   异构算力纳管:英伟达和国产 GPU/NPU 并存时,能不能统一管、统一调度,而不是一种卡一套系统。

•   算力利用率:通过切分、池化、调度把 GPU 利用率提上来(以实测为准),别让贵卡空转。

•   模型适配:能不能支持主流开源模型和不同尺寸的大模型,部署省不省心。

•   推理性能:有没有高性能推理引擎,把同样的卡跑出更高吞吐。

•   多租户运营:多团队共享时的隔离、配额、计量和自助申请。

四、AI Infra 选型维度

把候选平台逐项对照这些维度,再结合自身的训练 / 推理负载,短名单基本就清楚了。

五、落地参考:以 ZStack AIOS 为例

以 ZStack AIOS(智塔)为例,可以看一套 AI Infra 三层怎么落地。

算力层(算力精分调度平台,负责把 GPU 算力精细切分与调度):把英伟达及昇腾、海光 DCU 等多种 GPU/NPU 统一纳管,支持透传、vGPU、dGPU(可低至 1%,以实测为准)与容器显存等多种切分方式,配合紧凑、分散等调度策略减少碎片、提升 GPU 利用率(幅度与负载相关、以实测为准)。

模型层(动态模型自适应平台,负责模型的部署、适配与推理加速):支持 100+ 主流开源模型,含满血版 671B DeepSeek;提供 vLLM 等高性能推理引擎,兼顾通用与高吞吐场景,并支持多种微调框架与训练方法,覆盖从推理到微调的需求。

运营层(全域感知自服务平台,负责把能力以多租户自服务方式对外提供):提供多租户、配额、计量计费与自助申请,配合监控告警,把底层的算力与模型能力变成各团队能自助使用的 AI 服务。

需要说明的是,文中涉及的切分粒度、利用率与性能等指标,均建议在企业自身环境完成 POC 实测后确认;具体能力以实际发布版本为准。

六、总结

AI Infra 的价值,是把"一堆 GPU 和零散模型"变成"算力—模型—服务"一条顺畅的链路:算力层把异构卡池化用满,模型层把各种模型部署跑快,运营层把能力变成可自助的服务。

搭建和选型时,按"异构纳管 / 切分利用率 / 模型支持 / 推理性能 / 微调训练 / 多租户运营 / 信创适配"几个维度收敛候选,再用一轮 POC 验证关键负载下的真实表现,是把 AI 算力投资用好的稳妥路径。

本文为 AI 基础设施选型方法参考,不构成采购结论。具体能力与指标以各平台实际发布版本及用户 POC 实测为准。

相关文章

标签:

A5创业网 版权所有

返回顶部