青云科技发布AI智算平台2.0,落地多地多中心运营运维

来源:互联网 时间:2024-07-29

青云AI 智算平台打造算力中心建设的新模式,像管理本地资源一样管理 AI 基础设施,对 AI 算力进行动态监控调整,以满足不同业务的需求,提高 AI 算力的整体使用效率和管理效率。日前,青云科技(qingcloud.com)发布的AI智算平台2.0 新版本,全面拥抱云原生,实现从 AI 基础设施到 AI 开发训练推理的全流程高效管理。

功能升级,重塑算力管理体验

青云AI智算平台2.0通过统一的集群管理,实现对 NVIDIA、国产 GPU 等多种异构算力的高效调度。无论是高速 IB、RoCE 网络建设,还是并行文件存储集群管理,平台均能提供从物理机到容器的全方位管理。新版平台支持共享 GPU、单卡、多卡、多节点的算力调度,用户可根据实际业务需求按需申请使用,极大地提高了算力资源的使用效率。

新增节点监控、任务监控、容器组监控、高速网络监控和 GPU 监控等功能,青云AI智算平台2.0提供从硬件故障处理到资源使用情况的全方位监控,及时发现并解决潜在问题。同时,可视化的自定义告警配置支持邮件、企微、webhook等多种通知渠道,确保用户随时掌握 AI 基础设施的运行状态。

在算力调度的基础上,青云AI智算平台2.0支持自定义镜像仓库,同时内置 TensorFlow、PyTorch、MPI、DeepSpeed 等常用计算框架,支持一键创建开发机、分布式任务,自动挂载并行文件存储等常用 AI 业务流程。用户只需上传代码,即可快速启动多机多节点的分布式训练,系统将自动调度到可用 GPU 进行计算,任务完成后自动释放资源。

借助青云公有云和AI算力云的运营经验,青云AI智算平台2.0平台提供规格定价、在线充值、购买产品的全流程自服务管理,减少运营的技术人员、管理人员投入,同时减少客户试用沟通和准备环境的时间,加快算力中心资源售卖,提升资源运营效率。

解决多地多中心运营运维难题

青云近期在某国企构建多地多中心的大规模智算基础设施项目里,充分发挥了AI智算平台2.0在资源统一管理、按需调度及高效运维方面的卓越能力。

该大规模智算基础设施项目初步计划在跨省的多地建设智算中心并统一对外运营。面对多点布局的复杂挑战,青云AI智算平台2.0凭借其领先的资源管理技术,实现了对CPU、GPU、HPC算力、多元化存储系统等资源的全面整合,将各种异构服务器、存储、网络设备统一纳入管理范围,实现了资源的无缝对接与智能调度,编织出一张高效协同的算力资源网。

青云AI智算平台2.0通过标准化、流程化的运维管理,大幅降低了运营成本,提升了整体效率。平台不仅提供了资源的规范化、可视化管理,还支持多租户模式下的精准资源分配,以及包括计量计费、客户管理在内的全套服务运营功能,为该大规模智算基础设施项目搭建起跨地域的统一运维体系。

在青云AI智算平台2.0的加持下,该大规模智算基础设施项目不仅关注资源调度与运维,更注重应用的落地与技术的开放兼容。平台的分布式调度与管理能力,加之开放的应用框架和模型服务,为算法开发到模型部署的全流程提供了坚实支撑,加速了从创新想法到产品实现的转化过程。

目前该大规模智算基础设施项目的部分智算中心已经建设完成。各地智算中心都将作为Sub Zone(可用区),通过Global Zone(全局区域)对外提供通用算力、高性能算力及智能算力,将为最终用户提供了资源丰富、按需扩展、智能调度的资源环境,降低算力资源使用成本的同时,极大提升创新效率。

借助青云 AI 智算平台 2.0,企业可以轻松应对 AI 算力建设与运营的挑战,实现高效、灵活的 AI 算力管理,降低成本,提高竞争力。

相关文章

A5创业网 版权所有

返回顶部