应需而生,实践落地,青云科技 AI算力调度平台发布

来源:互联网 时间:2023-11-22

青云科技(qingcloud.com)总裁林源在 AI 算力发布会和采访中阐述了AI将给应用和算力带来的变化,他认为“AI领域一定会出现巨头,但不是一家独立的公司,而是一个小的生态。”

每一次科技创新都给生产生活方式带来变革,正如移动互联网开启万物互联,云计算让企业IT迁徙上云,每一次科技创新都给生产生活方式带来变革。得益于AI高效的生产力与简单的交互方式,青云科技总裁林源认为,新一波AI浪潮在带来生产力变革的同时,还将带来商业模式、应用门槛、底层架构等众多变革,产生大量新市场机会。

他表示,相较于过去十年,AI驱动应用呈现四大变化:首先,移动互联网、数字化的服务应用场景,转变为所有应用都要拥抱AI或被AI改造,企业数智化取代数字化;第二,从以CPU为核心变为以GPU为核心驱动应用的创新,“未来的时代一定是一个以GPU为核心的时代”;第三,由于AI训练成本极高,未来AI应用由延迟敏感型转变为以成本敏感型为主,对应的算力将从延迟低的东部沿海,向价格更便宜的西部地区发展,未来算力分布更加分散;第四,支撑的应用类型变化,由传统应用和云原生应用,转变为云原生应用+AI应用,客户业务更复杂,业态更丰富,对技术和平台的挑战越来越多。

过去半年中,随着大模型产品的爆发,AI带来的变革已经逐渐凸显,其中作为AI应用承载的算力格局变化尤为明显。

中国信通院发布的《中国综合算力指数(2023年)》显示,截至2023年6月底,我国算力总规模达到197EFLOPS,其中智能算力规模占整体算力规模的比例提高到25.4%,智能算力规模同比增长达45%,比算力规模整体增速高15个百分点。

AI热潮下,众多智算中心项目如雨后春笋般落地开工,国家信息中心与相关部门联合发布的《智能计算中心创新发展指南》显示,目前全国有超过30个城市正在建设或提出建设智算中心。

在建设如火如荼的同时,智算中心也存在隐忧。林源指出,当前智算中心面临多方面挑战。

对于智算中心的主要建设者地方政府、国资央企和地方AI集成商来说,首要挑战是成本和技术。智算中心投资巨大,一台最新的NVIDIA的服务器就要两百万,未来能否收回成本以及盈利,取决于运营效率与平台能力,前者降低成本,后者决定能卖给多少客户。而相比于投资与建设,智算中心的运营更专业复杂,目前各中心运营能力参差不齐,难以应对。

他直言:“行业内大家对于‘智算中心要怎么建?建成什么样?未来要支撑什么业务?’并没有想的很透彻。”因此造成了有智算功能的某计算中心建成后,由于只支持特定GPU,所以缺乏客户,运营不起来的情况。

新一波AI热潮下,智能算力规模将迎来更加快速的增长,智算中心如何设计规划,实现兼顾AI应用、云原生应用与传统应用需求,支持异构CPU/GPU,高效运营达到盈利?

青云的答案是青云AI算力调度平台。

青云AI算力调度平台是包括智算中心在内的算力中心建设的新模式,让算力中心像管理本地资源一样管理AI基础设施,实现多元算力统一调度、智能化算力管理,支持大模型训练场景,提供多种AIGC模型的一站式交付平台,支撑行业应用计算、高性能计算、AI计算等多种应用模式。

青云AI算力调度平台具备九大关键能力:多区多业务资源整合、混合组网、容器推理服务平台、分布式调度与管理、算法开发支持、模型仓库(MaaS)、AI训练平台、灵活调度、高速并行存储。

相较于市面上其他算力调度产品,苗慧表示,青云AI算力调度平台在资源灵活调度方面更具优势。

原因在于,青云针对大规模计算集群研发了更优化的调度算法,所有节点、服务器和存储设备都有路径标签,通过算法计算最短链路,尽可能调度同一个交换机内的两个节点,减少数据的传输损耗。此外,青云在应用环境上使用K8s和Slurm两种调度平台同时为客户服务,可以实现提交分布式计算任务时,相关卡、CPU、进程等调度信息都能立刻获取到,在颗粒度和运维传统机器等方面也有更多优化。多措并举,实现更好的算力调度,更好的资源利用。

“青云AI算力调度平台的服务对象是现在和未来投入智算中心建设的企业,算力中心现在的投资者和未来的运营者。”

对算力中心来说,青云AI算力调度平台使用效果如何,实践案例最有说服力。

据林源介绍,青云AI算力调度平台正式发布前,已经在国家超级计算济南中心(以下简称“济南超算”)应用,取得了良好效果。

济南超算拥有超1000P算力,300P存储,是一个多元异构算力中心,包括HPC、智算和以CPU为主的云计算,既有NVIDIA GPU,也考虑到国产化兼容,拥有一部分国产GPU。自3年前起,济南超算的整个调度平台由青云科技独家供应,运营至今,平稳支撑济南超算来自高校的传统科学计算、政务云和企业数字化应用上云、智慧城市、AI等多类客户群体业务,助力济南超算提高算力资源利用,目前已经实现盈利。

用林源的话说,济南超算案例说明“青云AI算力调度平台具备所说的能力,我们干过,而且干成了。”

从对话的ChatGPT到生成照片的妙鸭相机,AI已经在多个领域展现了惊人的生产力与创造力,新一波AI大潮席卷而来,模型迭代迅速,智能算力建设与应用落地加速,企业如何抓住市场新机遇,踏浪向前?

面对AI带来的一系列变革,青云希望通过开放的、成熟的、可运营的AI算力调度平台,通过自营、合营乃至支撑第三方运营的方式,与生态同盟一起贡献“AI Cloud”,共同前行。

项目推荐

A5创业网 版权所有

返回顶部