当前位置:首页 > 经验 >

pod示意图(pod技术的代表)

来源:原点资讯(www.yd166.com)时间:2022-11-04 18:35:28作者:YD166手机阅读>>

pod示意图,pod技术的代表(1)

智东西(公众号:zhidxcom)

作者 | 程茜

编辑 | 漠影

近几年,AI 模型的规模呈数量级增长态势。从 2018 年开始,谷歌发布 BERT,其参数量为 9500 万;2020 年 OpenAI 发布的 GPT-3 模型参数已经扩展到 1750 亿;2021 年 10 月,国内浪潮发布中文 AI 大模型源 1.0,其参数量为 2500 亿;微软和 NVIDIA 联手推出的威震天-图灵(Megatron Turing-NLG)参数规模已超 5000 亿……近四年时间,AI 模型规模增大了 5000 倍之多。

大规模 AI 模型的发展速度已经远远超过摩尔定律,传统数据中心也无法满足 AI 算力需求,传统数据中心向 AI 数据中心转型是大势所趋。

为了满足 AI 模型算力需求,帮助企业构建 AI 数据中心,2021 年 4 月,NVIDIA 推出 DGX SuperPOD 云原生超级计算机,为用户提供一站式 AI 数据中心解决方案,是企业满足 AI 大模型计算的有力武器。

一、模型规模指数级提升,AI 算力需更高性能

2020 年 GPT-3 发布后一度引爆科技圈,国内国外各大科技企业也都在打造自己的大模型,不断扩展 AI 模型的规模边界,并加快技术迭代。

无论是数据规模还是模型规模,近几年来都呈爆发式增长,再加上在自然语言处理、搜索、医疗等领域 AI 应用更加广泛,这也对 AI 算力提出了更大需求,建立多机多卡的大规模集群才能满足更高性能的算力要求。

pod示意图,pod技术的代表(2)

数据和模型规模增长示意图

AI 从功能上看主要包括推理和训练阶段,训练过程主要在数据中心完成,对处理器的运算性能要求较高。而传统数据中心开始并不是专门为执行 AI 算法所构建,因此无法满足 AI 模型的算力要求,这也进一步催生了专门针对 AI 训练的现代 AI 数据中心。

AI 数据中心的主流架构是 GPU CPU 异构架构,CPU 是计算机系统的运算和控制核心,更擅长逻辑控制,不擅长复杂算法运算和处理并行操作;GPU 主要用于支撑大量数据的并行计算,两种处理器相辅相成,能够大幅提升运算效率。

通过 AI 数据中心,融合 AI、云计算、大数据等技术,可以大规模提供算力、提高算力资源利用率、提升数据存储和处理能力,加速大模型 AI 模型的训练和推理效率。

AI 数据中心的发展仍处于起步阶段。NVIDIA 解决方案架构师赵明坤称,企业构建 AI 数据中心需要大量时间、专业知识以及正确的架构方法。因此,那些亟需 AI 转型的企业构建 AI 数据中心的门槛较高,企业需要从软硬件协同、试错成本等多维度综合考量,很难快速搭建起高性能的 AI 集群。

pod示意图,pod技术的代表(3)

AI 数据中心构建难点

二、破解大模型挑战构建算力 软件一站式解决方案

NVIDIA 推出的 DGX SuperPOD 云原生超级计算机,是一套软硬协同的完整解决方案,在满足 AI 模型算力的基础上,又能帮助企业快速部署 AI 数据中心。

DGX SuperPOD 采用模块化的设计,支持不同规模大小的设计。一个标准的 SuperPOD 由 140 台 DGX A100 GPU 服务器、HDR InfiniBand 200G 网卡和 NVIDIA Quantum QM8790 交换机构建而成,针对超大语言模型预训练这一复杂场景,帮助 AI 研究人员快速搭建一套强大、灵活、高效的系统。

pod示意图,pod技术的代表(4)

NVIDIA DGX SuperPOD

搭载 8 个 NVIDIA A100 Tensor Core GPU 的 DGX A100 服务器,单节点 AI 算力达到 5 PFLOPS,5 个 DGX A100 组成的一个机架,算力就可媲美一个 AI 数据中心。DGX SuperPOD 中,每台 DGX A100 配有 8 个 200Gb/s 的高速计算网,并配有 2 个 200Gb/s 的高速存储网,网络针对 AI 和 HPC 进行了优化,采用计算和存储网络分离的方案,有效避免了带宽增强。

值得一提的是,多个 POD 之间还可以通过核心层交换机直连起来,能够支持多达 560 台 DGX A100 的互连规模。

在软件方面,NVIDIA 集成了基础设施管理软件 Base Command Manager,该软件负责协调 DGX SuperPOD 基础架构上的 AI 模型训练和相关操作,帮助客户同时共享、操作自己的训练任务、计算环境、数据集以及配置任务所需的计算量等。

NVIDIA 还为 DGX SuperPOD 提供专业的部署服务,包括单机系统部署、InfiniBand 网络配置、调度安装调试、监控部署、多机环境、基础性能验证等,从基础系统方面,保证了最快交付。

目前,NVIDIA 的 DGX SuperPOD 方案已经部署到京东探索研究院中,京东探索研究院针对 CV(计算机视觉)、NLP(自然语言处理)、跨模态等领域设计和研发的数十个模型,在 DGX SuperPOD 上达到了比较理想的加速比和扩展性。

NVIDIA 构建的集群方案,化解大模型的算力难关后,能够加速 AI 训练和迭代速度,降低企业 AI 训练的成本,距离普惠 AI 更近一步。

三、1 小时组装高算力 AI 集群NVIDIA 专家解密

据了解,4 名由 NVIDIA 专业人员仅需不到 1 个小时,就能组装起一套由 20 台系统组成的 DGX A100 集群。计算性能大幅增长的同时,还能大大缩短部署成本,NVIDIA 的 DGX SuperPOD 方案到底是如何实现的?

2021 年 11 月 30 日,智东西公开课策划推出的“NVIDIA AI 数据中心专场”,由 NVIDIA 解决方案架构师赵明坤、DDN 存储解决方案架构师李凡两位技术专家共同主讲。

赵明坤老师以《NVIDIA DGX SuperPOD 云原生超级计算机加速现代 AI 数据中心》为主题,围绕 AI 数据中心的趋势和构建难点出发,结合 DGX SuperPOD 云原生超级计算机参考架构和应用案例,详解如何高效构建 AI 数据中心。

李凡老师则以《高速并行存储加速 AI/HPC 数据中心应用》为主题,剖析了数据中心对高速并行存储的需求,并围绕 DDN 高速并行存储产品在 DGX SuperPOD 中的应用实践进行了系统讲解。

进一步了解大模型训练、架构,洞察 AI 超算的发展趋势,以及 NVIDIA DGX SuperPOD 方案,可以回顾公开课的精彩内容。

公开课链接:https://www.nvidia.cn/webinars/211130-19552/

pod示意图,pod技术的代表(5)

栏目热文

repo 工作原理(repo入门和基本用法)

repo 工作原理(repo入门和基本用法)

常见的代码托管平台github、gitLab和BitBucket等,基本都会使用Git作为版本控制工具。平台一般都提供两...

2022-11-04 18:19:48查看全文 >>

pod原理讲解(pod启动过程)

pod原理讲解(pod启动过程)

1.pod核心原理概念:k8s的作用k8s是用来管理容器,但不直接操作容器,最小操作单元是pod(间接管理容器)特点:1...

2022-11-04 18:20:32查看全文 >>

pod是什么装置(pod泵干嘛用的)

pod是什么装置(pod泵干嘛用的)

“吸烟有害身体健康”,这是在购买香烟的包装上都能看到的一句话。但提到电子烟,却仿佛是一种比传统香烟要更安全的存在。了解到...

2022-11-04 18:31:08查看全文 >>

pod 有哪些特性(pod基础知识)

pod 有哪些特性(pod基础知识)

本文主要包括Pod的基本概念、使用场景,以及如何在时速云平台上进行Pod的编排部署,希望对大家在进行微服务架构实践时有所...

2022-11-04 18:17:48查看全文 >>

po模式原理(为什么要使用po模式)

po模式原理(为什么要使用po模式)

点击上方头像关注我,每周早上 09:00准时推送,每月不定期赠送技术书籍。Hi,500 经典面试资料合辑,面试题多如云海...

2022-11-04 18:11:32查看全文 >>

sod和pod区别(pod技术的代表)

sod和pod区别(pod技术的代表)

土壤污染是全球性的环境问题,威胁人类健康和影响社会经济的可持续发展。2014年发布的《全国土壤污染状况调查公报》显示,我...

2022-11-04 18:20:44查看全文 >>

homepod工作原理(homepod内部结构)

homepod工作原理(homepod内部结构)

苹果已为 Apple TV 4K 和 HomePod 发布了 tvOS 14.2,允许用户将 HomePods 用作默认...

2022-11-04 18:09:58查看全文 >>

iospod的工作原理(ios最新开发版描述文件)

iospod的工作原理(ios最新开发版描述文件)

前几天一个苹果新的专利吊起了很多人的胃口,我们说的就是那个能让iPhone变身成为笔记本电脑的新专利。iPhone秒变笔...

2022-11-04 17:58:22查看全文 >>

pod技术(pod启动过程)

pod技术(pod启动过程)

1、Pod 概述Pod 是 k8s 系统中可以创建和管理的最小单元,是资源对象模型中由用户创建或部署的最小资源对象模型,...

2022-11-04 18:39:37查看全文 >>

免钉胶怎么用粘得更紧(免钉胶怎么使用粘得比较牢固)

免钉胶怎么用粘得更紧(免钉胶怎么使用粘得比较牢固)

本文作者:gzdenny 洗碗机安装双11过了两天在咸鱼瞎逛的时候发现本地有人把在双十一抢购的东芝洗碗机挂出来卖1999...

2022-11-04 18:25:13查看全文 >>

文档排行