InfiniBand 多层安全保护数据中心和 AI 工作负载

在当今数据驱动的世界中，安全性不仅仅是一项功能，更是基础。随着 AI、HPC 和超大规模云计算的指数级增长，网络结构的完整性比以往任何时候都更加重要。虽然许多网络几乎在事后添加了安全功能，但安全性却延伸到了 NVIDIA Quantum InfiniBand 的每一层。

InfiniBand 因超低延迟、高吞吐量和大规模可扩展性而在性能圈中广为人知。本文介绍了其强大的多层安全方法，这种方法通常不太被认可。

InfiniBand 如何进行安全设计？

InfiniBand 的核心是软件定义的集中管理结构。在传统网络中，端点通常独立运行，自行制定路由、资源和策略决策。缺乏集中式监督可能会导致配置错误、策略不一致和安全漏洞。InfiniBand 通过在子网管理器 (SM) 中进行集中控制来避免这种情况，子网管理器 (SM) 负责执行全局策略、优化路由、监控运行状况并主动保护网络。这种安全优先的方法嵌入到 InfiniBand 架构的每一层。

InfiniBand 如何控制访问？

InfiniBand 使用类似于安全访问令牌的专用关键机制，而不是依靠复杂的加密协议来保护每个字节 (这会影响速度) 。这些密钥不会加密数据，而是确保只有经过授权的设备和受信任的应用才能参与网络。

A diagram of a key-based security model showing a unique key added to a message between a sender and verified by the receiver. — *图 1。基于密钥的安全模型示意图*

关键系统的工作原理如下：

M_Key：用于防止恶意主机更改设备配置的管理密钥。如果密钥不匹配，则会放弃请求。
P_Key：类似于 VLAN 的分区密钥。这些密钥定义了哪些设备可以相互“看到”或通信，从而在整个网络中实现严格的流量隔离。
Q_Key：通过要求对每个数据包进行密钥验证来保护不可靠的数据报流量。
L_Key 和 R_Key：保护 RDMA 操作中的内存，确保只有经过授权的节点才能读取或写入内存，这对于现代零复制操作至关重要。

所有这些密钥都由 InfiniBand 网卡或交换机 ASIC 进行硬件增强，这意味着即使是受损服务器上的根访问也无法覆盖它们。这提供了非常高的安全性。

InfiniBand 如何防止欺诈、假冒和劫持？

InfiniBand 十分重视硬件身份识别。每个节点和端口都使用全局唯一标识符 (GUID) 进行硬编码，几乎不可能进行欺诈。此外，SM 还支持静态拓扑文件，管理员可以在其中定义预期的设备 GUID 和端口连接。如果某些内容不匹配，则不允许连接。

SM 还可以维护“允许的 SM GUID”列表，以防止恶意子网管理器试图控制。借助 SMP 防火墙，即使在裸机或多租户环境中，管理员也可以锁定管理流量。

InfiniBand 分区比 VLAN 更强大

以太网 VLAN 虽然不错，但它们是软件结构。在硅级执行 InfiniBand 分区。管理员在 NVIDIA Unified Fabric Manager (UFM) 中定义分区组，并将这些定义推送到每个交换机和网卡。

在分区内，根据会员等级允许流量：

正式会员可以与分区中的任何人交谈
数量有限的会员只能与正式会员交谈

这种结构可以防止杂的租户、恶意应用程序或受到攻击的系统与他们甚至不应该知道存在的资源进行通信。

InfiniBand 无需软件即可保护内存和传输

InfiniBand 传输层 – 可靠连接 (RC) 、不可靠数据图 (UD) 和动态连接 (DC) – 均在硬件中实施。这意味着没有软件堆栈漏洞或内核绕过漏洞。

在 RC 和 DC 模式下，设备通过硬件处理和 SM 管理的握手过程建立连接。如果消息未遵循预期路径、未通过 CRC，或显示无效的序列号，系统会立即删除该消息。

同时，远程直接内存访问 (RDMA) 使用 R_Keys 进行安全保护，R_ Keys 与特定的保护域和发起通信的队列对 (QP) 相关联。每个 QP 都在定义的保护域内运行，并且只能访问在该域中注册的内存区域。如果传入的数据包所呈现的内存密钥 (R_Key) 与目标 QP 和保护域所期望的不匹配，硬件会静默地将其丢弃。这种机制可以防止未经授权的读取和写入，即使在面对主动攻击时也是如此。

专为大规模安全而构建的管理

InfiniBand 管理既强大又安全。SM 使用管理数据报 (MAD) 与设备通信，每个管理数据报 (MAD) 均受特定类密钥的保护。其中包括：

SA_Key：用于子网管理员中的敏感操作 (例如添加或删除记录)
VS_Key：适用于 ibdiagnet 等供应商工具
C_Key 和 N2N_Key：安全通信管理器流量和节点到节点消息传递
AM_Key：专用于 SHARP 聚合，确保仅由授权交换机减少数据

通过密钥旋转、每个端口的密钥范围和可配置的租赁期限，管理员可以在不影响性能的情况下定制保护。即使在实施控制的情况下，了解整个网络中发生的情况也是关键。

陷阱和遥测

InfiniBand 非常明显。每台设备上的管理代理都会在发生任何异常情况 (包括违反协议、意外重启、拓扑更改等) 时发送陷阱。这些数据会直接发送到 SM 或在 UFM 控制面板中公开。这种实时可见性意味着您不仅可以受到保护，而且可以随时采取行动。

内置自动化、策略控制和可审核性

NVIDIA 为希望强化 InfiniBand 环境的管理员提供了各种选项。一些最佳实践包括：

为 M_Key、SA_Key 等启用每个端口密钥
使用有限的成员资格按租户执行分区
在裸机主机上使用 SMP 防火墙阻止模拟尝试
定义和维护静态拓扑文件，以防止设备被欺诈
开启定期 MAD 密钥更新，以保持关键材质的最新状态

所有这些都可通过 UFM 或 REST API 进行管理，实现内置自动化、策略控制和可审计性。

专为满足现代 AI 数据中心的需求而设计

安全性是 InfiniBand 网络不可或缺的一部分。从隔离分区到强化传输、加密密钥交换，再到主动遥测，InfiniBand 为企业组织提供了一个专门构建的高性能、设计安全的网络，可应对要求严苛的工作负载。

要开始使用并了解更多信息，请参阅新的 NVIDIA InfiniBand 安全概述和指南。

InfiniBand 多层安全保护数据中心和 AI 工作负载

InfiniBand 如何进行安全设计？

InfiniBand 如何控制访问？

InfiniBand 如何防止欺诈、假冒和劫持？

InfiniBand 分区比 VLAN 更强大

InfiniBand 无需软件即可保护内存和传输

专为大规模安全而构建的管理

陷阱和遥测

内置自动化、策略控制和可审核性

专为满足现代 AI 数据中心的需求而设计

相关资源

标签

关于作者

InfiniBand 多层安全保护数据中心和 AI 工作负载

InfiniBand 如何进行安全设计？

InfiniBand 如何控制访问？

InfiniBand 如何防止欺诈、假冒和劫持？

InfiniBand 分区比 VLAN 更强大

InfiniBand 无需软件即可保护内存和传输

专为大规模安全而构建的管理

陷阱和遥测

内置自动化、策略控制和可审核性

专为满足现代 AI 数据中心的需求而设计

相关资源

标签

关于作者

相关文章

使用 Magnum IO 加速云本机超级计算

相关文章

Dynamo 0.4 提供 4 倍性能提升、基于 SLO 的自动缩放和实时可观测性

NVIDIA vGPU 19.0 支持 NVIDIA Blackwell GPU 的图形和 AI 虚拟化功能

NVIDIA CUDA-Q 0.12 扩展了用于开发硬件性能量子应用的工具集

GPU 架构支持导航：面向 NVIDIA CUDA 开发者的指南

通过训练后量化优化 LLM 的性能和准确性