Cybersecurity / Fraud Detection

InfiniBand 다층 보안으로 데이터 센터와 AI 워크로드를 보호

Reading Time: 4 minutes

오늘날의 데이터 중심 환경에서 보안은 단순한 기능을 넘어 전체 시스템을 지탱하는 근간입니다. AI, HPC, 하이퍼스케일 클라우드 컴퓨팅이 기하급수적으로 성장하면서 네트워크 패브릭의 무결성은 그 어느 때보다 중요해졌습니다. 대부분의 네트워크가 보안을 나중에 덧붙이는 반면, NVIDIA Quantum InfiniBand는 모든 계층에 보안을 기본으로 내장하고 있습니다.

InfiniBand는 초저지연, 높은 처리량, 탁월한 확장성으로 성능 중심 업계에서 잘 알려져 있습니다. 이번 글에서는 비교적 덜 알려진 InfiniBand의 강력한 다계층 보안 접근 방식을 설명합니다.

InfiniBand는 어떻게 보안을 위해 설계되었을까요?

IInfiniBand는 어떻게 보안을 위해 설계되었을까요? InfiniBand의 핵심은 소프트웨어 정의 방식으로 중앙에서 관리되는 패브릭입니다. 전통적인 네트워크에서는 각 엔드포인트가 독립적으로 작동하며 라우팅, 리소스, 정책을 개별적으로 결정합니다. 이러한 중앙 통제의 부재는 구성 오류, 정책 불일치, 보안 구멍이나 침해 가능성을 유발할 수 있습니다. InfiniBand는 Subnet Manager(SM)에 제어를 중앙 집중시켜 이러한 문제를 방지합니다. SM은 글로벌 정책을 적용하고, 라우팅을 최적화하며, 시스템 상태를 모니터링하고, 패브릭을 선제적으로 보호합니다. InfiniBand 아키텍처 전반에 보안이 기본적으로 설계되어 있는 셈입니다.

InfiniBand는 접근을 어떻게 제어할까요?

InfiniBand는 모든 데이터를 암호화하는 복잡한 암호화 프로토콜 대신, 보안 접근 토큰처럼 작동하는 전용 키 메커니즘을 사용합니다. 이 키는 데이터를 암호화하지는 않지만, 인가된 장치와 신뢰할 수 있는 애플리케이션만 네트워크에 참여할 수 있도록 보장합니다.

그림 1. 키 기반 보안 모델의 다이어그램

키 시스템은 다음과 같이 작동합니다:

  • M_Key: 장치 구성을 무단으로 변경하지 못하도록 하는 관리 키입니다. 키가 일치하지 않으면 요청은 즉시 폐기됩니다.
  • P_Key: VLAN과 유사한 파티션 키로, 어떤 장치들이 서로를 인식하고 통신할 수 있는지를 정의하여 패브릭 전반에 걸쳐 엄격한 트래픽 격리를 구현합니다.
  • Q_Key: 신뢰할 수 없는 데이터그램 트래픽을 보호하며, 각 패킷마다 키 유효성을 검증해야 합니다.
  • L_Key와 R_Key: RDMA 작업에서 메모리를 보호하며, 인가된 노드만 메모리를 읽거나 쓸 수 있도록 보장합니다. 이는 최신 제로-카피 작업에 필수적인 요소입니다.

이러한 모든 키는 InfiniBand 네트워크 어댑터나 스위치 ASIC에 의해 하드웨어 수준에서 강제되므로, 설령 서버가 침해되어 루트 권한이 탈취되더라도 이를 무력화할 수 없기 때문에 매우 높은 수준의 보안을 제공합니다.

InfiniBand는 위조, 신분 도용, 세션 탈취를 어떻게 방지할까?

InfiniBand는 하드웨어 식별 정보를 매우 중요하게 여깁니다. 모든 노드와 포트는 GUID(Global Unique Identifier)가 하드코딩되어 있어 위조가 사실상 불가능합니다. 또한 SM은 정적 토폴로지 파일을 지원하며, 관리자는 이 파일에 예상되는 장치의 GUID와 포트 연결을 명시할 수 있습니다. 설정과 일치하지 않으면 연결은 허용되지 않습니다.

SM은 “허용된 SM GUID” 목록을 유지할 수도 있어, 악의적인 서브넷 매니저가 제어권을 탈취하는 것을 방지합니다. SMP 방화벽 기능을 통해 베어메탈 환경이나 멀티 테넌시 환경에서도 관리 트래픽을 철저히 제한할 수 있습니다.

VLAN보다 강력한 InfiniBand의 파티셔닝

Ethernet VLAN도 유용하지만 소프트웨어 기반입니다. 반면 InfiniBand 파티셔닝은 실리콘 수준에서 강제됩니다. 관리자는 NVIDIA Unified Fabric Manager(UFM)에서 파티션 그룹을 정의하고, 이 정의는 모든 스위치와 네트워크 어댑터에 전파됩니다.

파티션 내에서는 멤버십 수준에 따라 트래픽이 허용됩니다:

  • Full 멤버는 파티션 내 누구와도 통신할 수 있습니다.
  • Limited 멤버는 Full 멤버와만 통신할 수 있습니다.

이러한 구조는 과도한 트래픽을 유발하는 테넌트, 악성 애플리케이션, 침해된 시스템이 자신이 접근해서는 안 되는 리소스와 통신하거나 존재 자체를 인식하는 것을 원천적으로 차단합니다.

메모리와 전송 계층을 소프트웨어 없이 보호하는 InfiniBand

InfiniBand의 전송 계층인 Reliable Connected(RC), Unreliable Datagram(UD), Dynamically Connected(DC)는 모두 하드웨어에서 구현됩니다. 이는 소프트웨어 스택의 취약점이나 커널 우회 공격으로부터 자유롭다는 뜻입니다.

RC 및 DC 모드에서는 장치 간 연결이 하드웨어 차원에서 설정되는 협상 과정을 통해 수립되며, 이는 SM이 관리합니다. 메시지가 예상 경로를 따르지 않거나 CRC 검사를 통과하지 못하거나 잘못된 시퀀스 번호를 갖고 있으면 즉시 폐기됩니다.

한편, 원격 직접 메모리 접근(RDMA)은 R_Key를 통해 보호됩니다. R_Key는 특정 보호 도메인 및 통신을 시작하는 큐 쌍(QP)과 연동되어 있습니다. 각 QP는 명확히 정의된 보호 도메인 내에서 작동하며, 해당 도메인에 등록된 메모리 영역에만 접근할 수 있습니다. 수신 패킷이 목적지 QP와 보호 도메인이 기대하는 R_Key와 일치하지 않을 경우, 하드웨어는 이를 조용히 폐기합니다. 이 메커니즘은 심지어 능동적인 공격 상황에서도 비인가된 메모리 읽기 및 쓰기를 방지합니다.

확장 가능한 보안을 위한 관리 체계

InfiniBand의 관리 기능은 강력하면서도 보안성이 뛰어납니다. SM은 각기 다른 클래스별 키로 보호되는 관리 데이터그램(MAD)을 통해 장치와 통신합니다. 주요 키는 다음과 같습니다:

  • SA_Key: Subnet Administrator에서의 민감한 작업(예: 레코드 추가/삭제)을 보호합니다.
  • VS_Key: ibdiagnet 같은 벤더 툴 사용을 보호합니다.
  • C_Key 및 N2N_Key: 커뮤니케이션 매니저 트래픽과 노드 간 메시지를 보호합니다.
  • AM_Key: SHARP 집계 전용 키로, 인가된 스위치만 데이터 집계를 수행할 수 있도록 합니다.

키 회전, 포트별 키 범위 지정, 구성 가능한 임대 기간 등을 통해 관리자는 성능 저하 없이 유연하고 정밀한 보안 정책을 수립할 수 있습니다. 이러한 환경에서도 패브릭 전반의 가시성을 확보하는 것은 여전히 매우 중요합니다.

트랩과 텔레메트리

InfiniBand는 고도의 가시성을 제공합니다. 각 장치에 있는 관리 에이전트는 프로토콜 위반, 예기치 않은 재부팅, 토폴로지 변경 등 이상 상황이 발생하면 트랩을 발생시켜 SM으로 직접 전송하거나 UFM 대시보드에 노출합니다. 이러한 실시간 가시성 덕분에 보호받는 데서 그치지 않고, 즉각적인 대응이 가능합니다.

내장된 자동화, 정책 제어, 감사 기능

NVIDIA는 InfiniBand 환경의 보안을 강화하려는 관리자들을 위한 다양한 옵션을 제공합니다. 주요 모범 사례는 다음과 같습니다:

  • M_Key, SA_Key 등 포트별 키 활성화
  • 테넌트별로 제한된 멤버십을 사용하여 파티셔닝 강제 적용
  • 베어메탈 호스트에 SMP 방화벽을 설정하여 가장 시도 차단
  • 위조된 장치를 방지하기 위해 정적 토폴로지 파일 정의 및 유지
  • 키 정보를 최신 상태로 유지하기 위한 MAD 키의 주기적 갱신

이 모든 관리는 UFM 또는 REST API를 통해 자동화, 정책 제어, 감사 기능으로 구현할 수 있습니다.

현대 AI 데이터 센터의 요구에 맞춘 설계

보안은 InfiniBand 패브릭의 핵심 요소입니다. 격리된 파티션부터 강화된 전송 계층, 암호화된 키 교환, 사전 대응형 텔레메트리에 이르기까지, InfiniBand는 가장 까다로운 워크로드를 처리할 수 있도록 고성능·보안 중심으로 설계된 네트워크를 제공합니다.

시작하려면 최신 NVIDIA InfiniBand 보안 개요 및 가이드를 참조하세요.

관련 자료

Discuss (0)

Tags