‘통합 이더넷 RDMA’ 및 ‘엔비디아 퀀텀2 인피니밴드’로 구축
24,576개 엔비디아 ‘텐서 코어 H100 GPU’로 작동, ‘고성능 네트워크 패브릭’
“금년 연말까지 엔비디아 H100 GPU 35만개 확보” 재확인

엔비디아 텐서 코어 'H100' (사진=엔비디아)
엔비디아 텐서 코어 'H100' (사진=엔비디아)

[애플경제 이윤순 기자] 해당 클러스터는 24,576개의 엔비디아 ‘텐서 코어 H100 GPU’와 함께 작동하는 고성능 네트워크 패브릭을 갖출 것으로 보인다. 그래서 “메타의 이전 RSC 클러스터보다 더 크고 더 복잡한 모델을 지원할 수 있다.”는 설명이다.

두 개의 클러스터 중 하나는 ‘RoCE’(통합 이더넷을 통한 RDMA)로 구축되었다. 또 다른 클러스터는 ‘엔비디아 퀀텀2 인피니밴드(InfiniBand) 패브릭’을 특징으로 한다. “둘 다 향상된 네트워크 기능에 맞춰져 있다”는 설명이다.

메타가 14일 라마3(Llama 3) AI 모델을 훈련하기 위한 새로운 GPU 클러스터를 공개하는 한편, “금년 연말까지 35만개의 엔비디아 H100 GPU를 추가로 확보할 계획”이라고 밝혔다.

엔비디아 칩을 구하는게 ‘하늘의 별따기’만큼 힘든 상황에도 불구하고, 메타는 ‘라마3’의 LLM 개발을 가속화하기 위해 이같이 엔비디아와 협업, GPU 인프라를 확장하고 있다.

2개의 클러스터, 각기 ‘24k 용량 GPU’ 규모

이와 함께 이날 메타는 생성AI 시스템의 막대한 컴퓨팅 요구 사항을 처리할 수 있는 2개의 새로운 GPU 클러스터를 발표했다. 이에 따르면 AI 워크로드에서 처리량과 안정성을 강화하기 위한 2개의 24k 용량의 GPU 데이터센터 규모 클러스터를 추가할 계획이다.

이 GPU는 현재 기존 ‘라마2’ 모델과, 곧 출시될 ‘라마3’ 모델은 물론, 메타의 생성 AI 관련 사업 전반의 연구 개발 프로젝트를 위한 것으로 알려졌다. 메타는 그러면서 “이는 야심찬 인프라 로드맵의 한 단계”라면서 “향후 35만개의 엔비디아 H100 GPU를 사입, 포트폴리오를 확장할 것”이라고 밝혔다.

메타의 계획대로라면, 거의 60만개의 H100에 해당하는 컴퓨팅 성능을 확보하게 된다. 이에 대해 메타는 “물리적 계층에서부터 가상 계층, 그리고 소프트웨어 계층과 그 이상에 이르기까지 인프라의 모든 측면을 지속적으로 검증하고 개선하기 위한 것”이라고 밝혔다.

엔비디아 'H100'' 칩 (사진=엔비디아)
엔비디아 'H100'' 칩 (사진=엔비디아)

메타는 또 이같은 최신 GPU 클러스터에서 ‘엔드 투 엔드’ AI 시스템과 함께 효율적인 생산을 위한 연구원과 개발자 경험을 강조했다. 해당 클러스터는 24,576개의 엔비디아 ‘텐서 코어 H100 GPU’와 함께 작동하는 고성능 네트워크 패브릭을 갖출 것으로 보인다. 그래서 “메타의 이전 RSC 클러스터보다 더 크고 더 복잡한 모델을 지원할 수 있다.”는 설명이다.

내부 개방형 GPU 플랫폼 ‘Grand Teton’으로 구축

두 개의 클러스터 중 하나는 ‘RoCE’(통합 이더넷을 통한 RDMA)로 구축되었다. 또 다른 클러스터는 ‘엔비디아 퀀텀2 인피니밴드(InfiniBand) 패브릭’을 특징으로 한다. “둘 다 향상된 네트워크 기능에 맞춰져 있다”는 설명이다.

이들 모두 메타의 내부 개방형 GPU 하드웨어 플랫폼인 ‘Grand Teton’으로 구축되었다. ‘Grand Teton’은 전력, 제어, 컴퓨팅, 패브릭 인터페이스를 단일 섀시에 통합함으로써 전체 성능을 크게 높인 생성AI를 기반으로 구축된 것이다. “‘Grand Teton’은 현재와 미래 애플리케이션을 위해 특별히 설계된 방식으로서 이처럼 새로운 클러스터를 구축할 수 있다.”는 설명이다.

메타는 또 “생성AI는 엄청난 양의 데이터를 소비하기 때문에 차세대 GPU에 의한 스토리지가 필수”라고 새로운 클러스터의 차별성을 강조했다.

또한 메타가 자체 개발한 ‘리눅스 스토리지 시스템’은 이들 GPU 클러스터에서 ‘Tectonic 분산 스토리지 솔루션’ 버전과 병렬로 작동한다. “이같은 대규모 클러스터는 흔히 초기 성능에 문제가 있다고 알려져있지만, 내부 작업 스케줄러를 변경하면 이들을 최적화할 수 있다”고 덧붙였다.

저작권자 © 애플경제 무단전재 및 재배포 금지