엔비디아, 애플․MS처럼 ‘AI종합기업’ 지향

‘블랙웰’ 기반 슈퍼칩 계기, 칩 제조사 아닌 ‘글로벌 AI 빅테크’ 야심
AI칩 보조수단 아닌 독자적 SW개발 판매, ‘휴머노이드 로봇’도 매진

[애플경제 전윤미 기자] 엔비디아가 더 이상 일개 칩 제조사가 아니라, 글로벌 AI플랫폼 기업으로 거듭날 것을 예고했다. 최근 ‘엔비디아 GTC 2024’에서 CEO 젠슨 황을 통해 이같은 비전은 더욱 선명해졌다. 젠슨 황은 이날 기존 H100보다 수 십배의 성능을 지난 ‘블랙웰’과 또 다른 슈퍼칩 ‘GB200’을 소개하며, “칩 제조를 넘어 차세대 칩·플랫폼 기반의 4차산업혁명을 이끄는 빅테크로 거듭날 것”이란 야심을 숨기지 않았다.

젠슨 황은 “블랙웰은 사실상 반도체 칩이 아니라 ‘플랫폼 이름’”이라고 했다. 다시 말해 자사가 더 이상 칩 제공업체가 아닌, 애플이나 MS처럼 소프트웨어를 구축할 수 있는 플랫폼 기업 내지 글로벌 빅테크로 거듭나겠다는 의지의 표현이다.

“블랙웰은 반도체 칩 아닌, 플랫폼 이름”

실리콘밸리에선 또 “AI의 종점은 로봇이고, 엔비디아가 최종적인 역량을 집중하는 것도 로봇”이라며 “특히 AI기반의 휴머노이드 로봇을 통해 단순 반도체 업체가 아닌 ‘AI종합회사’로 도약하려고 한다”는 해석도 나온다. 사실 최근 들어 ‘엔비디아 열풍’이 약간 꺾인 듯한 분위기에서 이번 ‘GTC 2024’에서 이런 비전을 제시한 셈이다. 즉 “차세대 AI 칩을 앞세워 다시 시장 돌풍을 주도하고 AMD 등 후발주자를 견제하기 위한 것”이란 관측이다.

게임 이론, 확률론, 정보 이론 등을 확립한 20세기 미국인 수학자 데이빗 해럴드 블랙웰의 이름을 딴 ‘블랙웰’은 그런 비전의 시발점이다. 엔비디아의 주요 고객들인 아마존, 알파벳, 구글, 메타, 마이크로소프트, 오픈AI, 테슬라 등이 이미 이를 사용할 것으로 예상되고 있다.

차세대 AI칩 블랙웰은 가히 경이로울 정도다. 엔비디아 소개에 따르면 프로세서를 작동하는 AI칩 아키텍처로서 블랙웰을 기반으로 한 GPU B100, B200가 선보였다. 그 중 B200은 고대역폭메모리(HBM) 메모리를 강화한 버전이다.

블랙웰은 무려 2,080억개 트랜지스터로서 800억개인 H100을 압도한다. 이는 두 개의 GPU를 연결해 하나의 GPU처럼 구성한다. 특히 이를 적용한 제품으로 엔비디아 ‘GB200’ 그레이스 블랙웰 슈퍼칩도 있다. 이는 B200 2개와 엔비디아 그레이스 CPU를 연결한 슈퍼칩 이다. 전문가들은 “다만 현재 기술로는 이렇게 많은 트랜지스터를 칩 1개에 다 넣을 수는 없어, 내부적으로 두 개의 GPU를 연결해 하나의 칩처럼 작동하게 하는 방식을 선택했다”고 전한다.

성능도 놀랍다. B100은 전작인 H100에 비해 연산 속도가 2.5배이며, GB200은 H100의 최대 30배나 된다. 비용이나 에너지 소비량 또한 1/25 수준이다. 또 최대 10조개의 파라미터까지 확장되는 모델이 되도록 AI 훈련과 LLM 추론을 지원한다.

블랙웰 ‘경이로운 성능과 구조’…약 5만달러 추정

2024년 하반기에 출시될 것으로 보이며, H100이 칩 당 2만 5,000달러~4만 달러인데 비해, 블랙웰 기반 칩은 5만 달러(약 6,675만 원)로 예상된다.

이는 아마존, 오라클, 테슬라, 오픈AI, 구글, 메타, 마이크로소프트, 델 테크놀로지 등이 이를 도입할 예정이다.

그 중 아마존웹서비스는 B200 블랙웰 GPU 2개와, ARM 기반 그레이스(Grace) CPU 1개를 결합한 GB200을 서버 클러스터에 구축할 것으로 알려졌다. 또 인텔 제온·AMD 에픽 등 기존 x86 기반 프로세서를 활용할 수 있는 가속기인 HGX B200도 출시할 예정이다. 그중 HGX B200는 B200 텐서코어 GPU를 8개 내장했고, 엔비디아 퀀텀2 이더넷 네트워크를 이용해 초당 최대 400Gbps로 데이터를 전송하는 수준이다.

현재의 H100을 사용할 경우 GPT 훈련에는 8,000개 GPU를 써서 90일이 필요하다. 그러나 블랙웰 기반 B100의 경우엔 같은 기간에 단 2,000개의 GPU만 있으면 된다. 전력 역시 H100은 15MW(메가와츠)에 달하지만, B100은 4MW로 크게 절감된다.

엔비디아는 B200 2개에 자체 중앙처리장치(CPU) 그레이스를 포함한 ‘GB200’을 하나의 ‘슈퍼칩’으로 보고, 이를 36개 쌓아서 데이터 전송 속도 등을 최적화한 하나의 시스템(GB200 NVL72)으로 출시할 계획이다.

즉 “AI 시대의 대규모 연산을 위해 블랙웰 칩을 겹겹히 쌓은 하나의 ‘슈퍼컴퓨터’ 형태로 판매한다”는 구상이다. 이는 “단순 GPU로 비교했을 때보다 시스템 최적화를 했을 때 연산 속도 등 모든 성능이 전작에 비해 월등히 좋아진다”는 것이다.

특히 ‘AI종합 플랫폼’ 기업을 지향하는 엔비디아는 ‘소프트웨어 구독 서비스’에 ‘NIM’(Nvidia Inference Microservice)을 추가했다. “추론이나 AI 소프트웨어 실행 프로세스에 구형 GPU를 더 쉽게 사용할 수 있게 한다”는 취지다.

기존 빅테크처럼 사전 훈련된 모델과 SW 제공

가장 눈에 띄는 점은 AI를 도입하려는 고객에게 엔비디아의 사전 훈련된 모델과 소프트웨어를 제공하기로 한 점이다. 엔비디아의 주력 제품은 GPU다. 그 동안 소프트웨어는 그저 GPU의 보조 제품 정도였으나, 앞으로 소프트웨어 자체만으로 주요 제품이 된다는 얘기다. 그래서 이번에 NIM 추론 마이크로서비스와, 쿠다-X 마이크로서비스 등 새로운 소프트웨어에서 엔비디아 GPU 프로그램을 더 쉽게 실행하고 AI 구축과 배포에 적합하게 한다는 취지다.

특히 구독서비스에 추가된 ‘NIM’ 추론 마이크로 서비스는 텐서 RT-LLM이 포함되어 있다. 이는 AI 모델 배포를 표준화하기 위한 트리톤 추론 서버와 대규모 언어 모델을 최적화하고 정의하는 데 도움이 된다. 기업으로선 굳이 C++나 CUDA를 사용하지 않고도 LLM을 쉽게 실험할 수 있는 것이다.

또한 NIM 추론 마이크로서비스는 아마존 세이지메이커, 구글 쿠버네티스 엔진, 마이크로소프트 애저 AI를 통해서도 접근할 수 있다. 또 딥셋, 랭체인, 라마인덱스와 같은 ‘AI 프레임워크’와도 통합할 수 있다.

이에 비해 ‘쿠다-X 마이크로서비스’는 데이터 준비와 모델 훈련에 한층 비중을 두고 있다. 생성AI 앱을 숫자 정보, 텍스트, 이미지 등 비즈니스 데이터에 연결할 수 있는 도구를 지원하는 것이다. 이는 또한 맞춤형 음성이나 번역 AI에 특화된 ‘엔비디아 리바(Riva)’, 그리고 라우팅 최적화를 위한 ‘엔비디아 cuOpt’, 고해상도 기후 및 날씨 시뮬레이션을 위한 ‘엔비디아 어스-2(Earth-2)’ 등의 서비스를 사용할 수 있다.

휴머노이드 프로젝트 ‘그루트’ 등 출시

‘AI종합플랫폼’ 기업을 지향하기 위해 엔비디아는 특히 인간을 닮은 휴머노이드 AI테크놀로지 기술에 매진할 계획이다. 이번에는 로봇 훈련 플랫폼 프로젝트인 ‘그루트(GROOT)’)를 선보였다. ‘그루트’는 인간과 같이 다양한 작업이 가능한 ‘범용로봇기술(Generalist Robot Tech)’을 뜻한다.

이는 “AI 로봇 설계와 구동 시뮬레이션을 지원하는 클라우드 플랫폼부터 로봇 내에서 AI 연산을 자체 처리할 저전력 전용 칩셋 ‘젯슨토르’를 아우르는 프로젝트”라는 설명이다. SoC인 ‘젯슨토르’에는 블랙웰이 탑재되어 있다. 젯슨 토르는 복잡한 작업을 수행하고 사람 및 기계와 안전하고 자연스럽게 상호작용하도록 모듈식 아키텍처다. “800테라플롭스(TFLOPS)의 AI 성능을 제공하는 변압기 엔진과 차세대 GPU인 '블랙웰'(Blackwell)이 포함되어 있다”는 설명이다.

전윤미 기자 jym0538@naver.com

다른기사 보기

상단영역

본문영역