심층 인공 신경망(DNN)과 스파이킹 뉴럴 네트워크(SNN) 상호 보완
GPT-2 거대 모델 파라미터 3분의1 이하로, 전력 70% 절약, 0.4초 초고속 구현
카이스트 등 개발, “뉴로모픽 컴퓨팅 정확도, CNN과 동일 수준 구현”

인공지능 이미지. (사진=게티 이미지)
인공지능 이미지. (사진=게티 이미지)

[애플경제 이윤순 기자] 생물학적 뇌 기능에 매우 가까운 스파이킹 뉴럴 네트워크(SNN)과 심층 인공신경망(DNN)을 기반으로 한 ‘트랜스포머’ 기술이 국내에서 새로 개발되었다.

6일 카이스트 PIM반도체 연구센터와 인공지능반도체 대학원 유회준 교수 연구팀은 이같은 기능의 인공지능 반도체인 ‘상보형-트랜스포머(Complementary-Transformer)’를 삼성 28나노 공정을 통해 세계 최초로 개발했다고 밝혔다. 이는 특히 “400밀리와트 초저전력이면 충분하며, 이를 통해 0.4초 초고속으로 거대 언어 모델을 처리할 수 있다”는 설명이다.

GPT 등 거대 언어 모델(LLM)은 다량의 GPU와 250와트의 많은 전력이 필요하다. 그러나 연구팀은 “4.5mm x 4.5mm의 한 개의 작은 AI 반도체 칩에서 초저전력으로 구현할 수 있게 되었다”고 발표했다.

이는 특히 인간 뇌의 동작을 모사하는 뉴로모픽 컴퓨팅 기술인 ‘스파이킹 뉴럴 네트워크(SNN)’을 활용, 트랜스포머 동작을 구현했다. SNN은 뇌의 뉴런이 시간에 따른 신호, 즉 ‘스파이크’를 사용해 정보를 처리하는 방식을 따온 것이다. 이는 “생물학적 뇌의 작동 방식에 가까워 에너지 효율이 높고, 실시간 처리와 복잡한 시계열 데이터 분석에 적합하다”는 설명이다.

단순 이미지 분류 넘어 다양한 분야에 적용

특히 기존 뉴로모픽 컴퓨팅 기술은 합성곱신경망(CNN) 기술에 비해 부정확하며, 간단한 이미지 분류 작업만 가능하다는 지적이다. 이에 연구팀은 뉴로모픽 컴퓨팅 기술의 정확도를 CNN과 동일 수준으로 끌어올렸다. 또한 단순 이미지 분류를 넘어 다양한 응용 분야에 적용할 수 있는 ‘상보형-심층신경망’(C-DNN, Complementary-DNN) 기술을 개발했다.

참고로 CNN 기술운 심층인공신경망 기술로서, 이미지 인식, 비디오 분석, 이미지 분류와 같은 시각적 데이터 처리에 사용되는 딥러닝 모델이다. 여러 인공 신경망 계층을 통해 이미지의 특징을 추출하고, 이를 분류하거나 인식하는 데 사용된다.

이같은 ‘상보형 심층신경망’ 기술은 이미 2023년 2월에 개최된 국제고체회로설계학회(ISSCC)에서 이번 연구의 제1저자인 김상엽 박사가 발표한 바 있다. 이는 심층 인공 신경망(DNN)과 SNN 기술을 혼합, 사용한 것이다. 입력 데이터들을 크기에 따라 서로 다른 신경망에 할당해 전력을 최소화할 수 있는 기술이기도 하다.

생각할게 많거나 적을 때 에너지량 달라지는 ‘뇌’ 원리 차용

연구팀은 “사람의 뇌가 생각할 것이 많을 때 에너지 소모가 많고, 생각할 것이 적을 때 에너지 소모가 적은 것과 마찬가지로, 뇌를 모방한 SNN기술은 입력값의 크기가 클 때는 전력을 많이 소모하고 입력값의 크기가 작을 때에는 전력을 적게 소모한다.”고 쉽게 설명했다.

이에 기존 연구에서는 이러한 특징을 활용해 작은 입력값들만을 스파이킹 뉴럴 네트워크(SNN)에 할당했다. 대신 큰 값들은 심층 인공 신경망(DNN)에 할당해 전력 소모를 최소화 했다.

이에 “이번 연구는 기존의 상보형-심층신경망 기술을 LLM에 적용, 초저전력·고성능의 온디바이스 AI가 가능하다는 것을 실제로 입증한 것”이라며 “그동안 이론적인 연구에만 머물렀던 연구내용을 세계 최초로 인공지능반도체 형태로 구현한 것에 의의가 있다”고 평가했다.

여기에 적용된 심층인공신경망(DNN)기술은 여러 신경망 층으로 구성되어 복잡한 패턴을 인식하고 학습할 수 있는 AI모델이다. 추상적인 특성을 계층적으로 학습하는 딥러닝에 사용된다.

특히, 연구팀은 “뉴로모픽 컴퓨팅의 실용화를 위해 문장 생성, 번역, 요약 등과 같은 고도의 언어 처리 작업을 성공적으로 수행할 수 있는지를 연구했다”면서 “그 과정에서 가장 큰 관건은 뉴로모픽 네트워크에서 높은 정확도를 달성하는 것이었다”고 전했다.

 (사진=SK텔레콤)
 (사진=SK텔레콤)

본래 뉴로모픽 시스템은 에너지 효율은 높지만 학습 알고리즘의 한계로 인해 복잡한 작업을 수행할 때 정확도가 떨어지는 경향이 있다. 그 때문에 LLM 등 높은 정밀도와 성능이 요구되는 작업에서 큰 장애 요소로 작용했다. “이러한 문제를 해결하기 위해 독창적인 DNN-to-SNN 등가변환기법을 개발, 적용했다”는 것이다.

이는 기존의 심층 인공 신경망(DNN) 구조를 스파이킹 뉴럴 네트워크(SNN)로 변환하는 방법이다. 그 정확도를 더욱 끌어올리기 위해 스파이크의 발생 문턱값을 정밀 제어한 것이다. 이를 통해 “스파이킹 뉴럴 네트워크(SNN)의 에너지 효율성을 유지하면서도 심층 인공 신경망(DNN) 수준의 정확도를 달성할 수 있었다”는 설명이다.

기존 LLM반도체보다 우수산 4가지 특징

연구팀은 “이번 연구를 통해 개발한 인공지능반도체용 하드웨어 유닛은 기존 LLM 반도체 및 뉴로모픽 컴퓨팅 반도체에 비해 4가지의 특징을 지닌다”고 소개했다.

우선 심층 인공 신경망(DNN)과 스파이킹 뉴럴 네트워크(SNN)를 상호 보완하는 방식으로 융합한 독특한 신경망 아키텍처를 사용함으로써 정확도를 유지하면서도 연산 에너지 소모량을 최적화했다. 다음으로 DNN과 SNN를 상보적(Complementary)으로 활용, 효율적으로 신경망 연산을 처리할 수 있는 인공지능반도체용 통합 코어 구조를 개발한 점이다.

또한, 스파이킹 뉴럴 네트워크 처리에 소모되는 전력을 줄이기 위해 출력 스파이크 추측 유닛을 개발한 것도 특징이다. 이와 함께 LLM의 파라미터(매개변수_를 효과적으로 압축하기 위해 빅-리틀 네트워크(Big-Little Network) 구조와, 암시적 가중치 생성기법, 그리고 부호압축 등 3가지 기법을 사용한 것도 특기할 만한 사실이다.

이를 통해 GPT-2 거대(Large) 모델의 7억800만개에 달하는 파라미터를 1억9100만개로 줄였다. 또 번역을 위해 사용되는 T5 (Text–to-Text Transfer Transformer)모델의 4억200만개의 파라미터 역시 동일한 방식을 통해 7천600만개로 줄일 수 있었다.

이같은 ‘압축’을 통해 언어 모델의 파라미터를 외부 메모리로부터 불러오는 작업에 소모되는 전력을 약 70% 감소시킬 수 있게 되었다. 그 결과, ‘상보형-트랜스포머’는 전력 소모를 기존 엔비디아 A100에 비해 625분의 1만큼 줄이면서도, GPT-2 모델을 활용한 언어 생성에는 0.4초의 고속 동작이 가능하게 되었다. 또 T5 모델을 활용한 언어 번역에는 0.2초의 고속 동작이 가능하게 되었다.

여기서 ‘출력 스파이크 추측 유닛’은 스파이킹 뉴럴 네트워크의 각 뉴런이 발생시키는 출력 스파이크 패턴을 기반으로 이후에 발생할 스파이크 패턴을 예측하는 유닛이다. 즉, 예측을 통해 스파이크 출력을 위한 뉴런의 연산들이 생략되어 전력을 감소시킨다.

또 GPT-2 거대(Large) 모델은 엣지 디바이스에서 언어 생성을 위해 널리 사용되는 GPT-2 모델이다. 7억800만개의 파라미터를 가지며, 서버에서 주로 사용되는 15억개 파라미터의 GPT-2 초거대(XLarge) 모델의 절반 수준이다.

파라미터 축소, 경량화 불구, 높은 정확도 유지

이같은 파라미터 압축에도 불구하고, 정확도를 유지하기 위해 연구팀은 ‘경량화’ 정도에 따른 정확도 하락률을 반복 측정, 최적화했다. 그 결과 언어 생성의 경우 ‘1.2 분기계수’(perplexity)만큼 정확도가 감소했다. 그러나 이는 생성된 문장을 사람이 읽기에 어색함을 느끼지 않을 수준은 되는 것으로 알려졌다. ‘분기계수’는 언어모델의 생성 성능을 판단하기 위한 지표 중 하나로, 낮을수록 언어 모델이 잘 학습되었음을 의미한다.

이러한 특징을 바탕으로 연구팀은 “이번 연구 성과는 모바일 장치 등 에너지 제약이 높은 환경에서도 정확하게 거대 언어모델을 구동할 수 있어 온디바이스AI 구현을 위한 최적의 기술”이라고 밝혔다.

연구팀은 또 “이번 연구는 거대모델의 파라메타 수를 줄이는 데에만 집중된 최근 연구 트렌드와 달리, 파라미터 수 감소에 더해 초저전력 처리가 가능한 뉴로모픽 컴퓨팅을 거대언어 모델 처리에 적용해 에너지 효율을 극대화하였다는 점이 획기적”이라면서 “앞으로 뉴로모픽 컴퓨팅을 언어 모델에 국한하지 않고, 다양한 응용 분야로 연구범위를 확장할 것”이라고 전망했다.

저작권자 © 애플경제 무단전재 및 재배포 금지