국내기업들도 기술경쟁 활발, LG, 네이버, 카카오 등이 주도
LG ‘엑사원 2.0’ 개발, 해외진출도, 네이버 ‘클로바X’에 멀티모달 기능 추가
카카오, ‘허니비’․‘칼로’ 등 개발, 업계 “가장 큰 북미시장 공략 필요”

달-e 이미지. (사진=오픈AI)
달-e 이미지. (사진=오픈AI)

[애플경제 전윤미 기자] 한국기업들도 글로벌 빅테크 못지않게 멀티모달AI 기술에 매진하고 있다. 그 중엔 자사 검색·서비스 등에 멀티모달AI 기술을 적용하는 경우도 늘어나고 있다.

특히 LG, 네이버, 카카오, SKT 등 주요 기업들이 이를 선도하며, 멀티모달 AI 서비스 개발에 앞장서고 있다.

(사진=LG전자)
(사진=LG전자)

엑사원 2.0, ‘3억5천만장 이미지’

LG는 언어와 이미지 간의 양방향 생성이 가능한 멀티모달 모델 ‘엑사원 2.0’을 개발한 바 있다. 최근엔 해외 진출도 본격화하고 있다.

엑사원 2.0은 사용자 질문에 대한 답변은 물론, 이미지 생성과 이미지 이해에 특화된 기능을 제공한다. 특허와 논문 등 약 4,500만 건의 전문 문헌과 3억 5,000만 장의 이미지를 학습, 언어와 이미지의 양방향 생성이 가능하다.

지난 2023년 LG전자 AI컨택센터, LG생활건강 ‘K-뷰티’ 제품 디자인 등에도 ‘엑사원 2.0’을 적용했다. 그 후 올해 들어선 ‘엑사원 2.0’이 해외의 각종 산업에서도 활용이 가능할 것으로 보고 적극 시장 공략에 나섰다. 바이오를 비롯한 금융, 특허, 학술, 공공, SW 개발, 제조 관련한 해외 파트너사들과 협력, 엑사원을 적극 보급한다는 계획이다.

네이버 클로바X. (사진=네이버)
네이버 클로바X. (사진=네이버)

네이버, 음성·이미지 코딩 생성 ‘멀티모달’ 계획

네이버도 멀티모달 AI 기술 경쟁에 적극 뛰어들었다. 멀티모달 AI 서비스 ‘옴니서치’를 적용할 제품을 지속적으로 확대하고 있다. 특히 ‘클로바X’에 ‘이미지 멀티 모달’ 기능을 추가함으로써 다양성을 늘리고 있다.

특히 네이버는 AI 기술, 쇼핑 검색, 양질의 상품 데이터베이스(DB)와 옴니서치 서비스를 결합, 멀티모달AI를 적용할 제품군을 지속적으로 확대하고 있다. 이를 통해 맞춤형 검색 결과 서비스를 고도화하고 있다.

또한 ‘클로바X’에 텍스트와 이미지 등을 조합해서 결과물을 내놓는 ‘이미지 멀티모달 기능’을 추가하고 있다. 이를 계기로 앞으로 텍스트뿐만 아니라 음성·이미지 코딩까지 생성하는 멀티모달로 진화시킬 계획이다.

카카오 '칼로' (사진=카카오)
카카오 '칼로' (사진=카카오)

카카오, 칼로 ‘텍스트 3억장’, 허니비 ‘벤치마크서 탁월한 성능 과시’

카카오도 이미지 생성 웹 서비스 ‘칼로(Karlo)’를 지난해 7월 발표했다. 또 지난 1월에는 멀티모달 언어모델 오픈소스 ‘허니비(Honeybee)’를 ‘깃허브’에 공개했다.

그 중 ‘칼로’는 이미지의 공간감과 입체감, 세밀함을 더해 실사에 가까운 고품질 이미지를 그릴 수 있다. 텍스트 규모만 3억장에 달한다.

이는 또 이미지 데이터셋을 학습하여 복잡한 프롬프트(명령어)를 입력해도 명확히 이해할 수 있는 수준이다. 또한, 해상도 역시 뛰어나서, 최대 2048x2048에 달한다.

“생성 이미지의 해상도가 높을수록 다양한 이미지 사이즈로 작업이 가능한 만큼, 사용자는 표현하고자 하는 이미지를 보다 심도있고 섬세하게 작업할 수 있다”는 설명이다.

‘허니비’는 이미지와 텍스트를 모두 입력할 수 있다. 이는 이미지에 담긴 장면을 묘사하거나 이미지와 텍스트가 혼합된 콘텐츠에 관한 질문을 이해하고 답변할 수 있어서, 각종 서비스에 적용할 것으로 알려졌다.

특히 허니비는 ‘MME’, ‘MMBench’, ‘SEED-Bench’ 등 벤치마크(성능 실험)에서 모델이 공개된 타사 MLLM(Multimodal Large Language Model)에 비해 최고 성능을 과시하기도 했다는 후문이다. 카카오는 “특히 지각 능력과 인지 능력을 평가하는 MME 벤치마크에서는 2,800점 만점 중 1,977점을 획득해했다”고 전하기도 했다.

과기정통부, 멀티모달 데이터 본격 구축

정부 차원의 정책적 시도도 적극적이다. 과기정통부도 ‘인공지능 데이터 융합 네트워크’ 회의를 통해 멀티모달 데이터를 본격적으로 구축하고, 국내 생성형 AI 모델과 서비스 고도화를 지원하겠다고 발표한 바 있다.

정부는 “생성AI 트렌드에 맞춰 올해는 텍스트, 음성, 이미지, 영상 등 다양한 유형의 데이터가 결합한 멀티모달 데이터를 본격적으로 구축, 국내 생성형 인공지능 모델 및 서비스 고도화를 지원할 예정”이라고 밝혔다.

이를 위해 △법률 △의료 △행정사무 △교육 △미디어 콘텐츠 △제조·로보틱스 △교통·물류 △국방 △재난·안전·환경 △농림축수산 등 10대 전략 분야에서 70종의 데이터를 연내 구축할 방침이다.

한편, ‘마켓 & 마켓’에 따르면 글로벌 멀티모달 AI 시장은 2023년 10억 달러에서 연평균 성장률(CAGR) 35.0%로 2028년에는 45억 달러로 성장할 전망이다. 업계에선 또한 “구글·마이크로소프트·오픈AI·메타·AWS 등 주요 멀티모달 AI 서비스 제공 업체가 북미에 자리 잡은 만큼, 북미가 가장 큰 멀티모달 AI 시장이 될 것”으로 예상하고 있다.

저작권자 © 애플경제 무단전재 및 재배포 금지