MoBERT 기반 ‘사전학습, 기계독해, 텍스트분류, 어구인식, 정답근거인식’ 등
국내 기술진 개발, “글로벌 생성AI 경쟁 치열, ‘한국어 최적화’에 큰 의미”
한국어 의미 분석, 지식 저장, 빅데이트 분석, RAG 기반 뉴럴검색 등 활용

'국제인공지능대전'에 출품한 업체의 부스로서, 본문과는 관련이 없음.
'국제인공지능대전'에 출품한 업체의 부스로서, 본문과는 관련이 없음.

[애플경제 이윤순 기자]  한국어에 최적화된 언어이해 모델(MoBERT) 및 응용 기술이 개발되어 관심을 끈다. 기계 독해, 텍스트 분류, 패러프레이즈 인식, 단락 재순위화, 정답근거 인식 등을 포괄한 기술이다. 국제적으로 생성AI 경쟁이 치열한 가운데, 특히 한국어에 최적화된 모델과 기술이란 점에서 특히 의미를 부여받고 있다.

한국전자통신연구원과 정보통신기획평가원에 따르면 이는 한국어의 특성을 고려, 의미의 최소 단위인 형태소(Morpheme)를 기반으로 한국어 텍스트로부터 최적화된 문맥정보를 이용한 것이다. 이를 사전학습한 언어이해 모델과 사전학습 기술, 한국어의 이해와 관련된 다양한 응용 기술들을 개발했다.

보통 ‘자연어 처리 기술’은 언어이해와 언어생성 기술로 구분된다. 이번 기술은 그 중에서 ‘언어이해’ 분야에 속한다. 이에 비해 최근 각광을 받고 있는 LLM(Large language model)은 ‘언어생성’ 분야에 해당한다. 특히 “모델 크기는 LLM보다 매우 작지만, LLM에 비해 저비용으로 빠르고 정확한 결과를 제공할 수 있어서, 언어이해와 관련된 다양한 응용분야에서 활용할 수 있다”는 설명이다.

또 ‘MoBERT 사전학습 기술’을 통해 한국어 텍스트를 대상으로 사전학습을 함으로써 언어이해 모델을 구축했다. 특정분야의 데이터를 대상으로 새로운 언어이해 모델을 구축하거나, 학습되지 않은 신규 데이터를 추가해 연장학습을 함으로써 기존 모델의 성능을 개선했다. 이로 인해 응용분야에 최적화된 언어이해 모델을 구축할 수 있었다는 얘기다.

이 기술은 또 ‘MoBERT 기반 기계 독해 기술’을 통해 질문과 단락이 주어졌을 때 정답을 추론하도록 했다. 이는 사용자의 질문에 정답을 제공하는 질의응답 기술의 핵심기술이기도 하다.

‘MoBERT’ 기반의 핵심 기술 요소들

‘MoBERT 기반 텍스트 분류 기술’을 통해 텍스트 데이터를 입력받아 이미 정의된 범주(카테고리, 클래스, 라벨 등) 중 어디에 속하는지 분류할 수 있게 했다. 전자통신연구원은 “이는 자연어 처리에서 가장 많이 사용되는 ‘감정분류’나, ‘스팸분류’의 일종으로서 활용 가치가 매우 높다”고 했다.

‘MoBERT 기반 패러프레이즈 인식 기술’도 포함된다. 이를 통해 두 문장 사이의 의미 동등성 관계를 파악해 그 유사도를 인식할 수 있다. 두 문장의 동등성 여부를 결정하는 ‘이진 유사도’를 인식하는 것이다. 특히, “‘적대적 예제’에도 강건한 성능을 보일 수 있는 ‘목적 분리형 협동 학습(target-disentangled joint learing)’ 기술도 적용했다.

또한 이 기술은 ‘MoBERT 기반 단락 재순위화’를 통해 텍스트 검색 결과에서 단락의 순위를 재조정했다. “이를 통해 일반 검색기능보다 정확도가 높기 때문에 질의응답 및 검색시스템, RAG와 같은 환경에서 필수 기술로 사용된다”는 것이다.

‘MoBERT 기반 단락 정답 근거 인식 기술’도 눈길을 끈다. 이는 질문과 단락이 주어졌을 때 정답에 대한 근거가 될 수 있는 문장들을 인식하는 기술이다.

이에 “한국어에 최적화된 언어이해 모델을 기반으로, 다수의 언어이해 응용 태스크에서 한국어 최고 수준의 성능을 보였다”면서 “범용적인 도메인에서 쉽게 적용할 수 있도록 미세조정(Fine-tuning) 기술을 적용해 다양한 산업 분야의 기반 기술로 활용 가치가 높다”고 소개했다.

한국어 최적화 MoBERT 기술의 세부적 특징

이 기술을 좀 더 세부적으로 보면 또 다른 특징으로 구분할 수 있다. 우선 ‘한국어 언어이해 모델(MoBERT)’은 의미의 최소 단위인 형태소(MorphemPeiece) 기반으로 문맥정보를 학습함으로써 한국어에 최적화된 모델이다. 또 다양한 한국어 이해 태스크에 최고 수준의 성능과 함께 범용적으로 활용 가능한 모델이다,

‘MoBERT 사전학습 기술’은 교착어인 한국어의 특성을 고려, 내용어와 기능어를 분리하는 형태소 기반의 어휘사전을 구축한 것이다. 또 구글의 자연어 처리 모델 ‘BERT’의 단점을 개선한 ‘RoBERTa’ 아키텍처 기반으로 전체단어를 마스킹하거나, 마스킹 비율을 상향하고, 텍스트의 바이너리를 변환하는 등 최적화를 통한 빠르고 효율적인 사전학습을 가능하게 했다.

‘MoBERT 기반 기계 독해 성능은 한국어를 대상으로 한 최고 수준의 기계독해 성능을 과시했다는 설명이다. 즉, 한국어 기계독해 챌린지 ’KorQuAD 1.0‘에서 F1 95.92로 2위(2024년 2월 기준)를 차지했다. 이는 “형태소 분할과, 분할된 형태소의 어절 복원을 통해 정답의 시작과 끝 영역을 결정하는 한국어에 최적화된 기계 독해 기술”이다.

또 ‘MoBERT 기반 텍스트 분류’ 기술은 한국어 텍스트 분류 기술의 평가에 널리 사용되는 네이버의 ‘NSMC’(Naver sentiment movie corpus v1.0) 개발 세트를 대상으로 한, 최고 수준의 성능(정확도 92.45%)을 과시했다. 소량 학습데이터인 경우, 형태소 분할 데이터 증강을 통한 분류 성능을 개선할 수도 있다.

‘MoBERT 기반 패러프레이즈 인식 기술’도 눈길을 끈다. 이는 “두 문장에 나타나는 동일 어휘의 인식을 넘어선 패러프레이즈 인식을 기반으로 문장 유사도를 예측할 수 있는 기술”이란 설명이다. 또한 패러프레이즈 인식을 위해 별도의 유의어나, 유의어구 사전이 필요하지 않다. 서로 다른 의미를 인식하기 위해 굳이 반의어나 반의어구 사전도 필요하지 않다. “특히, 적대적 예제를 포함한 패러프레이즈 표현도 인식할 수 있다”고 한다.

‘MoBERT 기반 단락 재순위화 기술’은 질문-단락 집합 쌍을 사용, 크로스 인코딩과, 추정 손실 기반의 재순위화 모델을 학습한 것이다. 이는 단락 집합의 상대적 관계를 고려, 스코어를 재측정하거나, 랭킹을 산정하는 단락 재순위화 모델이다.

또 ‘MoBERT 기반 단락 정답 근거 인식 기술’은 인식된 ‘근거 문장’만으로 단락을 재구성하고, 기계독해 등의 태스크를 수행하면 성능이 향상되도록 한 기술이다. 이는 단락 내에 질문에 대한 정답이 포함되어 있는지를 판단하는 기능이기도 하다.

전자통신연구원은 “이 기술은 빅데이터 분석 시스템 등의 응용분야의 원천기술로 적용할 수 있고, 한국어 리소스의 언어와 의미 분석, 지식 저장에 활용될 수 있다”면서 “또한 지능형 정보 검색과 자연어 질의응답, 그리고 챗봇을 통한 텍스트 분석, 마이닝 기술에도 유용하다”고 소개했다.

특히 “‘RAG’(검색증강생성, Retrieval Augmented Generation)을 구성할 경우 뉴럴 검색, 근거 분류, 근거 인식 등의 기술로도 활용될 수 있다”고 덧붙였다.

저작권자 © 애플경제 무단전재 및 재배포 금지