모델명 판구-알파(PanGu-α), 미 GPT-3보다 많은 2000억개 파라미터 가져
80TB 분량 언어데이터 수집했지만 토큰 수 GPT-3보다 적어
벤처비트, "품질이 뛰어나지 않다"는 미국 내 평가 전해
한국, 네이버·SK텔레콤 등서 앞다퉈 한국판 언어모델 개발 중

(사진=셔터스톡).
(사진=셔터스톡).

중국 통신장비업체 화웨이가 GPT-3를 능가하는 대규모 자연어처리(NLP) 모델을 개발했다. 화웨이 연구팀이 개발한 이 모델은 기존 GPT-3가 영어에만 특화된 NLP라는 단점을 보완할 뿐 아니라 더 많은 데이터세트와 매개변수(파라미터)로 탄생해 관심이 모아지고 있다. 더불어 한국 등 비영어권 IT 강국 내 자체 NLP 모델 개발에도 속도가 붙을 전망이다.

화웨이 연구진은 지난 26일(현지시간) 아카이브(arXiv)에 관련 논문을 게재했다. 이들이 개발한 NLP 모델의 이름은 판구-알파(PanGu-α). 논문에 따르면 판구-알파는 1.1테라바이트(TB) 분량의 중국어 전자책, 백과사전, 뉴스, 소셜미디어 게시글, 웹페이지에서 추출한 언어를 학습했다. 용량은 750기가바이트(GB), 파라미터는 2000억개를 보유했다.

연구진이 가장 강조하는 부분은 판구-알파의 파라미터다. GPT-3보다 2500만개 더 많다. 때문에 이들은 판구-알파가 까다로운 중국어로 텍스트 요약은 물론 질문·답변에 뛰어나고, 다양한 대화 생성에 우수한 성능을 자랑한다고 밝혔다. 앞으로 화웨이는 판구-알파의 코드·데이터세트를 공개하는 등 API를 통해 비영리 연구기관이나 타 기업들이 판구-알파에 접근할 수 있는 방법을 찾을 예정이다.

판구-알파는 레이블이 없는 텍스트에서 사전 학습한 다음, 이후 작업에 맞게 미세 조정되는 과정을 거쳤다. 지난해 오픈AI가 GPT-3를 개발한 방법과 유사하다.

연구진은 화웨이의 AI 컴퓨팅 프레임워크 ‘마인드스포어’와 AI프로세서 ‘어센드910’ 2048개로 구성된 클러스터에서 각각 256테라플롭스(TF)의 컴퓨팅 성능을 제공하도록 판구-알파를 훈련시켰다. 마인드스포어와 어센드910은 지난 2019년 화웨이가 출시한 것들이다.

판구-알파에 정확한 데이터세트를 구축하기 위해 연구진은 각종 80TB 분량의 언어 데이터를 수집했다. 이후 필터링 과정을 거쳐 보편적으로 쓰이지 않는 한자 수를 60%까지 줄였다. 또 중국어 간체와 번체 변환을 거듭해 불쾌감을 자아내는 저급한 단어 724개를 삭제했다.

미 기술전문매체 벤처비트는 GPT-3와 판구-알파 사이 가장 큰 차이가 텍스트 토큰화(Text Tokenization)에 있다고 평가했다. 토큰화란 NLP 모델 개발 시 텍스트 전처리 과정 중 하나를 일컫는다. 단어로 구분하기 어려운 말뭉치(Corpus)나 쉼표, 물음표 등 문장기호를 모두 뺀 단어만을 분류하는 작업을 뜻한다. 세밀한 문장구조일수록 어려운 작업이다.

GPT-3는 4990억 토큰을 훈련했다. 이에 반해 판구-알파가 훈련한 토큰 수는 400억 뿐이다. 화웨이 연구진은 논문에서 상대적으로 토큰화가 적은 이유에 대해 “중국어 특성상 예문을 세밀하게 조정하지 않고도 고어체로 옛 시를 만들어 내는 등 이미 그 우수성을 발견했기 때문”이라고 밝혔다.

그러나 벤처비트는 “학습훈련 횟수가 적다는 것은 그만큼 향후 발생할 오류를 예상케 한다”며 한 포커스 그룹 내 10%가 판구-알파를 두고 “품질이 뛰어나지 않다”고 평가한 예를 들었다. 또 실험과정에서 판구-알파가 창작한 소설이나 대화가 주제와 관련이 없거나 비논리적인 문장을 반복한 사례도 있었다고 보도했다.

데이터 과학자이자 코넬대 자연어처리 연구원이기도 한 마리아 안토니악은 “판구-알파 등장은 GPT-3처럼 인간에게 유익한 동시에 위협을 가할 존재로 보여진다”고 말했다. 그는 “화웨이는 이제 거대한 NLP 데이터세트를 구축함으로써 영어모델과 유사한 규모의 중국어 모델을 훈련할 수 있다”며 “이는 굉장히 흥미로운 발전으로, 이처럼 대규모 언어모델을 중국어로 만들어낼 수 있다는 것은 공학적 최대 성과”라고 평했다.

‘GPT-3 한국어버전’ 개발상황은…?

국내에서도 한국판 GPT-3 필요성에 대한 목소리가 커지고 있다. 가장 개발에 앞장서고 있는 기업은 네이버. 하정우 네이버 AI연구소장은 지난 3월 한국통신학회가 개최한 ‘2021 ICT 컨버전스 코리아’에서 “현재 인터넷상 언어 중 영어가 60% 정도인데, GPT-3가 사용한 데이터에서는 92.7%에 달한다”며 한국어 기반 대규모 AI 모델 개발의 중요성에 대해 강조했다.

네이버는 먼저 대규모 NLP 구축에 필요한 컴퓨팅 인프라를 충분히 확보해둔 상태다. 이날 하 소장은 “대용량 데이터를 돌릴 수 있는 슈퍼 컴퓨팅 인프라를 확보 완료했다”며 머지않아 NLP 모델 구축 상황을 공개하겠다고 밝혔다.

SK텔레콤도 국립국어원과 협업해 한국어판 GPT-3 개발에 뛰어들었다. 이들은 지난달 7일 업무협약을 체결하고 한국어에 적합한 차세대 AI 언어 모델을 함께 개발하기로 뜻을 모았다. 대형마트 내 고객센터에서 응대를 비롯해 문학, 역사, 게임, 시사 등 다양한 분야에 적용가능한 범용언어모델(GLM)을 만드는 것이 목표다.

2018년 언어모델 개발을 시작한 SK텔레콤은 2019년부터 한국어 언어 모델 코버트(KoBERT)와 KoGPT-2를 개발해 챗봇 서비스와 음성 상담에 적용했다. 또 지난해 10월에는 기존보다 텍스트 처리용량을 높여 문서요약에 강점을 둔 코바트(KoBART)를 출시하기도 했다. 올 연말까지 GLM을 개발, 내부적으로 성능을 검증하겠다는 목표다.

AI타임스 박혜섭 기자 phs@aitimes.com

 

[관련기사] SKT, 국립국어원과 AI한국어 모델 'GLM' 개발 협력한다

[관련기사] 네이버 하정우 AI 연구소장 “한국어판 GPT-3 청사진 4월 공개”

키워드 관련기사
  • 과기정통부, 2021년 인공지능 온라인 경진대회 6월 21일 개최
  • 파이썬, 자바 꺾고 2위 등극 ...5월 TIOBE 지수 공개
  • ML의 한계, 이제 글롬(GLOM)을 주목하라! ...제프리 힌튼의 새로운 도전