화웨이, 중국판 GPT-3 개발‥ 현존 최대 파라미터 보유

모델명 판구-알파(PanGu-α), 미 GPT-3보다 많은 2000억개 파라미터 가져
80TB 분량 언어데이터 수집했지만 토큰 수 GPT-3보다 적어
벤처비트, "품질이 뛰어나지 않다"는 미국 내 평가 전해
한국, 네이버·SK텔레콤 등서 앞다퉈 한국판 언어모델 개발 중

중국 통신장비업체 화웨이가 GPT-3를 능가하는 대규모 자연어처리(NLP) 모델을 개발했다. 화웨이 연구팀이 개발한 이 모델은 기존 GPT-3가 영어에만 특화된 NLP라는 단점을 보완할 뿐 아니라 더 많은 데이터세트와 매개변수(파라미터)로 탄생해 관심이 모아지고 있다. 더불어 한국 등 비영어권 IT 강국 내 자체 NLP 모델 개발에도 속도가 붙을 전망이다.

화웨이 연구진은 지난 26일(현지시간) 아카이브(arXiv)에 관련 논문을 게재했다. 이들이 개발한 NLP 모델의 이름은 판구-알파(PanGu-α). 논문에 따르면 판구-알파는 1.1테라바이트(TB) 분량의 중국어 전자책, 백과사전, 뉴스, 소셜미디어 게시글, 웹페이지에서 추출한 언어를 학습했다. 용량은 750기가바이트(GB), 파라미터는 2000억개를 보유했다.

연구진이 가장 강조하는 부분은 판구-알파의 파라미터다. GPT-3보다 2500만개 더 많다. 때문에 이들은 판구-알파가 까다로운 중국어로 텍스트 요약은 물론 질문·답변에 뛰어나고, 다양한 대화 생성에 우수한 성능을 자랑한다고 밝혔다. 앞으로 화웨이는 판구-알파의 코드·데이터세트를 공개하는 등 API를 통해 비영리 연구기관이나 타 기업들이 판구-알파에 접근할 수 있는 방법을 찾을 예정이다.

판구-알파는 레이블이 없는 텍스트에서 사전 학습한 다음, 이후 작업에 맞게 미세 조정되는 과정을 거쳤다. 지난해 오픈AI가 GPT-3를 개발한 방법과 유사하다.

연구진은 화웨이의 AI 컴퓨팅 프레임워크 ‘마인드스포어’와 AI프로세서 ‘어센드910’ 2048개로 구성된 클러스터에서 각각 256테라플롭스(TF)의 컴퓨팅 성능을 제공하도록 판구-알파를 훈련시켰다. 마인드스포어와 어센드910은 지난 2019년 화웨이가 출시한 것들이다.

판구-알파에 정확한 데이터세트를 구축하기 위해 연구진은 각종 80TB 분량의 언어 데이터를 수집했다. 이후 필터링 과정을 거쳐 보편적으로 쓰이지 않는 한자 수를 60%까지 줄였다. 또 중국어 간체와 번체 변환을 거듭해 불쾌감을 자아내는 저급한 단어 724개를 삭제했다.

미 기술전문매체 벤처비트는 GPT-3와 판구-알파 사이 가장 큰 차이가 텍스트 토큰화(Text Tokenization)에 있다고 평가했다. 토큰화란 NLP 모델 개발 시 텍스트 전처리 과정 중 하나를 일컫는다. 단어로 구분하기 어려운 말뭉치(Corpus)나 쉼표, 물음표 등 문장기호를 모두 뺀 단어만을 분류하는 작업을 뜻한다. 세밀한 문장구조일수록 어려운 작업이다.

GPT-3는 4990억 토큰을 훈련했다. 이에 반해 판구-알파가 훈련한 토큰 수는 400억 뿐이다. 화웨이 연구진은 논문에서 상대적으로 토큰화가 적은 이유에 대해 “중국어 특성상 예문을 세밀하게 조정하지 않고도 고어체로 옛 시를 만들어 내는 등 이미 그 우수성을 발견했기 때문”이라고 밝혔다.

그러나 벤처비트는 “학습훈련 횟수가 적다는 것은 그만큼 향후 발생할 오류를 예상케 한다”며 한 포커스 그룹 내 10%가 판구-알파를 두고 “품질이 뛰어나지 않다”고 평가한 예를 들었다. 또 실험과정에서 판구-알파가 창작한 소설이나 대화가 주제와 관련이 없거나 비논리적인 문장을 반복한 사례도 있었다고 보도했다.

데이터 과학자이자 코넬대 자연어처리 연구원이기도 한 마리아 안토니악은 “판구-알파 등장은 GPT-3처럼 인간에게 유익한 동시에 위협을 가할 존재로 보여진다”고 말했다. 그는 “화웨이는 이제 거대한 NLP 데이터세트를 구축함으로써 영어모델과 유사한 규모의 중국어 모델을 훈련할 수 있다”며 “이는 굉장히 흥미로운 발전으로, 이처럼 대규모 언어모델을 중국어로 만들어낼 수 있다는 것은 공학적 최대 성과”라고 평했다.

◆ ‘GPT-3 한국어버전’ 개발상황은…?

국내에서도 한국판 GPT-3 필요성에 대한 목소리가 커지고 있다. 가장 개발에 앞장서고 있는 기업은 네이버. 하정우 네이버 AI연구소장은 지난 3월 한국통신학회가 개최한 ‘2021 ICT 컨버전스 코리아’에서 “현재 인터넷상 언어 중 영어가 60% 정도인데, GPT-3가 사용한 데이터에서는 92.7%에 달한다”며 한국어 기반 대규모 AI 모델 개발의 중요성에 대해 강조했다.

네이버는 먼저 대규모 NLP 구축에 필요한 컴퓨팅 인프라를 충분히 확보해둔 상태다. 이날 하 소장은 “대용량 데이터를 돌릴 수 있는 슈퍼 컴퓨팅 인프라를 확보 완료했다”며 머지않아 NLP 모델 구축 상황을 공개하겠다고 밝혔다.

SK텔레콤도 국립국어원과 협업해 한국어판 GPT-3 개발에 뛰어들었다. 이들은 지난달 7일 업무협약을 체결하고 한국어에 적합한 차세대 AI 언어 모델을 함께 개발하기로 뜻을 모았다. 대형마트 내 고객센터에서 응대를 비롯해 문학, 역사, 게임, 시사 등 다양한 분야에 적용가능한 범용언어모델(GLM)을 만드는 것이 목표다.

2018년 언어모델 개발을 시작한 SK텔레콤은 2019년부터 한국어 언어 모델 코버트(KoBERT)와 KoGPT-2를 개발해 챗봇 서비스와 음성 상담에 적용했다. 또 지난해 10월에는 기존보다 텍스트 처리용량을 높여 문서요약에 강점을 둔 코바트(KoBART)를 출시하기도 했다. 올 연말까지 GLM을 개발, 내부적으로 성능을 검증하겠다는 목표다.

AI타임스 박혜섭 기자 phs@aitimes.com

과기정통부, 2021년 인공지능 온라인 경진대회 6월 21일 개최

파이썬, 자바 꺾고 2위 등극 ...5월 TIOBE 지수 공개

ML의 한계, 이제 글롬(GLOM)을 주목하라! ...제프리 힌튼의 새로운 도전

박혜섭 기자 가슴은 20세기, 머리는 FUTURISTIC! phs@aitimes.com

다른기사 보기

상단영역

본문영역

SNS 기사보내기