200개 언어를 번역 가능한 오픈 소스 AI 모델 공개
500억 매개변수의 트랜스포머 기반 NLLB-200 출시
200개 언어 간 40,000개 조합으로 데이터 세트 구축
번역 품질은 평균 44% 향상, 아프리카어는 70% 향상

메타(Meta)가 200개 언어로 텍스트를 번역할 수 있는 인공지능(AI) 시스템인 NLLB-200을 출시했다.(사진=메타)
메타(Meta)가 200개 언어로 텍스트를 번역할 수 있는 인공지능(AI) 시스템인 NLLB-200을 출시했다.(사진=메타)

메타(Meta)가 200개 언어로 텍스트를 번역할 수 있는 인공지능(AI) 시스템인 NLLB-200을 출시했다. NLLB-200은 현재 기술을 더 넓은 범위의 언어로 액세스할 수 있도록 하며, 미래에는 가상 경험도 보다 쉽게 ​​액세스할 수 있도록 도와주게 된다.

점점 더 세계화되는 온라인 세계에서 효과적인 번역 도구를 사용하는 것은 국경, 문화 및 언어를 초월해 의사 소통하는 데 필수적이다. 영어 및 스페인어와 같은 언어를 위한 도구는 현재 상당히 발전되어 있지만 일반적으로 덜 사용되는 언어일수록 해당 언어의 원어민이 이러한 도구를 사용할 수 있는 가능성은 적다.

메타에 따르면 NLLB-200은 다른 AI 번역 시스템에서 잘 지원되지 않는 언어를 포함해 200개 언어를 번역할 수 있다. 현재 널리 사용되는 번역 도구가 지원하는 아프리카 언어가 25개 미만이라고 하는데, NLLB-200은 55개의 아프리카 언어를 지원한다.

마크 저커버그 메타 CEO는 “200개 언어를 번역할 수 있는 AI 모델을 오픈소스화했다”며 “그 중 상당수는 현재 번역 시스템에서 지원하지 않는다”고 말했다. 이어 "우리가 사용한 AI 모델링 기술은 전 세계 수십억 명이 사용하는 언어에 대한 고품질 번역을 만드는 데 도움이 된다"고 덧붙였다.

NLLB-200은 500억 개 이상의 매개변수를 제공한다. 일반적으로 AI 모델의 매개변수가 많을수록 정확도가 높아진다. 또한 메타는 기계 학습 연구를 지원하기 위해 레이저(LASER)라는 내부 개발 툴킷을 사용한다. 이 툴킷을 사용해 신경망을 훈련하고 한 가지 언어로 특정 작업을 수행한 다음 상대적으로 쉽게 신경망을 다른 언어에 적용할 수 있다. 메타는 레이저3(LASER3)라고 불리는 레이저의 개선된 버전으로 새로운 NLLB-200 시스템을 개발했다. 

레이저의 원래 버전에는 AI 시스템이 이해할 수 있는 수학적 표현으로 텍스트를 변환하는 LSTM(Long short-term memory) 신경망이 포함돼 있다. 이 수학적 표현은 보다 정확한 번역을 생성하는 데 도움이 된다. 레이저3에서 메타는 LSTM 신경망 대신 동일한 작업을 보다 효과적으로 수행할 수 있는 고급 자연어 처리 모델인 트랜스포머(Transformer)를 썼다. NLLB-200의 훈련을 위해 최대 16,000개의 엔비디아 A100 그래픽 카드가 탑재되는 리서치 슈퍼클러스터(Research SuperCluster)라는 슈퍼컴퓨터를 사용했다.

리서치 슈퍼클러스터(Research SuperCluster)라는 슈퍼컴퓨터를 사용해 훈련된 NLLB-200.(사진=메타)
리서치 슈퍼클러스터(Research SuperCluster)라는 슈퍼컴퓨터를 사용해 훈련된 NLLB-200.(사진=메타)

번역 품질은 이전 AI 연구와 비교할 때 NLLB-200이 평균 44% 더 높은 점수를 받았다. 일부 아프리카 및 인도 기반 언어의 경우 NLLB-200의 번역이 70% 이상 정확했다. NLLB-200을 평가하고 개선하기 위해 200개 언어 간에 40,000개의 다른 조합으로 구성된 데이터 세트 ‘FLORES-200’을 구축했다. FLORES-200을 사용하면 각 언어에서 NLLB-200의 성능을 측정해 번역 품질이 우수한지 확인할 수 있다. 

또한 내부적으로 NLLB-200을 배포하려는 노력과 병행해 메타는 다른 조직이 자체 소프트웨어 프로젝트에 시스템을 적용할 수 있도록 NLLB-200 모델과 FLORES-200 데이터 세트를 공개하고, 모델 교육 코드와 훈련 데이터 세트를 다시 만들기 위한 코드도 공개하고 있다. 

메타는 NLLB-200을 사용해 페이스북, 인스타그램 및 기타 플랫폼에서 더 나은 자동 번역 기능을 제공할 계획이다. 매일 250억 건 이상의 번역을 지원할 것으로 추정하고 있다. 

영어, 북경어, 스페인어 및 아랍어를 포함한 소수의 언어가 웹을 지배하고 있다. 널리 사용되는 언어를 모국어로 사용하는 사람들은 모국어로 무언가를 읽는 것이 얼마나 의미있는 일인지 당연하게 여길 수 있다. NLLB-200는 종종 감정이나 내용을 잘못 이해하는 중간 언어를 요구하기 보다는 더 많은 사람들이 선호하는 언어로 읽을 수 있도록 도와준다.

이 작업은 또한 자바어 및 우즈벡어와 같은 언어를 사용하는 건축 도우미 또는 발리우드 영화(Bollywood movie, 인도 영화산업을 일컫는 말)를 찍고, 스와힐리어(Swahili) 또는 오로모어(Oromo)로 정확한 자막을 추가하는 시스템을 만드는 것과 같은 다른 기술을 발전시키는 데 도움이 될 수 있다. 

더 넓은 범위의 언어로 기술을 구축하는 능력은 메타버스와 같은 가상 세계에서 몰입형 경험에 대한 액세스를 민주화하는 데도 도움이 될 것이다. 

NLLB-200은 현재 기술을 더 넓은 범위의 언어로 액세스할 수 있도록 하며, 미래에는 가상 경험도 보다 쉽게 ​​액세스할 수 있도록 도와줄 것이다.(영상=메타)

AI타임스 박찬 위원 cpark@aitimes.com

[관련기사]메타, AR·VR을 위한 AI 기반 음향 합성 모델 공개

[관련기사]메타, 콘텐츠 확산 경로 추적하는 '크라우드탱글' 운용 중단한다

키워드 관련기사
  • 메타, AR·VR을 위한 AI 기반 음향 합성 모델 공개
  • 메타, 멀티모달 연구를 위한 데이터 세트 ‘MUGEN’ 출시
  • 페이스북, 뉴스에서 손 떼고 짧은 동영상에 투자 검토