세레브라스, 단일 장치에서 200억 매개변수의 AI 모델 훈련 성공

단일 시스템에서 최대 200억 매개변수의 대규모 AI 모델 훈련
새로운 모델을 개발 및 교육에 걸리는 시간을 획기적으로 단축
대규모 언어 모델에 대한 비용 효율적이고 쉬운 액세스를 제공

세레브라스는 WSE-2 프로세서를 사용해 단일 CS-2 시스템에서 최대 200억개의 매개변수를 가진 AI 모델 훈련에 성공했다.(사진=세레브라스)

세레브라스(Cerebras Systems)가 단일 시스템에서 최대 200억개의 매개변수를 가진 AI 모델 훈련에 성공했다. 단일 CS-2 시스템을 사용해 자연어 처리(NLP)를 위한 대규모 언어 모델을 훈련하는데 필요한 엔지니어링 시간과 노력을 몇달에서 몇분으로 줄일 수 있다고 주장한다.

NLP는 컴퓨터가 텍스트 또는 음성 데이터에서 인간의 언어를 분석하고 이해할 수 있도록 하는 데 중점을 둔 AI 영역이다. 기술매체 벤처비트(VentureBeat)에 따르면 세레브라스의 CEO인 앤드류 펠드만(Andrew Feldman)는 “NLP 모델이 클수록 더 정확하지만, 이는 선별된 회사만이 수행할 수 있는 자원과 전문 지식을 보유하고 있다”며 "결과적으로 매우 소수의 회사만이 대규모 NLP 모델을 훈련할 수 있었다. 나머지 업계에서는 너무 비싸고 시간 소모적이기 때문에 액세스할 수 없었다"라고 덧붙였다.

세레브라스는 이번 성과가 대규모 NLP 모델 교육의 가장 어려운 측면 중 하나인 수백 또는 수천 개의 서로 다른 GPU에 모델을 분산시키는 문제를 제거하는 데 도움이 될 것이라고 말했다. 또한 GPU 간에 모델을 분할하는 프로세스가 각 네트워크 컴퓨팅 클러스터 마다 고유하므로 작업을 다른 클러스터나 신경망에 이식할 수 없다고 덧붙였다. 예를 들어 해당 클러스터에서 GPU 하나만 변경하려면 모든 작업을 다시 해야 한다. 또한 모델을 다른 클러스터로 가져오려면 작업을 다시 수행해야 하고, 이 클러스터에 새 모델을 가져오려해도 작업을 다시 해야 한다.

단일 장치에서 대규모 모델을 훈련시키는 기능은 지금까지 제작된 프로세서 중 가장 큰 프로세서인 세레브라스 WSE-2 프로세서 덕분에 가능했다. 전통적으로 수백 또는 수천 개의 컴퓨터 칩은 웨이퍼라고 하는 12인치(30cm) 실리콘 디스크에서 제조되며 나중에 개별 칩으로 쪼개서(slicing) 패키징 되지만, 세레브라스의 WSE-2는 하나의 웨이퍼를 구성하는 칩을 쪼개지 않고 전체 웨이퍼를 사용해 인간 뇌의 뉴런 수보다 많은 120조 개의 매개변수를 가진 신경망 모델을 처리하는 세계에서 가장 큰 AI 칩이다. 가장 큰 GPU보다 56배 더 크고, 2조 5500억 개의 트랜지스터와 100배 많은 컴퓨팅 코어가 있다.

세레브라스 CS-2 시스템은 GPT-3XL 13B 모델과 GPT-J 6B, GPT-3 13B 및 GPT-NeoX 20B를 포함한 수십억 매개변수 자연어 처리(NLP) 모델을 훈련할 수 있다. 세레브라스는 하나의 세레브라스 웨이퍼가 있는 단일 CS-2 시스템이 최대 200억 개의 매개변수로 모델을 훈련할 수 있다고 밝혔다. 이는 다른 단일 장치에서는 불가능한 일이다.

시장 정보 회사 Intersect360 Research의 최고 연구 책임자인 댄 올스(Dan Olds)는 “세레브라스는 비용 효율적이고 쉽게 액세스 가능한 대규모 언어 모델을 대중에게 제공할 수 있는 길을 열었다"며 이어 "CS-2 고객이 방대한 데이터 세트에 대해 GPT-3 및 GPT-J 클래스의 모델을 교육하는 것이나 새로운 애플리케이션을 보는 것은 흥미로울 것이다"고 덧붙였다.

세레브라스는 CS-2 시스템이 수조 개의 매개변수를 사용해 미래에 훨씬 더 큰 모델을 처리할 수 있고 또한 상호 연결 기술을 사용해 많은 CS-2 시스템을 함께 연결함으로써 두뇌 규모의 몇 배인 더 큰 AI 네트워크를 지원할 수 있다고 주장했다.

AI타임스 박찬 위원 cpark@aitimes.com

거대한 인공 두뇌를 만드는 AI 칩 메이커

세레브라스가 여는 120조(兆)개 신경망 파라미터 세상..."인간의 뇌 수준급 시스템"

세레브라스 AI 칩 WSE, TSMC 7나노 공정서 생산...1세대보다 성능 두 배 ↑

박찬 위원 cpark@aitimes.com

다른기사 보기

상단영역

본문영역

SNS 기사보내기