AI가 낳은 그림자, 막대한 전력소모
삼성전자, 메모리 혁신으로 AI 전력 효율성 높여
삼바노바, CPU와 GPU가 가진 한계 극복할 RDU 소개
세레브라스, AI 연산 많아질수록 GPU 한계 극명해져

(왼쪽부터)  쿤레 올루코툰(Kunle Olukotun) 스탠포드대 교수와 최창규 삼성종합기술원 전무, 앤드류 펠드만 세레브라스시스템 대표가 '삼성 AI 포럼 2021' 행사에서 '확장 가능하고 지속 가능한 AI 컴퓨팅' 방안에 대해 얘기하고 있다. (사진=삼성 AI 포럼 캡쳐)
(왼쪽부터)  쿤레 올루코툰(Kunle Olukotun) 스탠포드대 교수와 최창규 삼성종합기술원 전무, 앤드류 펠드만 세레브라스시스템 대표가 '삼성 AI 포럼 2021' 행사에서 '확장 가능하고 지속 가능한 AI 컴퓨팅' 방안에 대해 얘기하고 있다. (사진=삼성 AI 포럼 캡쳐)

자율주행, 신약개발, 산업안전 등 다양한 분야에 적용되고 있는 인공지능(AI). 빠른 속도로 성장하며 혁신을 이뤄가고 있는 AI에도 그림자가 존재한다. 막대한 전력 소모로 인한 환경오염이다.

엠마 스트루벨(Emma Strubell) 미국 매사추세츠대 교수 연구진이 2019년 발표한 논문에 따르면, 구글은 AI 모델 버트(BERT)를 학습시키는 동안 438lb(약 652kg)의 이산화탄소를 발생시켰다. 이는 비행기가 뉴욕에서 샌프란시스코를 왕복으로 오갈 때 뿜어내는 이산화탄소 양과 같다. 미 전국에서 달리는 자동차 평균 배출량의 약 5배에 해당하는 수치이기도 하다.

문제는 AI 기술이 발전할수록 발생하는 소비전력 역시 증가한다는 점이다. 삼성전자는 1일 '삼성 AI 포럼 2021'에서 AI 발전으로 인한 전력소모 문제를 해결할 수 있는 방안에 대해 논의했다. 

해당 세션에는 삼성전자 종합기술원 AI&소프트웨어 연구센터장인 최창규 전무와 미국 AI 스타트업 삼바노바시스템스 공동 창업자인 쿤레 올루코툰(Kunle Olukotun) 스탠포드대 교수, AI 반도체 팹리스 업체 세레브라스시스템의 앤드류 펠드만(Andrew Feldman) 대표가 참가했다.

◆ 최창규 삼성종합기술원 전무 "메모리 혁신으로 전력 효율 상승"

최창규 삼성종합기술원 전무는 이번 발표에서 AI 모델 학습으로 발생하는 전력 소모가 사회적으로 큰 문제를 양산하고 있다고 지적했다. 또 삼성전자에서는 연산능력과 메모리 대역폭간 격차를 줄이는 방안으로 이 문제를 해결하고 있다고 설명했다.

최 전무는 "자연어 처리를 위한 GPT-3 모델은 1750억개 변수를 가지고 있다"면서 "이 모델을 한 번 학습시키는데 약 1.3기가와트시(GWh)를 소비하는데 이는 한국 전체에서 약 1분간 소비하는 전력량과 같은 수준"이라고 지적했다. 이어 "GPT-3가 한 번 모델을 학습시키는데 발생하는 탄소 배출량은 8만 4000대의 차가 배출하는 탄소량과 같다"며 "이를 정화하기 위해서는 8500만 그루의 소나무를 더 심어야 한다"고 말했다.

최창규 삼성종합기술원 전무는 메모리 혁신으로 AI 학습에서 발생하는 전력 소모를 줄일 수 있다고 밝혔다. (사진=삼성 AI 포럼 캡쳐)
최창규 삼성종합기술원 전무는 메모리 혁신으로 AI 학습에서 발생하는 전력 소모를 줄일 수 있다고 밝혔다. (사진=삼성 AI 포럼 캡쳐)

그는 AI 개발이 양산하는 전력 소모 문제를 해결하기 위해서는 메모리와 저장장치 혁신이 필요하다고 설명했다. 메모리에서 명령어를 불러오고 실행한 뒤, 그 결과를 다시 메모리에 저장하는 기존 폰노이만 구조에서 벗어나 메모리에서 자체적으로 데이터 연산을 할 수 있는 시스템이 필요하다고 설명했다. 메모리 역할을 하는 장소와 연산을 하는 장소의 거리를 줄여 데이터 이동에서 발생하는 전력 소모를 줄여야 한다는 것.

최 전무는 "폰노이만 구조는 메모리로부터 명령어와 데이터를 받아 연산을 수행하고, 출력을 받아 다시 메모리에 저장하는 과정을 반복한다"면서 "우주 통신에 비유하자면 연산에 필요한 데이터를 얻기 위해 지구 프로세서에서 화성 메모리까지 계속 통신하는 셈"이라고 말했다.

삼성전자는 이 문제를 줄이기 위해 프로세서와 메모리 사이의 데이터 이동을 최소화하고, 메모리 내부 대역폭을 효과적으로 활용하는 '인접 메모리 프로세싱(Near Memory Processing) 제품을 개발했다. 대표 제품이 PIM(Processing In Memory) 개념을 도입한 HBM-PIM 메모리와 AX-DIMM이다.

PIM은 메모리 내부에 연산 작업에 필요한 AI 프로세서 기능을 더한 지능형 반도체다. 메모리에서 자체적으로 데이터 연산을 할 수 있다. 기존 폰노이만 구조에서는 메모리와 GPU·CPU 간 주고 받는 데이터가 많아지면 작업처리가 지연됐지만, PIM은 메모리 영역에서 데이터 연산이 가능해 데이터 이동이 적다. 따라서 연산처리 속도가 빠르고 전력 소모량도 최대 30배 아낄 수 있다. 

최 전무는 "HBM-PIM은 D램 셀에 통합된 AI 엔진을 통해 메모리 뱅크에서 병렬 연산을 함으로써 에너지 소모를 줄인 대표 사례"라며 "PIM 개념을 DIMM에 적용한 첫 사례인 AX-DIMM도 AI 엔진이 DIMM 내 버퍼 칩에 내장돼 지속가능한 AI 컴퓨팅과 프로세서-메모리 간 확장성을 지원한다"고 설명했다.

◆ 쿤레 올루코툰 스탠포드대 교수 "CPU·GPU의 한계, RDU로 극복" 

미국 AI 스타트업 삼바노바 공동창업자인 쿤레 올루코툰 스탠포드대 교수는 중앙처리장치(CPU), 그래픽처리장치(GPU)에서 발생하는 불필요한 에너지 소비가 막대한 전력 소모의 원인이 되고 있다고 지적했다. 또 이 문제를 삼바노바가 개발한 RDU로 극복할 수 있다고 밝혔다.

올루코툰 교수는 "CPU 사용량을 분석해보면 많은 에너지가 (AI 학습에 필요한) 데이터 연산에 소비되지 않고, 명령을 가져와서 해독하거나 데이터를 가져와서 제어하는 간접적인 일에 사용된다"면서 "이 간접적인 작업을 최소화할 수 있다면 에너지 효율을 향상시킬 수 있다"고 말했다. 

이어 "작업 처리율이 높은 GPU와 같은 코어는 CPU보다 10배 이상의 효율성을 얻을 수 있다"면서 "만일 특정 애플리케이션에 적합한 전용 하드웨어를 만들 수 있다면 에너지 효율 이점은 100배에서 1000배가 될 수 있다"고 부연했다.

쿤레 올루코툰 스탠포드대 교수는 특정 애플리케이션에 적합한 전용 하드웨어를 만든다면 100배 이상 에너지 효율을 이룰 수 있다고 설명했다. (사진=삼성 AI 포럼 캡쳐)
쿤레 올루코툰 스탠포드대 교수는 특정 애플리케이션에 적합한 전용 하드웨어를 만든다면 100배 이상 에너지 효율을 이룰 수 있다고 설명했다. (사진=삼성 AI 포럼 캡쳐)

그는 이 문제를 RDU로 풀어갈 수 있다고 설명했다. RDU는 가변 구조형 데이터 흐름 장치라 불리는 고성능 AI 칩이다. 400억개 트랜지스터, 300테라플롭스(Tflops) 이상 부동소수점 연산능력, 300MB 메모리 등의 특징을 지니고 있다. 내부는 PCU라고 부르는 연산 특화장치와 PMC라고 부르는 메모리용 특화장치 타일링 배열로 구성됐다. TSMC 7나노 공정에서 생산된다. 

올루코툰 교수는 RDU의 경우 300Tflops 이상의 연산 능력과 데이터 흐름에 용이한 공간배치로 대규모 복잡한 AI 모델을 학습시키고 서비스하기 용이하다고 설명했다. 그는 "매우 큰 AI 모델을 학습시키기 위해서는 400개의 GPU와 32테라바이트(TB)가 필요하지만, RDU를 사용할 경우 32RDU와 48TB 메모리로 학습시킬 수 있다"면서 "이는 매우 간단한 모델링 작업을 제공할 것"이라고 말했다.

올루코툰 교수는 RDU의 또 다른 장점으로 이미지 분석을 꼽았다. 처리할 수 있는 해상도가 높아 높은 품질 사진도 쉽게 처리할 수 있다고 설명했다. 그는 "큰 이미지를 처리하기 위해서는 해상도를 낮춰야하는데 이는 품질 및 정확도 저하를 초래할 수 있다"며 "RDU는 높은 해상도로 전체 이미지를 처리할 수 있어 높은 정확성과 재현성을 보장하고, 라벨링 비용도 절약해준다"고 말했다.

◆ 앤드류 펠드만 세레브라스 대표 "GPU 기반 AI 개발은 한계 봉착, 새로운 반도체 필요" 

앤드류 펠드만 세레브라스 대표는 AI 개발에 사용되는 데이터가 폭증한 만큼, GPU를 고집하는 기존 방식에서 벗어나야 한다고 조언했다. GPU 대신 AI 개발에 최적화된 AI 칩을 사용해야 빠른 산업 성장과 전력 소모 문제 해결을 모두 이룰 수 있다고 설명했다.

세레브라스는 역사상 가장 큰 칩을 생산하는 회사로 유명하다. 올해 4월 2조 6000억 개 트랜지스터와 40만 개 AI 코어를 갖춘 4만 6000평방밀리미터 칩을 선보였다. 가장 큰 크기의 GPU가 보유한 트랜지스터(540억 개)보다 48배 이상 많은 트랜지스터를 보유하고 있다. 

세레브라스 칩은 GPU보다 48배 이상 많은 트랜지스터를 보유하고 있다. (사진=삼성 AI 포럼 캡쳐)
세레브라스 칩은 GPU보다 48배 이상 많은 트랜지스터를 보유하고 있다. (사진=삼성 AI 포럼 캡쳐)

펠드만 대표는 "팀 로저스(Tim Rigers) 교수와 동료들은 논문을 통해 GPU는 확장성이 극히 나쁘고 전력에 미치는 영향이 커 문제가 많다고 지적했다"면서 "GPU는 AI 연산에 들어가는 시간을 10배 높이려면 800개 GPU를 사용하고 50배 이상의 전력이 필요한데, 이는 상당히 비효율적인 방법"이라고 말했다.

그는 이 문제를 세레브라스 칩으로 해결할 수 있다고 강조했다. 세레브라스 칩은 주요 경쟁사의 GPU보다 123배 많은 코어와 1만배 많은 온칩 메모리, 1만 2000배 많은 메모리 대역폭을 가지고 있어 AI 연산에 들어가는 속도와 전력을 크게 낮출 수 있다고 설명했다.

펠드만 대표는 세레브라스 칩은 이미 많은 고객사에서 성능을 인정하고 있다고 밝혔다. 아르곤 국립 연구소의 경우 세레브라스 칩을 사용해 GPU보다 수백 배 빠른 암 성장 반응 예측 모델을 보유하게 됐다고 말했다. 또 코로나19 백신 업체인 아스트라제네카는 세레브라스 칩을 적용해 GPU로 2주 이상 소요됐던 AI 학습을 단 이틀 만에 끝냈다고 전했다.

펠드만 대표는 "우리 고객들은 세레브라스 칩을 사용하면서 GPU와 성능 차이를 느끼고 있다"면서 "앞으로 상당히 많은 매개변수를 가진 모델이 나올 텐데 여기서 우리는 무엇을 할 수 있을지 진지한 고민이 필요하다"고 말했다.

AI타임스 김동원 기자 goodtuna@aitimes.com

[관련기사] [삼성 AI 포럼 2021]요슈아 벤지오 "초거대 AI 모델에 빠진 것 두 가지, 추론과 경험“

[관련기사] [삼성 AI 포럼 2021] 새로운 소재 개발에 드는 막대한 시간, 이젠 인공지능으로 극복한다

키워드 관련기사
  • AI 시대 주도할 반도체는 '메모리'...삼성전자·SK하이닉스, AI 칩 시장 선점 자신
  • [기자수첩] 무분별한 '초거대 AI' 개발 경쟁, 탄소중립ㆍESG는 뒷전
  • "AI기술발전이 지구에 재앙"...저전력반도체 개발 등 탄소 배출 감소 방안 절실