언어 추론 시간 이전 세대보다 절반으로 감소
검색 엔진·광고 추천 플랫폼·챗봇 개발에 유용
엣지와 클라우드 지원으로 서비스 속도 향상

(사진편집=김동원 기자)
(사진편집=김동원 기자)

엔비디아가 대화형 인공지능(AI) 애플리케이션에 유용한 소프트웨어 '텐서RT 8'을 출시했다고 21일 밝혔다.

텐서RT 8은 엔비디아의 8세대 AI 소프트웨어다. 언어 추론 시간을 이전 세대보다 절반으로 줄였다. 사용자는 검색 엔진과 광고 추천 플랫폼, 챗봇 개발 시간을 대폭 줄일 수 있다.

엔비디아는 텐서RT 8을 엣지와 클라우드에서 지원할 수 있게 했다. 고객은 데이터를 서버단까지 보내지 않고 엣지와 클라우드에서 처리할 수 있어 시간을 단축하고 보안도 높일 수 있다.

엔비디아 측은 텐서RT 8이 전 세계적으로 가장 널리 사용되는 트랜스포머 기반 모델 중 하나인 버트-라지(BERT-Large) 모델의 추론을 1.2밀리세컨드(ms) 만에 완료했다고 밝혔다. 또 희소성(Sparsity) 기능을 토대로 AI 추론 성능을 대폭 향상했다고 전했다.

희소성은 효율성을 높이는 엔비디아 암페어(Ampere) 아키텍처 그래픽처리장치(GPU)의 새로운 성능 기술이다. 개발자가 컴퓨팅 작업을 줄여 신경망을 가속화할 수 있도록 지원한다. 

그레그 에스테스(Greg Estes) 엔비디아 개발자 프로그램 담당 부사장은 "AI 모델은 기하급수적으로 점점 더 복잡해지고 있으며, AI를 사용하는 실시간 애플리케이션에 대한 수요는 전 세계적으로 급증하고 있다"면서 "최신 버전의 텐서RT는 기업들이 그들 고객에게 이전에는 불가능했던 수준의 품질과 응답성을 갖춘 대화형 AI 애플리케이션을 제공하도록 돕는 새로운 기능을 지원한다"고 설명했다.

텐서RT 8을 적용한 허깅페이스의 제프 바우디에(Jeff Boudier) 제품 책임자는 "텐서RT 8을 통해 허깅페이스는 버트 모델의 추론을 1ms 지연시간으로 단축했다"며 "올 하반기에 해당 제품과 성능을 제공하게 될 것"이라고 말했다.

AI타임스 김동원 기자 goodtuna@aitimes.com

[관련기사] 엔비디아, 영국에서 가장 강력한 슈퍼컴퓨터 출시...헬스케어 AI 관련 행보는?

[관련기사] 엔비디아, MLPerf 벤치마크에서 GPU 기술력 입증

키워드 관련기사
  • "시장분석부터 작물 생산량 예측까지"...인공위성과 인공지능이 만나면 가능해지는 일은?
  • 엔비디아ㆍ구글 클라우드, AI 개발 가속화 위해 ‘AI-on-5G 이노베이션 랩’ 구축한다
  • 엔비디아-ARM 인수합병 속도 붙나?...양사 CEO "지금이 합병 최적의 시기"