핀터레스트 등 SNS 이미지로 AI 학습

스테이블디퓨전으로 만든 이미지 (사진=스태빌리티AI 홈페이지)
스테이블디퓨전으로 만든 이미지 (사진=스태빌리티AI 홈페이지)

달리2, 미드저니, 스테이블 디퓨전 등 글로 명령하면 이미지를 바로 만들어 보여주는 이미지 생성 AI들이 요즘 폭발적인 인기다. 이 AI 도구들은 인터넷에서 찾을 수 있는 수많은 이미지들을 학습한 결과를 토대로 작동된다. 과연 어떤 이미지들을 학습했길래 멋진 이미지들을 만들어 내는 것일까?

AI 도구들이 내놓는 특정 이미지가 어떤 그림이나 사진을 학습한 결과인지는 정확히 가려내기는 어렵다. 학습 데이터의 규모가 많게는 수십억개에 달하기 때문이다. 게다가 학습 데이터 자체도 공개되지 않거나 접근하기가 어렵다. 

달리2를 만든 오픈AI의 경우 설명이 붙어 있는 수억개의 이미지 데이터를 학습에 사용했다고 밝히면서도 관련 데이터는 공개하지 않는다. 가장 최근 나온 이미지 생성 AI 도구인 '스테이블 디퓨전'은 오픈 소스 기반이어서 학습 훈련 데이터 세트에 접근할 수는 있다. 하지만 데이터가 대규모 아카이브에 불분명한 파일 형식으로 저장돼 있어 검색은 물론 다운로드가 불가능하다. 

이와 관련해 미국 매체 액시오스는 13일 기술 전문가 2명이 이미지 데이터를 수집하고 검색할 수 있는 프로그램을 만들어 스테이블 디퓨전의 훈련 데이터 23억개 중 0.5%인 1200만개를 표본 분석했다고 보도했다. [관련 기사

미국의 기술전문 블로거이자 창작자 커뮤니티 ‘XOXO 페스티벌’ 운영자인 앤디 바이오와 프로그래머인 사이몬 윌리슨이 시도한 이 작업에선 표본의 크기가 작긴 하지만 흥미로운 결과들이 나왔다. [앤디 바이오의 블로깅 사이트]

스테이블 디퓨전으로 만든 이미지 (사진=앤디 바이오의 블로깅 사이트 waxy.org)
스테이블 디퓨전으로 만든 이미지 (사진=앤디 바이오의 블로깅 사이트 waxy.org)

앤디 바이오는 분석 결과 사회관계망 서비스(SNS)를 비롯해 여러 웹사이트에 있는 사용자 생성 콘텐츠(UGC), 즉 사람들이 스스로 만들어 인터넷에 올린 이미지들이 AI 학습의 주요한 소스인 것으로 나타났다고 밝혔다.  

SNS인 핀터레스트에서 가져온 이미지가 100만개로 전체 훈련 데이터 1200만개 중 8.5%를 차지해 가장 많았고, 워드프레스 호스팅 블로그의 이미지들이 81만9000개(6.8%)로 뒤를 이었다. 스머그머그, 블록스팟, 플리커, 디바이언트아트, 위키미디어, 텀블러 등 이미지 공유 사이트에서도 학습 데이터가 수집됐다.

스테이블 디퓨전은 쇼핑 사이트와 사진판매 사이트들에서도 훈련용 데이터를 가져다 썼다. 그림과 포스터를 파는 파인아트아메리카에서 69만8000개(5.8%), 사진 사이트인 123RF에서 49만7000개(4.1%) 등이다.

액시오스는 이런 분석 결과에 대해 "스테이블 디퓨전의 훈련 데이터에 저작권이 있는 이미지와 예술작품이 상당량 포함돼 있다는 것을 시사한다"고 지적했다. 

한편 앤디 바이오는 학습 데이터세트의 이미지에 어떤 예술가들의 작품이 얼마나 포함됐는지를 살펴보기 위해 1800명의 예술가 이름으로 데이터를 검색해 봤다. 그 결과 가장 많이 인용된 예술가는 ‘빛의 화가’인 토마스 킨케이드로, 9268개의 이미지가 쓰인 것으로 나타났다. 다음으로 빈센트 반 고흐(8376개), 레오니드 아프레모프(8312개), 클로드 모네(8033개) 순이었다. 

또 유명 인사 2000명의 이름으로 검색한 결과 도널드 트럼프 전 미국 대통령과 관련된 이미지가 1만1000장으로 가장 많았고, 영화배우 샤를리즈 테론이 9576개의 이미지로 뒤를 이었다. 가상 인물로는 캡틴 마블(4993개), 블랙 팬서(4395개), 캡틴 아메리카(3155개), 배트맨(2950개) 등의 순이었다.

정병일 위원 jbi@aitimes.com

키워드 관련기사
  • 구글, 맞춤형 이미지 생성 AI 모델 '드림부스' 공개
  • 이미지 생성 AI 무료 배포했더니...몸값 1조원대로 '껑충'
  • "AI 이미지 생성 명령어 팝니다"...美 프롬프트베이스, 프롬프트 판매 시작