인공지능(AI)기술의 활용도가 높아지면서 기업 현장에서의 관심도 크게 늘어나고 있다. 기업 내에서 AI에 대한 관심은 새로운 기술의 개발과 상용화에 집중이 되기 쉽지만, AI의 본격적인 도입과 활용을 위해서는 사실 기업의 조직을 포함하여 매우 다양한 변화를 필요로 하는 경우가 많다. 사이버 보안의 영역에서도 적지 않은 변화의 필요성이 감지되고 있다.

사이버 보안은 일반적으로 전산 시스템과 네트워크를 조직 외부 및 내부의 공격으로부터 보호하는 여러 활동을 말한다. AI와 관련해서는 이러한 일반적인 의미의 사이버 보안이 한층 더 중요할 뿐더러, 이에 더해서 AI 학습용 데이터에 대한 보안이나 AI 모형에 대한 보안이 새로운 과제로 등장한다.

AI 모형을 개발하고 이를 실제 서비스에 적용하는 과정은 여러 단계를 거쳐 이루어진다. 데이터를 확보하여 학습 데이터를 구축하는 단계, AI 모델을 개발하고 훈련하는 단계, 개발된 모델을 테스트하는 단계, AI 모델을 이용하여 서비스를 실행하는 단계가 이에 포함된다. 이러한 각각의 단계에 모두 사이버 보안 이슈가 나타날 수 있다.

우선 데이터를 수집하고 학습 데이터를 구축하는 단계에서는 학습 데이터의 일부를 추출해 내는 모형 전복(model inversion) 공격이 발생할 수 있다. 흔히 여러 차례의 쿼리를 하면서 AI 모형의 응답으로부터 거꾸로 학습 데이터를 추출하는 방식을 이용한다. 이는 이미지 인식이나 자연어처리를 위한 AI를 비롯하여 여러 유형의 AI에 나타날 수 있다.

(출처=셔터스톡)

최근에는 GPT-2 언어 모형에 거리명을 입력한 뒤, 이로부터 해당 거리 이름이 담긴 주소지의 상세주소, 전화번호, 이메일 등이 포함된 응답을 추출할 수 있었다는 연구결과가 발표되기도 했다. 올 초에 논란이 발생한 바 있는 챗봇 이루다와 관련해서도, 주소를 묻는 질문에 대해 아파트 동호수가 포함된 응답이 제시되었다는 주장이 나타나기도 했다.

AI 모형의 학습 단계에서는 데이터나 AI 모형에 대한 오염(poisoning) 공격이 나타날 수 있다. 데이터 오염 공격이란 학습 데이터를 조작하여 AI 모델의 정확도를 낮추거나 오류를 유발하는 유형의 공격을 말한다. 잘 알려진 데이터 오염 공격 사례는 2016년에 마이크로소프트가 출시한 챗봇 테이와 관련된 사례이다. 일부 이용자들이 테이로 하여금 인종차별적 표현, 성차별 발언 등을 학습하여 혐오발언을 쏟아놓도록 유도하였고 공개한지 불과 하루도 지나지 않아 결국 서비스가 중지되기에 이르렀다.

데이터 오염을 넘어 AI 모형 자체에 대한 오염 공격도 가능하다. 예를 들어 연합학습(federated learning)을 이용한 모델의 경우에 로컬 기기에서 중앙 서버로 패러미터가 전송되는 과정에서 변조된 값이 전송된다면 전체 AI 모형 자체에 오류가 발생하거나 정확도가 떨어질 가능성이 있다.

AI 모형의 테스트 단계에서도 공격이 발생할 수 있다. 회피(evasion) 공격이 대표적이다. 입력값에 노이즈를 추가하여 AI 모형이 정확한 판단을 하지 못하도록 유도하는 방식이다. 사람의 눈으로는 구분되지 않는 약간의 노이즈만 추가해도 결과값에 오류가 발생할 수 있다는 연구 사례들이 발표되고 있다. 더 나아가 모델 추출(extraction) 공격도 있다. 모델에 쿼리를 반복하면서 모델의 특징을 파악하는 방식이 흔히 언급되는데, 이를 통해 아예 AI 모형 전체를 추출해 내고자 노력하는 방식이다.

이처럼 AI에 대한 관심과 활용도가 높아지면서 보안과 관련된 새로운 공격 방식들이 계속 나타나고 있다. 전산자원이 중요한 조직이라면 AI의 개발과 활용뿐 아니라 보안을 포함한 자원의 관리 그리고 조직체계 전반에 대한 재검토가 필요할 수 있다.

고학수 서울대 교수, 한국인공지능법학회 회장 hsk@snu.ac.kr 

키워드 관련기사
  • 내년까지 반도체 공장 29개 신규 착공...칩 부족 고민하던 AI 업계 "한시름 덜어"
  • CVPR 2021서 누가 가장 활약했나? 연세대·네이버 최다 논문, 카이스트·LG 연구팀과 카카오·고대팀도 뛰어난 성과 내
  • 멀고도 먼 AI윤리의 길... “2030년에도 AI윤리 정립 어려울 것” 미 설문조사 결과 나와