진짜 같은 가짜 데이터 '합성 의료데이터'
GAN 이용해 합성 데이터 생성
의료의 진실성을 확보, 잘못된 의료 정보 문제 발생 가능
영국ㆍ미국 등 주요국, 합성 데이터 실증 연구 활발

 

(사진=셔터스톡)
(사진=셔터스톡)

인공지능(AI)은 데이터를 바탕으로 시스템을 고도화한다. AI 알고리즘이 방대한 양의 데이터를 학습하며 일정한 패턴을 파악하고 빠른 연산을 가능하게 한다. AI에게 데이터는 학습을 위한 중요 자산이며 많은 양의 데이터를 확보할수록 고도화ㆍ지능화한 AI를 구현할 수 있다.

하지만 일부 데이터의 경우 개인ㆍ민감 정보를 포함하고 있어 충분한 양의 데이터를 확보하기 어렵다. 또 최근 AI와 빅데이터 등 4차 산업혁명 기술이 성장 동력으로 작용하며 데이터를 재산적 가치로 인식, 일부 개인ㆍ기업ㆍ기관에서 데이터 공유에 회의적 시각을 갖기도 한다.

의료계의 경우 환자의 신상ㆍ질병ㆍ보험 정보 등 다양한 민감 정보를 담고 있어 데이터 활용이 쉽지 않다. 지난 8월부터 '데이터3법' 시행에 따라 가명정보를 활용할 수 있는 법적 근거가 마련됐으나 활용 기관과 사유 등이 명확하지 않고 다양한 규제가 산재해 있어 현실적인 데이터 활용에 어려움을 겪고 있다.

이에 적은 양의 실제 데이터를 바탕으로 AI 학습에 이용할 수 있도록 만든 '합성 데이터'가 하나의 대안으로 꼽히고 있다.

◆ 그럴듯한 가짜 데이터 '합성 데이터'…의료 데이터에 접목

‘합성 데이터’는 실제 측정으로 획득하지 않고 필요에 의해 인공적으로 생성한 학습 데이터다. 이에 의료계는 낮은 데이터 접근성과 재식별 위험에 따른 데이터 확보의 어려움을 해소하기 위해 합성 데이터 활용하고 있다.

지난 13일 한국보건산업진흥원(KHIDIㆍ원장 권덕철)은 '인공지능을 활용한 합성 의료데이터 : GAN 기술 중심으로' 보고서를 발표하고 합성 의료데이터 기술을 소개했다.

합성 의료데이터는 진료 정보와 유전체 등 실제 의료데이터를 활용해 만든 합성 데이터다. 데이터에 포함된 개인ㆍ민감 정보 식별 문제를 해소하고, 데이터의 질과 양을 제고할 목적으로 생성한 것이다.

이번 보고서의 공동저자인 김보라 KHIDI 의료정보R&D팀 연구원은 "의료데이터는 개인ㆍ민감 정보로 정의하고 있어 신뢰 가능하고 표준화한 의료데이터 확보에 어려움이 있다"면서 "AI 개발에 있어 학습 데이터가 충분하지 않거나 데이터 확보ㆍ수집이 불가할 경우 합성 의료데이터 생성 기술이 각광받고 있다"고 설명했다.

하지만 합성 의료데이터는 가짜 데이터이기 때문에 의료의 진실성을 확보하는 데 한계를 갖고 있다. 또 데이터 결과를 의료행위의 임상적 근거로 사용하는 만큼, 잘못된 의료 정보 활용에 따른 문제 발생 가능성이 높다.

합성 의료데이터 구축은 생성적 적대 신경망(GAN) 기술을 이용한다. GAN은 '생성모델'과 '판별모델'로 구성돼 있다. 생성모델은 진짜 같은 가짜 데이터를 만들기 위해 작동하고, 판별모델이 진짜 데이터와 가짜 데이터를 최대한 구별한다. 이 과정에서 두 모델이 서로 경쟁하며 실제 데이터에 가까운 가짜 데이터를 생성한다.

김 연구원은 "GAN 기술은 영상 이미지 생성과 해상도 향상 등 영상 데이터 위주 연구가 활발하다"며 "최근 텍스트 데이터를 비롯한 다양한 형태의 데이터도 활용 가능성이 커지고 있다"고 짚었다.

지난 2017년 옐머 울트링크(Jelmer Wolterlink)의 공동연구 '저선량 컴퓨터단층촬영(CT)의 소음 저감을 위한 생성적 적대 신경망'은 GAN 기술을 활용한 저선량 CT 영상의 노이즈 제거 사례를 소개했다.

저선량 CT의 경우 방사선량을 줄여 환자의 안전을 고려한다. 하지만 영상 품질이 낮아져 판독 정확도가 떨어질 수 있다. 이에 GAN 기술을 활용해 저선량 CT 영상의 노이즈를 제거하며 일반 선량의 CT 영상과 동일하도록 반복 학습했고 CT 영상 품질을 개선했다.

피부 병변 이미지를 합성하는 데 GAN 기술을 적용하기도 했다. 피부 이미지의 경우 유형간 데이터양의 차이가 커 일반화한 AI 모델 개발이 어렵다.

크리스토프 바우르(Christoph Baur)는 'GAN을 사용한 피부 병변의 고해상도 영상 생성' 공동 연구로 피부 병변 이미지를 고해상도로 합성하는 기술을 개발했다.

양성ㆍ악성 피부 병변 이미지 1만개 데이터세트를 바탕으로 GAN의 점진적 학습을 이용해 실제 데이터와 유사한 피부 병변 이미지를 고해상도로 합성ㆍ생성했다. 

생성한 이미지와 실제 이미지 간 유사성 검증을 위해 3명의 피부과 전문의와 5명의 딥러닝 전문가가 두 데이터를 비교ㆍ평가했다. 그 결과, 생성 이미지와 실제 이미지의 구분이 어렵다는 결론을 내렸다.

비교ㆍ평가는 두 이미지를 랜덤으로 혼합한 것을 재분류하도록 요청해 정확도를 측정했다. 

◆ 해외 연구진, 합성 의료데이터 연구ㆍ실증 활발…국내 초기 단계

김 연구원은 "미국과 영국 등 주요 선진국에서 합성 데이터의 중요성을 인지하고 다양한 연구를 추진 중이다"라고 설명했다.

스코틀랜드 행정데이터연구센터는 잉글랜드ㆍ웨일즈, 스코틀랜드, 북아일랜드 세 개 지역별로 나눠 수십 년간 쌓은 인구총조사 자료와 행정 데이터를 연계해 종단 데이터를 구축했다. 하지만 개인정보 유출 우려가 있어 관련 데이터를 제한적으로 허용ㆍ분석할 수 있도록 했다.

이에 해당 자료를 바탕으로 합성 데이터를 구축하는 '영국 종단 연구를 위한 합성 데이터 평가(SYLLS)' 프로젝트를 수행, 다양한 합성 데이터를 생성해 이용자의 개인 컴퓨터에서 분석할 수 있도록 했다.

이후 이용자가 합성 데이터를 활용해 만든 최종 모델을 만들고, 이 모델 코드를 담당 직원에게 보낸다. 이에 담당 직원이 이용자를 대신해 그 코드를 실제 데이터에 적용ㆍ분석해준다.

이 방식으로 이용자는 데이터센터를 방문할 필요가 없으며, 데이터의 유출 위험을 낮출 수 있다.

미국 컬럼비아 대학에 위치한 '관찰연구 건강 데이터 과학과 정보학 협의체(OHDSI)'의 경우 합성 데이터 연구에 활용할 벤치마크 데이터세트의 부족을 절감했다. 이에 합성 데이터를 생성해주는 OSIM package 개발, 깃허브에 공개했다.

캐나다 통계청은 데이터센터 방문 전 이용자가 합성 데이터를 사전 분석에 활용할 수 있도록 하고 있다.

김보라 연구원은 합성 의료데이터 활용의 부작용을 우려하며 이에 대응할 수 있는 정책적 지원이 필요하다고 봤다.

그는 "GAN을 비롯한 AI 기술이 합성 의료데이터를 위ㆍ변조할 수 있어 기술의 부정적 측면을 고려해야 한다"며 "합성 데이터 기술의 부작용을 대응할 보안 강화가 필요하다"고 짚었다.

이어 "보건복지부가 2021년 신규 사업인 '의료데이터 보호 활용 기술 개발' 사업 내 합성 의료데이터 생성과 임상 활용 실증 연구 사업을 공고할 예정이다"라며 "의료데이터의 활용성과 임상적 가치를 고려한 기술 개발을 할 수 있도록 다양한 정부 정책이 필요하다"라고 제언했다.

 

AI타임스 김재호 기자 jhk6047@aitimes.com

[관련 기사]AI 영상 분석부터 원격 진료까지...디지털 헬스, DNA를 만나다

[관련 기사]디지털 헬스케어 기술, 코로나19 백신 보급에 활약한다

키워드 관련기사
  • [스페셜리포트]④투자자들은 AI스타트업을 어떻게 바라봐야 할까
  • LG 클로이 서브봇, 엘리베이터 타고 층마다 배송 서비스
  • 통신3사, 변화와 승리를 위한 몸부림… 결과는?