토플 라이팅, 스피킹 시험 AI로 자동 채점하는 토플뱅크 서비스
응시비, 과외비 등 비용 많이 드는 토플 시험 접근성 높여
사용자 90%가 외국인, 해외 시장서 예상치 못하게 승승장구
공교육 시장에 AI 솔루션 적용, 평등하고 효율적인 교육 목표

기자와 인터뷰를 진행 중인 송다훈 데이터뱅크 대표(사진=박성은 기자)
기자와 인터뷰를 진행 중인 송다훈 데이터뱅크 대표(사진=박성은 기자)

코로나19 유행으로 전세계 교육계가 급히 온라인 비대면 방식 전환을 맞으면서 에듀테크 기업들이 가파른 성장세를 보이고 있다. 국내 에듀테크 스타트업 뤼이드는 이번달 CB인사이트 선정 글로벌 100대 인공지능(AI) 기업으로 선정됐다. 해당 리스트에 국내 AI 기업이 선정된 것은 역대 두 번째다. 핑크퐁 캐릭터로 유명한 스마트스터디는 국내 에듀테크 기업 중 처음으로 유니콘 기업이 됐다.

전염병 상황 이전에는 기술 접목 교육방식이라고 하면 ‘인강’이라 불리는 인터넷 강의를 흔히 떠올렸다. 사전 녹화한 강의를 제공하는 인강은 교사가 학생에게 일방적으로 지식을 전하는 전통적인 오프라인 교육 방식과 다를 것이 없었다.

코로나19 시대 아래 우리는 기술 기반 교육의 중요성을 크게 체감하고 있다. 전세계 학생들이 학교에 나가지 못하게 되면서 누구에게든 오프라인 교육이 불가능한 상황이 올 수 있다는 점, 그리고 에듀테크가 대안이 될 수 있다는 가능성을 인지하게 됐다.

교육 불평등을 줄이고 효율성을 높이는 에듀테크, 

AIEd를 만들고자 합니다.

국내 에듀테크 스타트업 데이터뱅크를 설립한 송다훈 대표가 말하는 기업 모토다. 데이터뱅크는 2019년 7월 출범한 에듀테크 스타트업이다. 현재 딥러닝 기반 토플 자동채점기 토플뱅크를 주요 서비스로 제공하고 있다.

정량적인 데이터에 가까운 객관식이 아닌 주관식 시험에 AI를 도입한 점이 이례적이다. 데이터뱅크는 작년 2월 토플 라이팅 자동채점기를, 이후 11월에 토플 스피킹 자동채점기를 최초 공개했다. 데이터뱅크가 자체 제작한 토플 모의시험을 본 사용자는 시험이 끝난 후 본인의 점수를 즉각 확인할 수 있다.

통상 토플은 비용이 많이 드는 시험으로 불린다. 우선 시험 한 번 보려면 약 23만원 응시료를 내야한다. 토익과는 다르게 주관식 라이팅, 스피킹 시험이 있는 만큼 인간 채점자가 필요하기 때문이다.

시험을 준비하는데도 상당한 시간과 돈이 들어간다. 주관식 문제 첨삭이 중요한 만큼 학원보다는 1대1 과외를 이용하는 학생들이 많다. 과외비 부담에 매일 첨삭을 받을 수도 없다. 월, 금요일에 수업을 받는다면 3일은 속절없이 기다려야 한다.

데이터뱅크가 제공하는 토플 라이팅, 스피킹 자동 채점기는 시험 준비생들에게 문제를 풀고 첨삭을 받는 경험을 대폭 늘려준다. 국내 시장을 염두에 두고 배포한 서비스가 도리어 외국에서 입소문이 났다. 현재 토플뱅크 사용자 90% 정도는 인도네시아, 미국, 인도 등 외국에서 영어를 공부하는 학생들이다. 응시자 대부분이 한국과 일본에 분포한 토익과 달리 토플은 북미 유학을 준비하는 전세계 학생들이 치르는 시험이기 때문이다.

사교육 문화로 교육에 대한 지출에 익숙한 한국에서도 토플 비용은 부담스럽다. 인도와 같은 나라 학생들은 더욱 크게 체감할 수밖에 없다. 토플뱅크 서비스를 통해 모의시험을 충분히 보면 시험 응시 횟수를 줄여 가장 큰 지출 비용인 응시료를 획기적으로 절감할 수 있다.

토플뱅크와 같은 AI 기반 채점 기술이 고도로 발달한다면 ETS와 같은 시험 주최 기관에서 채택할 수 있다. AI 자동 채점기가 인간 채점자를 대체할 시 보다 낮은 응시료에 일관된 평가가 가능하다.

데이터뱅크는 AI 기반 자동 채점 기술을 토플 이외 다양한 영어 주관식 시험에 확장 적용할 계획이다. 중·고등학교 내 영어 쓰기, 말하기 교육에 기술을 공급하기 위해 현재 소프트웨어 선도학교를 중심으로 논의 중이다.
 

우리나라 영어 쓰기, 말하기 실력은 미얀마, 북한과 비슷합니다.

영어 교육에 들이는 비용을 생각하면 안타까운 상황입니다.

AIEd로 외국어 교육 효용성을 늘리겠습니다.

Q. 데이터뱅크 대표 서비스인 토플뱅크 자동채점기(Automated Scoring Engine, AES)에 대해 설명하자면?

토플뱅크 자동채점기는 토플 라이팅, 스피킹 시험에 대해 AI가 자동 채점해 즉각 점수를 제공하는 서비스다. 첨삭을 받는데 드는 금전적, 시간적 비용을 줄여 시험 준비생들이 문제풀이 경험을 충분히 할 수 있도록 지원한다.
 

Q. AI 기술을 어떤 방식으로 사용하는지 궁금하다.

인간 전문가가 채점한 사용자들의 답안 데이터를 AI가 학습해 유사하게 점수를 예측한다. 번역기나 여타 자연어처리 모델처럼 인간이 이해할 수 있는 자연어를 컴퓨터가 이해할 수 있는 형태(representation)로 변환해 AI를 학습시키는 사전학습과정을 거쳤다.

사전학습 작업을 위해서는 구글 알버트(ALBERT)와 페이스북 wav2vec 알고리즘을 사용했다. 하지만 모델 구조, 사이즈, 사전학습한 데이터는 모두 자체적으로 제작했다. 데이터뱅크가 사용하는 사전학습 모델은 오픈소스로 공개된 모델의 10% 이하다.

사용자가 외국인인 만큼 원어민 데이터가 아닌 비원어민 데이터를 자체 구축해 사전학습에 사용했다. 사전학습모델은 인간이 제공하는 레이블과 상관없이 자기지도학습으로 학습을 하기 때문에 토플뱅크를 통해 유입되는 유저 학습 데이터로 지속 발전하고 있다.
 

Q. 토플뱅크 주관식 자동채점기에 사용한 데이터양은 얼마나 되나? 데이터 수집에 어려움은 없었는지?

현재 데이터뱅크는 약 1000만건의 사용자 답안 데이터를 보유하고 있다. 이 답안은 모두 자체 제작한 토플 모의고사에서 나온 것이다. 대부분의 초기 기업들과 마찬가지로 데이터 수집에서 큰 어려움을 겪었다. 토플을 데이터뱅크 첫 사업 시장으로 정한 이유도 여기에 있다. 토플은 콘텐츠를 제작하기 매우 어려운 시험이기에 저작권 문제가 없는 자체 개발 콘텐츠를 무료로 제공해주는 창구가 없다는 점에 주목했다.

데이터뱅크에서는 자체 제작한 토플 모의고사를 무료로 배포해 사용자들의 답안 데이터를 모았다. 자동채점기 개발 전 토플 전문가들로 구성된 내부 콘텐츠 팀이 답안 하나하나를 수기 채점해 데이터 라벨링을 했다. 유저 답안 한 건을 채점하는데 5분 이상이 걸리는데 해당 작업을 2년 동안 매일 진행했다. 교육 패러다임을 바꿀 수 있다는 믿음과 스타트업 DNA 없이는 불가능했을 것이다.

자기지도학습을 사용해 필요한 데이터양을 줄이기도 했다. 자기지도학습은 인간 채점자 간섭 없이 AI가 스스로를 가르쳐 고도화하는 기술이다. 토플뱅크 유저가 많아지고 데이터가 들어올수록 성능이 좋아진다. 현재는 자동채점기술이 학습을 잘 하고 있는지 점검, 업데이트할 때에만 직원이 채점하고 있다.
 

Q. 최신 AI 기술을 교육에 접목한 계기가 궁금하다. 개발자 출신이 아닌 걸로 아는데?

개발에 대해서는 전혀 경력이 없다. 완전히 문과 출신이다. 사실 소위 말하는 대치동 스타강사였다. 2011년부터 강사 생활을 시작해 2015년에는 아예 학원을 운영했다. 처음 사교육 시장에 몸 담았던 이유는 학비와 생활비를 벌기 위해서였지만 가르치는 일이 좋고 재밌었다. 하지만 영어 스피킹, 라이팅 같은 주관식 영역은 1대1 첨삭이 꼭 필요한 만큼 수업료가 굉장히 비쌌다. 학원 매출 상당수가 여기서 나왔지만 소위 ‘있는 집 자식’들만 배울 수 있었다.

그러다보니 언젠가부터 회의감이 들기 시작했다. 대치동 학생들과 이외 지역 학생들이 받는 교육 격차를 실제로 경험해보니 많이 불편했다. 개인적으로도 부모님의 투자 실패로 미국 유학 중 귀국해 스스로 학비를 벌며 독학한 시절이 있었다. ‘내 시간은 한정적인데 어떻게 하면 훨씬 더 싸게, 더 많은 학생들을 1대1 과외처럼 가르칠 수 있을까’ 계속 생각하다보니 에듀테크, AI 튜터에 관심을 가지게 됐다.
 

Q. 데이터뱅크 설립 이전 뤼이드 콘텐츠개발총괄(COO)로 일한 걸로 안다.

2016년 뤼이드에서 토익 콘텐츠 제작과 타 업체 콘텐츠 검수 일을 담당했다. 학원을 운영하던 시절 수익보다 훨씬 적은 급여를 받았지만 AI로 교육 패러다임을 바꾸자는 비전이 일치해 합류했다. 뤼이드에서 일하면서 에듀테크에 대해 본격적으로 알게 됐다. 장영준 뤼이드 대표는 매사 직원들에게 창업을 권하곤 했다. 결국 뤼이드가 하는 객관식 시험, 토익 이외 주관식 시험에 AI를 도입하면 좋겠다는 생각으로 데이터뱅크를 시작하게 됐다.

처음에는 초기 스타트업에 얼마나 많은 일이 필요한지 모르고 뤼이드와 데이터뱅크 일을 병행하려 했다. 얼마 지나지 않아 말이 안 되는 일임을 알았다. 결국 뤼이드를 나와 데이터뱅크에 전념하게 됐다.
 

Q. 서비스 성과에 대해 얘기해보려 한다. 라이팅 자동채점기는 작년 2월, 스피킹 서비스는 11월 공개했다. 국내 시장을 염두에 두고 개발한 서비스를 해외 사용자들이 많이 찾고 있다 들었다.

현재 186여 개 국가에서 토플뱅크를 사용하고 있다. 사용자수로 보면 전세계 토플 응시자 4명 중 1명은 우리 서비스를 사용 중이다. 작년 4월 즈음에만 해도 국내 유저가 대부분이었고 해외 유저는 생각지도 못했다. 이후 해외 토플 준비생 커뮤니티에서 토플뱅크 서비스가 입소문이 났다. 현재 토플뱅크 사용자 수는 보수적으로 봤을 때 한 달에 1만3000명, 1년에 17만명 정도라고 할 수 있다.

직전 3개월 기준으로 사용자 국가를 살펴보면 인도네시아가 16%로 가장 많다. 다음은 미국 거주 유학생 9%, 한국 8.4%, 인도 7% 순으로 한 국가에 치우치지 않고 고루 분포된 모습이다. 토익은 대부분 응시자가 한국, 일본에 분포된 만큼 국내 시장에 치중해야 한다. 반면 토플은 북미 유학 필수 조건인 만큼 국가별로 응시자수가 고루 퍼져있다.

웹사이트를 영어로 만든 것이 신의 한 수였다고 본다. 나중에 사업이 더 확장되면 각 나라 언어로 서비스를 제공할 수 있다. 지금 당장은 이용자들이 영어로 서비스를 사용하는데 어려움을 호소하는 경우는 없다.
 

Q. 이번 달 초 시리즈 A 라운드를 마무리했고 총 투자금 30억원을 확보했다. 작년 4월에는 엑셀러레이터 슈미트로부터 3억원 시드 투자를 유치했다. 주요 투자 성과에 대해 설명하자면?

2020년 4월 슈미트 시드투자 3억원 유치했다. 2021년 4월 시리즈A에서 컴퍼니케이파트너스 10억원, 인터베스트 10억원, KB인베스트먼트 10억원 투자금을 확보했다.

창업자 본인뿐만 아니라 함께 일하는 팀, 서비스 대상인 유저, 냉정하게 시장 가치를 평가하는 자본시장, 투자자들까지 모두에게 인정을 받아야 진정 가치 있는 사업이라 생각한다. 데이터뱅크는 아직 2년도 안 된 스타트업이지만 기술로 교육격차를 해결하겠다는 메시지가 인정받은 것 같아 기쁘다. 하지만 갈 길은 여전히 멀다. AIEd 산업은 너무나 빠르게 바뀌고 있고, 바뀔 예정이기 때문에 빠르게 성장하지 못하면 살아남을 수 없다는 긴장감 역시 크다.
 

Q. 토플뱅크 이후 데이터뱅크 사업 계획이 궁금하다.

우리는 AI 기술이 공교육, 학교 영어 교육과 만났을 때 교사와 학생 모두에게 혜택이 돌아갈 수 있다고 생각한다. 딥러닝 기반 자동채점 서비스가 학교 영어 교육 현장에 적용된다면 영어 말하기, 쓰기에 대해 보다 정확한 직접평가가 가능해질 것이다. 채점에 들어가는 시간도 줄여 교사들이 '가르치는 활동'에 집중할 수 있도록 도울 수 있다. 결과적으로 읽기와 듣기 중심인 기존 영어 교과 과정 영역을 말하기와 쓰기까지 확장하는 데 일조할 것으로 기대한다.

토플뱅크의 또다른 기능인 학습자 맞춤형 수준별 교육 지도를 중고등학교나 대학교 영어 교육에 적용하면 교육 불평등을 줄일 수도 있다. 교실 안팎에서 온라인을 통해 AI 기반 맞춤형 영어 교육을 제공한다면 사회적, 경제적 여건으로 영어 학습이 어려운 학생들이 큰 도움을 받을 수 있다. 영어 사교육 과열 문제와 더불어 한국 영어 교육 현장에서 끊임없이 제기되는 학생 간 학습 격차를 줄일 대안이라고 생각한다.

이러한 가능성들을 인지하고 현재 데이터뱅크는 토플뿐만 아니라 아이엘츠 시험, 더 나아가 중고등학교, 대학교 영어교육에 진출할 계획을 진행하고 있다. 교육부가 지정한 에듀테크 선도학교들과 연계해 방과 후 활동이나 동아리 활동에서 학생들의 영어 학습을 지원하고 있으며 수능 영어 교육에 초점을 맞춘 프로그램도 기획 중에 있다. 이외 대학교, 어학교육기관들과 공동 연구 혹은 제휴를 추진 중이다.

AI타임스 박성은 기자 sage@aitimes.com

[관련기사]미래학자 토마스 프레이 “2030년 빅테크 기업, 교육 분야 주력할 것”

[관련기사]교육 AI 개발 "디지털 데이터 부족으로 이제 시작"

키워드 관련기사
  • 뤼이드, 올해 글로벌 100대 AI 기업으로 선정...국내 기업 중 유일
  • [스페셜리포트] ④AI기술로 혁신하는 교육, 커리큘럼부터 시험까지 개인 맞춤형
  • [스페셜리포트] ③ 'AI 에듀테크'기업, 미래 산업 '게임체인저'로 주목받는다