클로바 노트, 높은 음성인식 정확도로 녹취 작업에 유용
AI가 음성 파일 목소리 구분해 문자로 전환
초거대 AI 모델 '하이퍼클로바'로 정확도 30% 상승
"AI가 시를 쓰고 작사하는 것도 가능해질 것"

네이버가 출시한 클로바 노트, 인터뷰 녹취 작업에 정말 사용할 수 있을까? (영상=김동원 기자)

기사 마감시간이 두렵지 않아졌다. 아무리 긴 인터뷰를 해도 마감시간 전에 기사를 마감할 수 있게 됐다. 인공지능(AI) 기술 덕분이다.

기자 업무를 하면서 가장 번거로운 일을 꼽으라면 녹취 작업이다. 인터뷰나 세미나 내용을 녹음해 이를 다시 듣고 글로 연결하려면 많은 시간이 소요된다. 1시간 인터뷰를 하면 녹취를 푸는데 또 1시간이 발생하기 때문에 마감 시간 안에 기사를 쓰기가 버거운 게 사실이었다.

하지만 AI 기술 발전으로 녹취를 푸는 시간이 대폭 감소했다. 1시간 녹취를 푸는데 1분이면 가능해졌다. 네이버가 출시한 '클로바 노트(CLOVA Note)'를 사용하면서다.

클로바 노트를 사용하면서 녹취를 푸는 시간을 줄일 수 있게 됐다. (사진=셔터스톡, 편집=김동원 기자)
클로바 노트를 사용하면서 녹취를 푸는 시간을 줄일 수 있게 됐다. (사진=셔터스톡, 편집=김동원 기자)

클로바 노트는 음성을 문자로 변경해주는 AI 기능이 탑재된 음성인식 애플리케이션(앱)이다. PC와 스마트폰에서 모두 사용 가능하다. 월 600분 시간의 음성을 무료로 이용할 수 있다.

사용 방법은 간단하다. 인터뷰나 회의, 세미나 등의 음성을 녹음한 뒤 녹음 파일을 앱에 업로드하기만 하면 된다. 음성파일 길이는 한 번에 최대 90분까지 가능하다.

앱에 음성 파일을 옮기면 ▲일반 대화 ▲개인 메모 ▲회의 ▲강연 ▲인터뷰·상담 ▲전화 통화 등 음성 종류를 선택하라는 창이 나온다. 정확한 음성인식을 위해 대화 종류를 선택하는 칸이다. 여기에 해당하는 정보를 선택하면 다음으로는 참석자 수를 선택하라는 창이 뜬다. 녹음된 내용의 대화에 몇 사람이 참여했는지를 고르면 된다.

혼자 얘기했으면 1명, 둘이면 2명 등을 고르면 된다. 이 정보를 정확히 입력하면 AI는 목소리로 화자를 구분해 음성 파일을 글로 보여준다. 음성이 문자로 전환되는 데는 30분 녹취 기준으로 30~40초가 걸렸다.

클로바 노트는 음성 녹음에 참여한 사람의 수를 입력하면 목소리를 구분해 더 높은 정확도로 녹취를 풀어준다. (사진=클로바 노트 홈페이지 캡쳐)
클로바 노트는 음성 녹음에 참여한 사람의 수를 입력하면 목소리를 구분해 더 높은 정확도로 녹취를 풀어준다. (사진=클로바 노트 홈페이지 캡쳐)

사실 클로나 노트를 사용하기 시작한 건 최근부터다. 이 앱이 과거에도 존재했지만, 전에 사용했을 때는 사용하기 힘들 정도로 정확도가 낮았다. 잘못된 단어가 많아 차라리 음성을 듣고 직접 녹취를 푸는 것이 마음 편할 정도였다.

클로바 노트 외에 다른 음성인식 앱도 마찬가지였다. 유료 버전의 타 앱을 사용해봤지만, 역시 정확도가 높지 않았다.

하지만 최근 클로바 노트는 달라졌다. 30분 기준 녹취작업에서 90% 이상의 높은 정확도를 기록했다. 여기에 고유명사가 아닌 회사 이름이나 대표 이름, 어려운 용어, 외래어 등을 '자주 쓰는 단어'로 등록해두면 100%에 가까운 정확도를 보였다. 실제로 최근 MZ세대에서 사용하는 신조어를 자주 쓰는 단어로 등록해두니 신조어를 사용한 대화에서도 100% 정확도를 기록했다. 자주 쓰는 단어는 500개까지 등록할 수 있었다.

클로바 노트에는 자주 사용하는 단어를 500개까지 입력할 수 있다. (사진=클로바 노트 홈페이지 캡쳐)
클로바 노트에는 자주 사용하는 단어를 500개까지 입력할 수 있다. (사진=클로바 노트 홈페이지 캡쳐)

클로바 노트의 정확도가 높아진 기반에는 네이버가 올해 5월 공개한 초거대 AI 모델 '하이퍼클로바'가 있다. 하이퍼클로바는 네이버가 1세대, 2세대 언어분석 모델을 개발한 경험으로 탄생시킨 3세대 언어분석 모델이다. 많은 데이터가 필요했던 1세대와 딥러닝 기술을 도입한 2세대와 달리 자기지도학습 방법을 사용한다. 사용자가 라벨링을 하지 않아도 자기 스스로 데이터를 학습해 정확도를 높인다. 

옥상훈 네이버 클로바 부장은 8월 6일 서울디지털재단과 서울스마트시티센터 주최로 열린 'DT 비즈니스 혁신 세미나'에서 "네이버와 라인의 AI 브랜드이자 플랫폼인 클로바는 구글, 마이크로소프트, 아마존 등 경쟁사 모델보다 한국어 음성인식 분야에서 가장 성능이 뛰어나다"면서 "하이퍼클로바를 바탕으로 네이버 클로바의 한국어 인식 기술의 정확도와 활용도는 계속 높아질 것"이라고 설명했다. 이어 "클로바 노트의 경우 하이퍼클로바를 통해 정확도가 30% 높아졌다"고 덧붙였다.

클로바 노트는 자막 처리에도 그대로 사용될 수 있다. 뉴스나 방송에 나오는 말을 텍스트로 전환해 영상에 입히면 된다.

네이버 관계자는 "한국어를 정확하게 인식할 수 있는 것은 시작에 불과하다"며 "앞으로 해당 기술을 고도화해 AI가 시를 쓰고 작사를 하는 것도 가능해질 것"이라고 말했다. 

AI타임스 김동원 기자 goodtuna@aitimes.com

[관련기사] 네이버 "한국어 음성 인식 기술은 클로바가 1등...활용도 계속 높일 것"

[관련기사] 네이버·카카오 “올 상반기 AI 논문수, 작년 한 해보다 많다”

키워드 관련기사
  • [AI 실생활 체험기] "내 피트니스 코치님은 AI, 나보다 내 신체 더 잘 알아!"
  • [AI 실생활 체험기] 하나둘 등장하는 AI 무인매장..."신기하지만, 아직은 불편한 게 많아"
  • [AI 실생활 체험기] KB국민은행 AI 체험존에 숨겨진 비밀이 있다고?