Chatbot용 STT 서비스 품질 Review

JayLee Audio Leave a Comment

엄밀하게는 각 기업들의 서비스가 챗봇만을 목적으로 연구, 개발된 것이 아니기 때문에 ‘챗봇용’이라는 정의는 불충분하다. 그러나 Global Chatbot Service Vendor인 MS와 LUIS와 연결된, 모바일 어플리케이션 환경에서 오로지 챗봇에서 화자(사용자)의 입력어를 대상으로 진행한 테스트이므로 ‘챗봇용’이라는 수식어를 포함했다.

 

2017년 8월에 상용서비스를 시작한 한 금융기관의 챗봇서비스에 주요 Intent와 Utterance를 비교샘플로 아래 업체들의 STT를 비교해 봤다.

  1. Apple Siri API (Android, iOS)
  2. Naver 파파고
  3. Google Cloud Speech
  4. 국내 A사의 STT Android SDK

상기 4개사의 STT를 이용, 검증 항목은 총 500 여 개의 Utterance 를 각각의 STT를 적용한 Android, iOS Application을 통한 테스트,

  1. 다소간의 소음이 있는 사무실
  2. 주변 소음이 차폐된 회의실
  3. 사무실 앞 일반 보행로
  4. 차량의 소음, 주행중의 풍절음이 포함된 차량 내부

상기 조건에서 팀의 개발과 QA를 담당하는, 5명이 2주 동안 진행을 했다.

물론 각 서비스들은 모두 새로운 인스턴스로 해당 산업/업무 즉 domain knowledge에 대한 사전학습(지도/비지도 학습 포함)을 전혀 거치지 않은 상태로 시작했다.

모두 해당 회사들이 상용으로 서비스를 제공하고 있거나, 제공예정인 관계로 여기에 해당 결과를 공개하기 위해서는 좀 더 많은 준비(!)가 필요한 관계로 개별적으로 만 공개하는 것으로 결정했다.

다만 생각보다 인식율의 차이가 커서 놀랐는데, 인식율 상위 순서로 보면, 93% / 85% / 81% / 76% 이니 상당한 유의미성을 가지고 있다.

우리 팀에서 서비스를 하는 STT는 당연히 가장 높은 정확도를 보인 서비스를 이용하고 있으며, 보다 유의미하고, 충분한 신뢰성을 얻을 수 있는 수준의 계획된 활동이 아니기 때문에 해당 데이터는 사내 및 파트너에게만 공개를 하고 있다.

이 결과에서 유의미한 차이를 확인했기 때문에 표준 STT는 내부적으로 결정을 했지만 실제 적용과정에서 단순한 일반방문자 응대 목적의 STT가 아닌, 특화되고 전문화된 서비스를 제공하고자 한다면 본 데이터는 참고일 뿐 실제 많은 준비와 사전작업 등에 따라 결과는 얼마던지 달라질 수 있다는 점을 염두에 두어야 한다.

끝으로 챗봇에서의 TTS는 Samsung, LG, Apple, BlackBerry 사의 디바이스 혹은 Android 운영체제에서 지원하고 있는 기본 TTS 엔진이 가장 최적화와 사용성 관점에서 일관성이 있다는 측면 때문에 상당기간 별도의 TTS 서비스를 추가 연결할 계획을 상정하지 않고 있다.

댓글 남기기