음성인식 소프트웨어 하면 우리나라에는 카카오, 네이버, SK 텔레콤, KT 등에서 적극적으로 개발하고 상용화를 진행하고 있는 회사들입니다.
하지만 글로벌 마켓에서는 우리나라 기업의 음성인식 솔루션이 알려지지 않은 것으로 보입니다.
아무래도 음성인식은 언어 특성에 의존을 많이하기 때문에 한국어에 특화된 우리나라 음성인식서비스가 세계무대에서 힘을 쓰기 어려운 것 같습니다.
그래서 오늘은 해외 음성인식 상용솔루션에 대해서 확인해봤습니다.
해외에서 잘 나가고 있는 음성인식 솔루션은 다음과 같았습니다.
1) 뉘앙스 (Nuance) Dragon Professional, Dragon Anywhere
2) 구글 (Google) Now, Cloud Speech API, Docs Voice Typing
3) 애플 (Apple) Siri
4) 아마존 (Amazon) Lex
5) 마이크로소프트 (Microsoft) Bing Speech API
6) Cortana
7) Voice Finger
1) 뉘앙스 (Nuance) Dragon Professional, Dragon Anywhere
Dragon Professional
전반적인 음성명령을 내릴 수 있고, 인식까지 잘 된다고 합니다. 윈도우 기반에 SW고 Home 버전은 약 150불, 전문가 버전은 300불, 그리고 법률쪽 음성인식까지 지원되는 버전은 500불의 비용을 지불해야 한다고 합니다. 온프레미스 기반의 SW입니다.
일상생활의 기본적인 음성명령 (이메일, 숙제, 웹서칭) 등을 지원가능하고, 전문가 버전에서는 문서관리, 서명삽입, 개인화된 음성지원까지 처리된다고 합니다.
Dragon Anywhere
뉘앙스사의 다른 음성인식 SW입니다. Dragon Professional 과는 다르게 클라우드 버전의 구독 SW입니다.
비용은 한 달에 15불, 1년에 150불 정도라고 합니다. 운영체제는 안드로이드와 iOS 버전이 있어 휴대폰에서 동작하는 음성인식 SW입니다.
7일 동안은 무료로 체험 가능하다고 하구요. 다양한 언어가 지원 가능합니다. 아무래도 같은 Dragon Professional 과 같이 Nuance 사의 기술이 적용된 제품이기 때문에 성능은 보장된다고 보시면 될 것 같습니다.
2) 구글 (Google) Now, Cloud Speech API, Docs Voice Typing
Google Now
대단한 기업인 구글에서 지원하는 클라우드 기반의 음성인식 앱입니다. iOS에서도 지원이 가능하구요. 안드로이드를 개발하는 구글이기에 앱 연동 기능들이 지원이 잘 되는 것이 특징입니다. 가격은 무료입니다.
Google Cloud Speech API
구글답게 120개 언어 이상을 지원하고 있구요. 15초 당 0.006불을 청구하고 있습니다.
상세한 가격표는 아래를 확인하시면 될 것 같습니다.
특이사항으로는 Cloud Speech API를 차나 TV같은 임베디드 시스템에 적용하고자 할 경우, 가격은 다를 수 있는 점을 알아두시면 좋을 것 같습니다.
Google Voice Typing
음성으로 텍스트 변환해주는데 특화된 서비스입니다. 네이버에서도 최근에 비슷한 서비스를 출시했었죠?
회의내용을 텍스트로 출력해주는 솔루션이었던 것 같습니다.
역시 무료이구요. 43개 언어까지 지원하고 있습니다.
3) 애플 (Apple) Siri
애플의 Siri입니다. 애플 솔루션이므로 iOS에서만 동작합니다. 가격도 당연히 무료구요.
21개 언어까지 지원이됩니다. 애플 제품을 사용하고 있으면 미리 설치가 되어있기에 따로 설치를 할 필요가 없습니다.
애플 제품에 대한 다양한 음성명령 및 인식 기능을 제공합니다.
4) 아마존 (Amazon) Lex
요즘 AWS를 사용하시는 분들이 많으실텐데요. Amazon Lex는 AWS 를 사용하는 고객들이 채팅플랫폼, IoT Device를 구현할 때 음성인식을 통합할 수 있도록 지원할 수 있습니다.
대화형 음성인식이 지원가능하구요 AWS 를 이용하는 고객들이 음성인식기능을 목적에 맞게 커스터마이징할 수 있는 점이 특징입니다.
5) 마이크로소프트 (Microsoft) Bing Speech API
미국의 내노라하는 IT기업들은 모두 음성인식 기술을 보유하고 있습니다. MS도 마찬가지입니다.
15개 언어까지 명령형 음성인식 기능을 지원하고 있으며, 5개 언어에 대해서는 대화형 음성인식까지 지원하고 있습니다.
특이점은 최근 마이크로소프트가 업계 1위인 뉘앙스사를 인수한 사실인데요. 아무래도 Bing Speech API는 뉘앙스사의 기술이 새로 탑재되어 출시될 것으로 예상됩니다.
6) Cortana
Cortana는 현재 Windows 10에 사전 설치가 되어있고, 안드로이드와 iOS에서도 이용가능합니다.
7 언어정도가 지원되고 있으며 기본적인 일상생활 관련 음성인식이 지원됩니다.
7) Voice Finger
Voice Finger의 경우에는 명령을 커스터마이징하는데 특화된 SW입니다.
커스터마이징을 잘 할 경우에는 컴퓨터를 음성으로만 제어하는 것이 가능할 수 있습니다.
마우스와 키보드가 필요없을 수 있는데요. 가격은 9.9 달러입니다.
아무래도 일상생활에 특화된 음성인식 SW는 무료이거나 매우 낮은 가격이 측정되 있는 반면, 전문적인 용도나 특수 산업군에서 사용되는 음성인식 SW는 가격대가 상당히 나가는 것 같습니다.
음성인식이라는 기술이 AI지만 개발리소스 투입이 상당한 기술이기에 진입장벽이 높아 특수한 용도로 사용할 경우에는 가격을 비싸게 받아도 되는 것으로 보입니다.
모쪼록 위 상용 SW에 대한 정보가 도움이 되었으면 좋겠습니다! 감사합니다.