생활 IT Tip/웹개발/웹디자인 리소스

[API] 최고의 음성인식 API 10가지 리뷰

AC 2021. 4. 18. 03:41

 

최고의 음성 인식 API 10 가지 : Google Speech, IBM Watson, SpeechAPI 등

 

Alfrick Opidi 코멘트를 남겨주세요

음성 인식은 컴퓨팅 시스템이 사람의 음성을 인식하고 응답 할 수 있도록 점점 더 많이 채택되고있는 획기적인 기술입니다. 이 기술은 현재 장치에 음성 입력을 지원하고 생산성을 높이기 위해 여러 분기에 걸쳐 사용되고 있습니다.개발자가 기능에 액세스하고이를 작업 환경에 통합 할 수 있도록 대부분의 음성 인식 응용 프로그램은 API (응용 프로그래밍 인터페이스)를 노출했습니다. 결과적으로 개발자는 자신의 기능을 확장하고 음성 언어를 식별 할 수있는 지능형 시스템을 구축 할 수 있습니다.

음성 인식이란 무엇입니까?

음성 인식 (자동 음성 인식, 컴퓨터 음성 인식 및 음성-텍스트)은 기계 또는 컴퓨터 프로그램이 음성 언어를 텍스트로 변환 할 수 있도록하는 기능입니다. 최신 음성 인식은 심층 신경망 알고리즘을 사용하며 수백 개 이상의 언어를 이해할 수 있습니다.

SCRIPT

{ "@context": "https://schema.org", "@type": "FAQPage", "mainEntity": [ { "@type": "Question", "name": "What is Speech Recognition?", "acceptedAnswer": { "@type": "Answer", "text": " Speech Recognition (aka Automatic Speech Recognition, computer speech recognition, & speech-to-text) is a capability which enables a machine or computer program to convert spoken language into text. Modern speech recognition uses deep neural network algorithms and can understand more than hundred languages. " } } ] }

다음 네 가지 주요 기준에 따라 여러 음성 인식 API를 검토했습니다.

  • API 기능 : 음성 인식 API의 다양한 뛰어난 기능을 평가했습니다.
  • 지원되는 언어 수 : 각 API가 지원하는 언어 수를 조사했습니다.
  • 가격 : 각 API를 애플리케이션에 통합하는 비용을 살펴 보았습니다.
  • 사용 편의성 : 사람의 목소리를 인식하기위한 각 API의 통합 용이성을 조사했습니다.

결국, 우리는 최고의 음성 인식 API 10 대 목록을 다음과 같이 만들었습니다.

목차 [ 숨기기 ]

음성 인식 API 상위 10 개

요약 : 다음은 우리가 찾은 결과를 요약 한 표입니다.

API API 기능 지원되는 언어 수 가격 사용의 용이성
Google Speech API 오디오를 텍스트로 변환, 음성 검색 활성화, 음성 제어 케이스 구축 120 매월 0-60 분 무료. 60 분 이상 $ 0.006 / 15 초 가격 쉬운
IBM Watson API 오디오를 텍스트로 변환하고, 음성 제어 케이스를 구축하고, 모델을 사용자 정의합니다. 7 분당 $ 0.002 ~ $ 0.01의 무료 요금제 및 유료 요금제 쉬운
SpeechAPI 소음 배경 억제, 음성 세그먼트 분류 제한된 비어 있는 쉬운
Speech to Text API 오디오를 텍스트로 변환 1 월 $ 500 ~ $ 1500의 무료 요금제 및 유료 요금제 쉬운
Text-to-Speech API 텍스트를 음성으로 변환 26 월 $ 5 ~ $ 300의 무료 요금제 및 유료 요금제 쉬운
Rev. AI API 음성을 텍스트, 구두점 및 대문자로 변환, 타임 스탬프 생성, 라이브 스트리밍 트랜스 크립 션 제한된 무료 요금제 및 종량제 가격 쉬운
ReadSpeaker API 텍스트를 음성으로 변환 20 무료 요금제 및 다양한 유료 요금제 쉬운
Speech2Topics API 분석을 위해 가청 미디어에서 주제 메타 데이터 추출 제한된 무료 요금제 및 다양한 유료 요금제 쉬운
Siri API 음성 제어 가상 비서 구축 제한된 월 $ 4.99 ~ $ 99.99의 무료 요금제 및 유료 요금제 쉬운
Wit API 자연어 처리 및 음성 인터페이스 기능 제공 제한된 비어 있는 쉬운

1. Google Speech API

공식적으로 Cloud Speech-to-Text라고하는 Google Speech API는 Google의 기계 학습 기술을 사용하여 오디오를 텍스트로 번역 할 수있는 강력한 API입니다.

API 기능 : Google Cloud Speech-to-Text API를

 사용하면 짧은 형식 또는 긴 형식의 오디오를 탁월한 정확도로 텍스트로 변환 할 수 있습니다. API를 사용하면 음성 검색 (예 : "지금 시간"), 명령 사용 사례 (예 : "음악 재생 중지")를 활성화하고 콜센터의 오디오를 텍스트로 변환하고 더 많은 작업을 완료 할 수 있습니다. 실시간 음성 언어 또는 파일에 저장된 오디오를 처리 할 수 ​​있습니다.

지원되는 언어 수 :

API는 전 세계 120 개 언어와 변형을 인식합니다. 오디오의 언어 유형을 자동으로 감지 할 수 있습니다 (4 개 언어로 제한됨).

가격 :

Google Speech API는 사용량에 따라 매월 가격이 책정됩니다. 0-60 분 처리는 무료이며 60 분 이상은 15 초마다 $ 0.006입니다.

사용 편의성 :

Google은 API 사용 방법에 대한 코드 샘플로 가득 찬 방대한 문서를 제공했습니다. 또한 통합 문제를 해결할 수있는 활발한 개발자 커뮤니티가 있습니다.Google의 음성 및 텍스트 API 제품군은 인상적입니다. Google 번역 API는 Google Speech API를 보완합니다. 개발자는 Google Speech 및 Google 번역 API의 강력한 기능을 사용하여 기능이 풍부한 앱을 구축하고 있습니다. API에 대한

자습서

를 따라 Google 번역 API에 대해 자세히 알아볼 수 있습니다 . (다른 언어

번역 API

확인 )

Google Voice API가 있습니까?

Google 보이스는 전화 서비스입니다. 착신 전환, 음성 메일 서비스, 음성 및 문자 메시지 등을 제공합니다. 2020 년 11 월 현재

Google Voice API

는 없습니다 .

SCRIPT

{ "@context": "https://schema.org", "@type": "FAQPage", "mainEntity": [ { "@type": "Question", "name": "Is there a Google Voice API?", "acceptedAnswer": { "@type": "Answer", "text": " Google Voice is a telephone service. It provides call forwarding, voicemail services, voice & text messaging etc. As of November 2020, there is no Google Voice API. " } } ] }

2. IBM Watson API

IBM Watson Speech to Text API를 사용하면 오디오를 서면 텍스트로 번역 할 수 있으므로 정확한 음성 인식 기능을 작업 환경에 포함 할 수 있습니다.

API 기능 :

API를 사용하면 실시간으로 오디오를 자동으로 변환하고, 음성 제어 애플리케이션을 구축하고, 콘텐츠 및 언어 기본 설정에 맞게 음성 인식 모델을 사용자 지정할 수 있습니다. 또한 마이크에서 오디오를 텍스트로 변환하거나, 콜센터 녹음을 텍스트로 변환하거나, 키워드를 사용하여 오디오 녹음을 분석하는 등 다양한 사용 사례에 API를 사용할 수 있습니다.

지원되는 언어 수 :

IBM Watson API는 7 개 언어를 지원합니다.

가격 : IBM Watson Speech to Text API

 에는 매월 100 분 을 텍스트로 변환 할 수있는 무료 요금제가 있습니다. 보다 광범위한 사용을 위해 분당 0.02 USD (최대 250,000 분)부터 분당 0.01 USD (100 만 분 이상)까지 다양한 가격 책정 계층이 있습니다.

사용 용이성 :

IBM은 빠르고 쉽게 시작할 수 있도록 광범위한 자원, 문서 및 SDK를 제공합니다. API를 최대한 활용하는 데 도움을 줄 수있는 활발한 개발자 커뮤니티도 있습니다.

3. SpeechAPI

SpeechAPI는 애플리케이션에 소음 억제 및 음성 분류 기능을 추가 할 수있는 간단한 API입니다.

API 기능 : SpeechAPI

 에는 파일 음성 처리 기능이 함께 제공됩니다. API를 사용하여 거의 모든 유형의 음성 스트림에서 잡음을 인식하고 음성에 영향을주지 않고 제거 할 수 있습니다. API는 지나가는 자동차, 사이렌, 우는 아이, 카페테리아의 배경 소음과 같은 다양한 소스의 소음을 자동으로 억제 할 수 있습니다. 또한 SpeechAPI를 사용하면 오디오 파일 내에서 음성 세그먼트를 인식하고 감정, 화자 언어, 성별 및 연령과 같은 다양한 특성을 기반으로 분류 할 수 있습니다.

지원되는 언어 수 :

API는 제한된 수의 언어를 지원합니다.

가격 :

API는 무료로 제공됩니다.

사용의 용이성 :

많은 프로그래밍 번거 로움없이 API를 포함 할 수있는 간단하고 따라하기 쉬운 문서가 있습니다.

4. Speech to Text API

Speech to Text API는 이름에서 알 수 있듯이 오디오를 서면 텍스트로 변환 할 수있는 간단한 API입니다.

API 기능 :

API는 음성을 정확하고 빠르게 텍스트로 변환하는 데 도움이되는 기계 학습 기술을 기반으로합니다. 짧은 형식과 긴 형식의 오디오를 모두 변환하는 데 사용할 수 있습니다.

지원되는 언어 수 : Speech to Text API

 는 영어 만 지원합니다. 모든 악센트 (영국, 미국 및 기타)를 자동으로 인식하여 최소한의 편차로 변환을 수행 할 수 있습니다.

가격 :

API를 무료로 사용할 수 있지만 월 60 분으로 제한됩니다. 보다 광범위하게 사용하려면 ULTRA 플랜 (월 $ 500, 월 15,000 분으로 제한) 또는 MEGA 플랜 (월 $ 1500, 월 60,000 분으로 제한)을 선택할 수 있습니다.

사용 용이성 :

API는 사용하기 쉽습니다. 구현을 빠르게 시작할 수있는 간단한 문서가 있습니다.

5. Text-to-Speech API

Voice RSS Text-to-Speech API는 이름에서 알 수 있듯이 텍스트 콘텐츠를 음성으로 변환 할 수있는 간단한 API입니다.

API 기능 : API

가 제공하는 음성 합성 시스템을 활용하여 일반 언어 텍스트를 사람의 음성으로 변환 할 수 있습니다. 몇 줄의 코드만으로 API에 연결하고 애플리케이션에서 청각 정보를 제공 할 수 있습니다.

지원되는 언어 수 : Text-to-Speech API

 는 다양한 사람이 들리는 음성을 제공하고 26 개 언어를 지원합니다.

가격 :

API에 무료로 액세스 할 수 있지만 하루에 350 개의 요청으로 제한됩니다. 더 많은 고급 기능에 액세스하려면 월 $ 5에서 $ 300까지 시작하는 유료 요금제를 선택할 수 있습니다.

사용 용이성 :

널리 사용되는 다양한 프로그래밍 언어로 제공되는 포괄적 인 설명서가있어 모든 플랫폼에서 API를 빠르고 쉽게 통합 할 수 있습니다.

6. Rev. AI API

Rev.AI API를 통해 개발자는 강력한 음성 인식 시스템에 액세스하고 음성-텍스트 기능을 애플리케이션에 구축 할 수 있습니다.

API 기능 :

함께

Rev.AI의 API

, 신속하고 정확하게 텍스트 녹음 방송에 사람의 음성을 변환 할 수 있습니다 및 오디오 및 비디오 콘텐츠를 더 많은 작업을 수행. API에는 구두점 및 대문자 사용 지원, 타임 스탬프 생성, 여러 화자를 인식하고 각각에 대한 텍스트 속성 지정 기능, 라이브 스트리밍 중에 음성을 텍스트로 변환하는 기능 등 다양한 놀라운 기능이 포함되어 있습니다.

지원되는 언어 수 :

API는 몇 가지 언어를 지원 합니다.

가격 :

15 초당 무료 파일 기간 할당량은 매월 240입니다. 그 이후에는 각각 $ 0.000875가 청구됩니다.

사용 용이성 :

모든 API의 공용 메서드 및 개체는 개발자가 쉽고 빠르게 사용할 수 있도록 잘 문서화되어 있습니다.

7. ReadSpeaker API

ReadSpeaker speechCloud API는 텍스트를 음성으로 변환하고 소프트웨어 및 장치의 다양성을 향상시킬 수있는 웹 기반 API입니다.

API 기능 :

API를 사용하면 작성된 텍스트에서 생성 된 오디오 파일을 읽을 수있는 양질의 남성 및 여성 음성에 액세스 할 수 있습니다. 언어 사용자 지정, 읽기 속도 조정 및 오디오 형식 변경과 같이 생성 된 오디오를 완전히 제어 할 수있는 여러 매개 변수가 제공됩니다.

지원되는 언어 수 : ReadSpeaker API

 는 전 세계의 약 20 개 언어와 변형을 지원합니다.

가격 :

평가판 계정으로 API를 무료로 사용해 볼 수 있습니다. 확장 된 사용의 경우 특정 가격에 대해 API 작성자에게 문의해야합니다.

사용 편의성 :

텍스트에서 오디오로의 변환 기능을 쉽게 구현하는 데 도움이되는 다양한 프로그래밍 언어로 된 간단한 문서와 샘플 코드가 있습니다.

8. Speech2Topics API

Yactraq Speech2Topics API는 기계 학습 기술을 활용하여 가청 데이터의 가시성을 향상시킬 수있는 분석 서비스입니다.

API 기능 :

API는 콜센터 호출, 서면 텍스트, 오디오 또는 비디오 콘텐츠와 같은 모든 가청 미디어에서 주제 메타 데이터를 추출합니다. 따라서 비즈니스 인텔리전스 결정을 내리는 데 사용할 수있는 중요한 통찰력을 제공합니다. 예를 들어 메타 데이터를 사용하여 타겟 광고를 만들고, 사용자 상호 작용을 향상시키는 UX 기능을 만들고, 브랜드 정서 요구 사항을 충족하기 위해 관련 YouTube 비디오를 마이닝 할 수 있습니다.

지원되는 언어 수 : Speech2Topics API

 는 제한된 수의 언어를 지원합니다.

가격 :

 API 기능을 테스트하기위한 무료 평가판 계정이 있습니다. 이후 구체적인 가격은 Yactraq에 문의해야합니다.

사용 용이성 :

Yactraq은 가청 데이터의 숨겨진 잠재력을 발견하기 위해 API 사용을 시작하는 방법에 대한 API 문서 및 온라인 고객 지원을 제공합니다.

9. Siri API

Siri by Voice Actions는 사용자가 자연어 음성 명령을 활용하여 Apple의 Siri 서비스처럼 다양한 동작을 완료 할 수있는 지능형 가상 비서입니다.

API 기능 :

Siri API를 사용하면 애플리케이션이 자연어 질문에 응답 할 수 있습니다. 최신 음성 제어 개인 비서에서 사용자가 필요로하는 유용한 기능에 대한 인터페이스를 제공합니다. API를 사용하면 사용자가 전화 또는 컴퓨터와 대화하고 음성 다이얼링 연락처, 내비게이션 정보 가져 오기, 이미지 검색과 같은 다양한 작업을 완료 할 수있는 애플리케이션을 빌드 할 수 있습니다. 또한 엔터티 추출뿐만 아니라 문장 분석을 수행하는 데 유용한 메타 데이터를 제공합니다.

지원되는 언어 수 :

API는 제한된 수의 언어를 지원합니다.

가격 :

Siri API

 에 무료로 액세스 할 수 있지만 하루에 30 개의 요청으로 제한됩니다. 한도를 늘리려면 월 $ 4.99에서 월 $ 99.99로 시작하는 유료 요금제를 선택할 수 있습니다.

사용 편의성 :

Voice Actions는 API를 많은 장애물없이 신속하게 통합하는 방법에 대한 자세한 문서를 제공했습니다.

10. Wit API

Wit API는 사용자의 음성을 해석 할 수있는 애플리케이션과 장치를 만드는 데 사용할 수있는 자연어 처리 및 음성 인터페이스 기능을 제공합니다.

API 기능 :

함께

재치의 API

가 사용자가 간단하게 대신 복잡한 단계를 수행하거나 많은 버튼을 클릭하는 자신의 의도를 표현하기 위해 이야기 할 수 있도록, 당신은 당신의 응용 프로그램에 최첨단 자연어 인터페이스를 포함 할 수 있습니다. 예를 들어 API를 사용하여 음성 제어 명령, 로봇 대화 인터페이스 및 Siri 스타일 개인 비서를 생성 할 수 있습니다.

지원되는 언어 수 :

API는 제한된 수의 언어를 지원합니다.

가격 :

무료로 제공됩니다.

사용 편의성 :

Wit는 포괄적 인 문서, 따라하기 쉬운 자습서 및 API 사용 방법에 대한 코드 샘플을 제공합니다.이것이 Rakuten RapidAPI의

상위 10 개 최고의 음성 인식 API

목록입니다 . 인간의 언어를 텍스트로 변환하거나 음성 제어 애플리케이션을 구축하거나 기타 음성 인식 작업을 완료하는 데 사용할 수있는 API를 찾을 수 있기를 바랍니다.

Rakuten RapidAPI 정보

Rakuten RapidAPI

는 8,000 개 이상의 타사 API를 보유한 세계 최대 API 마켓 플레이스이며 500,000 명 이상의 활성 개발자가 사용합니다. 개발자는 API의 힘을 통해 혁신적인 앱을 구축 할 수 있습니다. 한 곳에서 필요한 모든 API를 찾고, 테스트하고, 연결하세요!

 

LIST