자동 음성 인식(음성-텍스트 변환) 귓속말 API

자동 음성 인식(음성-텍스트 변환)이란 무엇인가요?

자동 음성 인식(음성-텍스트 변환이라고도 함)은 오디오 파일에서 텍스트를 추출하는 작업입니다. 이는 종종 AI 파이프라인에서 중요한 첫 번째 단계입니다. 지난 몇 년 동안 많은 발전이 이루어졌으며, 이제 오디오 또는 비디오 파일에서 매우 정확하게 텍스트를 추출할 수 있게 되었습니다.

예를 들어, 다음은 Archive.org에 저장된 LibriVox 오디오북(에드먼드 해밀턴 저, 금속 거인)의 한 챕터입니다: https://ia801400.us.archive.org/10/items/metalgiants_2209_librivox/metalgiants_03_hamilton_64kb.mp3.

자동 음성 인식

NLP 클라우드에서 이 파일에 대해 자동 음성 인식을 수행하면 다음과 같은 텍스트가 표시됩니다:

Chapter three of The Medal Giants by Edmound Hamilton. This Librivox recording is in the public domain. Read by Ben Tucker. Chapter three: Lanier arrived [...] In a thousand homes the evening meal was being prepared, and the day's gossip related. In the west, the sun sank lower and lower, and all around, beyond the encircling hills, death marched toward the city with crashing giant strides. End of chapter three.

맞춤법 오류가 없을 뿐만 아니라 구두점이 자동으로 추가되었기 때문에 매우 우수한 텍스트 추출입니다.

또한 자막을 만들기 위해 단어 수준의 타임스탬프를 가져올 수도 있습니다.

음성-텍스트 변환을 사용하는 이유는 무엇인가요?

최근 음성-텍스트 변환의 품질이 크게 향상되어 흥미로운 애플리케이션이 많이 등장하고 있습니다. 다음은 몇 가지 예시입니다:

고객 지원

이제 자동 음성 인식 기능 덕분에 고객 통화를 자동으로 분석하여 중요한 정보를 추출할 수 있습니다. 예를 들어 어떤 지원 상담이 잘 진행되었고 어떤 상담이 잘 진행되지 않았는지 자동으로 파악하여 그에 따라 조치를 취할 수 있습니다.

음성 메시지 분석

때로는 이러한 모든 음성 메시지를 적시에 처리하기가 어려울 때가 있습니다. 하지만 수신되는 각 메시지를 자동으로 분석하여 의도를 추출하고, 분류하고, 긴급성 등을 감지하여 손쉽게 대응할 수 있습니다.

의료 보고서

의사가 환자와의 대화를 녹음하거나 대화 요약을 기록하는 것은 매우 흔한 일입니다. 이제 이러한 보고서를 자동으로 텍스트로 변환한 다음 대화 요약, 엔티티 추출 등과 같은 여러 종류의 사후 처리를 수행할 수 있습니다.

동영상 자막

오늘날 동영상은 어디에나 있습니다. 자동 동영상 자막은 접근성을 높이고 동영상 콘텐츠를 더욱 SEO 친화적으로 만들 수 있는 좋은 방법입니다. 두 번째 단계로 자막을 쉽게 번역하여 동영상을 전 세계에 제공할 수 있습니다.

OpenAI Whisper를 통한 자동 음성 인식 대형

위스퍼 라지는 97개 언어의 자동 음성 인식을 획기적으로 개선하기 위해 OpenAI에서 출시한 고급 음성 인식 AI 모델입니다.

이 모델은 입력된 오디오 또는 비디오 파일에서 언어를 자동으로 감지하고 결과에 구두점을 자동으로 추가합니다. 또한 단어 수준의 타임스탬프를 추출할 수 있어 자막 제작에 매우 유용합니다. Whisper 오픈소스 프로젝트는 여기에서 찾을 수 있습니다. 이 모델은 커먼 보이스, 라이브리스피치, 복스포퓰리와 같은 인기 있는 데이터 세트에서 미세 조정되었으며, 이 글을 쓰는 현재 가장 진보된 다국어 음성-텍스트 변환 모델입니다.

NLP 클라우드의 Whisper 대형 API

NLP Cloud는 합리적인 가격으로 OpenAI Whisper Large를 기반으로 자동 음성 인식을 즉시 수행할 수 있는 빠른 음성-텍스트 변환 API를 제안합니다.

자세한 내용은 자동 음성 인식에 대한 문서를 참조하세요. 여기.

로컬에서 음성-텍스트 변환을 테스트하는 것과 프로덕션 환경에서 안정적으로 사용하는 것은 별개의 문제입니다. NLP Cloud를 사용하면 이 두 가지를 모두 해결할 수 있습니다!

Whisper 음성-텍스트 변환 시도하기
무료

자주 묻는 질문

자동 음성 인식이란 무엇인가요?

자동 음성 인식(ASR)은 컴퓨터나 기타 장치가 사람의 음성을 인식하여 텍스트 데이터로 변환할 수 있도록 하는 기술입니다. 여기에는 음성 언어를 기계가 읽을 수 있는 형식으로 변환하여 음성-텍스트 변환, 음성 인식 명령, 자연어 처리와 같은 다양한 애플리케이션에 사용할 수 있습니다.

위스퍼란 무엇인가요?

Whisper는 OpenAI에서 만든 고급 오픈 소스 ASR(음성-텍스트 변환) 모델입니다. 97개 언어의 오디오를 매우 정확하게 텍스트로 변환할 수 있습니다.

Whisper API를 무료로 사용해 볼 수 있나요?

예, NLP Cloud의 모든 모델과 마찬가지로 Whisper API도 무료로 테스트할 수 있습니다.

Whisper API를 사용하여 여러 언어로 오디오를 텍스트로 변환할 수 있나요?

예, Whisper는 97개 언어의 오디오를 텍스트로 변환할 수 있습니다.

위스퍼는 자동으로 문장 부호를 추가하나요?

예

Whisper를 사용하여 오디오를 텍스트로 변환하고 다른 언어로 자동 번역할 수 있나요?

아니요. 오디오가 추출되면 번역 엔드포인트를 사용해야 합니다: see our translation documentation here.

위스퍼는 타임스탬프를 반환하나요?

예

위스퍼 API는 실시간 트랜스크립션(토큰 스트리밍)을 지원하나요?

아니요, 지금은 아닙니다.

음성 인식 과정에서 AI API는 데이터 프라이버시 및 보안을 어떻게 처리하나요?

NLP Cloud는 데이터 개인정보 보호에 중점을 두고 설계되어 사용자가 API에서 요청하는 내용을 기록하거나 저장하지 않습니다. NLP Cloud는 HIPAA 및 GDPR을 모두 준수합니다.

Whisper 음성-텍스트 변환 시도하기
무료