음성 인식 소개

Lesson Progress

0% Complete

음성 인식이란 무엇입니까?

음성-텍스트 변환, 자동 음성 인식(ASR) 또는 컴퓨터 음성 인식이라고도 하는 음성 인식은 말을 식별하여 읽을 수 있는 텍스트로 변환하는 기계 또는 프로그램의 기능입니다.
즉, 음성 인식은 프로그램이 인간의 음성을 읽을 수 있는 형식으로 처리할 수 있도록 하는 기능입니다.
음성 인식 기술은 자연어 처리(NLP) 및 기계 학습(ML)을 사용하여 사람의 음성을 변환합니다.
음성 인식과 음성 인식의 차이점: 음성 인식은 구두 형식에서 텍스트 형식으로의 음성 번역에 초점을 맞추는 반면 음성 인식은 개별 사용자의 음성을 식별하려고 합니다.

음성 인식은 어떻게 작동합니까?

음성 인식 시스템은 코딩 및 알고리즘을 사용하여 사람의 음성을 분석 및 해석하고 이를 텍스트로 변환합니다.
음성 인식을 수행하기 위해 먼저 마이크로폰에서 사람의 음성을 감지한 다음 사운드 녹음을 소프트웨어 프로그램으로 전달합니다. 그런 다음 소프트웨어 프로그램은 이 사운드 녹음에 대해 여러 단계를 수행합니다. 가장 중요한 특징 추출 및 음성 단위 인식입니다. 마지막에 소프트웨어 프로그램은 디지털 처리된 사운드를 사람이 읽을 수 있는 텍스트로 변환합니다.
음성 인식 시스템의 단계별 작업은 다음과 같이 주어질 수 있습니다.
1. 사람의 말 녹음: 마이크는 사람 말의 소리 진동을 전기 신호로 변환합니다.
2. 사람의 음성 디지털화: 그런 다음 컴퓨터는 전기 신호(아날로그)를 디지털 신호로 변환합니다.
3. 음성 향상: 컴퓨터 전처리 장치가 음성 신호를 향상시켜 음질을 개선하고 배경 소음을 완화하여 소리를 더 선명하게 만듭니다.
4. 특징 추출: 이 방법은 음성 음성 인식을 사용하여 음성 입력을 처리합니다.
5. 음성 단위 인식: 음성 인식 소프트웨어는 음향 모델링을 사용하여 신호를 분석하여 음소를 등록합니다. 음소는 한 단어를 다른 단어와 구별하고 표현하는 음성 소리의 고유한 단위입니다.
6. 음성 인식: 이러한 각 고유 단어는 소프트웨어에 이미 저장된 동일한 단어의 일반적인 음성 패턴과 비교하여 인식됩니다.
일반적으로 현재 사용 가능한 알고리즘을 사용하여 음성 인식에서 90-95%의 정확도가 달성됩니다.

음성 인식의 응용

메모 작성/쓰기: 음성을 텍스트 번역으로 제공하는 음성 지원 소프트웨어는 가장 일반적인 응용 프로그램 중 하나입니다. Siri와 Alexa가 그러한 예입니다. Speechmatics 및 Google의 음성 텍스트 변환 엔진과 같은 음성 텍스트 변환 플랫폼도 유사한 유형의 예입니다.
음성 제어: 음성 인식을 사용하여 음성 사용자 인터페이스(VUI) 장치에 명령을 내리고 제어할 수 있습니다. 예: 자동차 인포테인먼트 시스템에 음악을 재생하거나 길 안내를 요청합니다.
장애인 돕기: 맹인이나 눈이 손상된 사람들이 자신의 말만 사용하여 선택한 언어로 유창하게 글을 쓸 수 있도록 합니다. 음성 인식은 또한 청각 장애인, 청각 장애인, 학습 및 기타 장애가 있는 사람들이 컴퓨터 및 유사한 하드웨어를 사용하여 자동 캡션, 딕터폰 등과 같은 기능을 사용하여 미디어에 참여할 수 있도록 합니다.
음성 생체 인식: 사용자 확인은 음성 인식의 한 예이며 보안 목적으로 은행 및 금융 산업에서 특히 유용합니다. 얼굴 인식과 마찬가지로 개인은 음성 인식을 사용하여 계정에 로그인할 수도 있습니다.
음성 인식과 음성 인식은 서로 다른 방식으로 작동하지만 일상 생활을 개선하는 많은 교차 기능을 제공하기 위해 밀접하게 얽혀 있습니다.