Audio Data Preprocessing

카테고리 없음

Audio Data Preprocessing

proggg 2021. 2. 7. 15:39

728x90

Audio ?

audio 는 매질이 진동 하면서 발생한다. 예를 들어 목소리는 성대에서 발생한 파동이 공기를 분자를 진동시키면서 형성되는 공기압의 진폭이 위와 같은 waveform 형태를 만들게 된다.

Y 축은 Amplitude ( 진폭 ). X 축은 Time (시간 . sec ) 이다.

특정 지점에서 그 값이 다시 등장하기 까지의 시간을 period ( 주기 ) 라고 한다. 주기의 역수는 frequency ( 주파수 ) 개념으로 확장이 된다. Frequency 는 Hz 단위를 사용하고 초당 100번 period ( 주기 ) 가 발생하는 소리를 100 Hz 라고 정의 한다. 따라서 주파수는 f = 1/t 수식이 성립한다.

사람의 가청 주파수 ( Frequency ) 는 20 Hz ~ 20KHz 이다.

Analog Digital Conversion ( ADC )

오디오 데이터는 연속적인 데이터인데, 이를 input 으로 넣기 위해서는 discrete 한 벡터로 만들어야 한다. 이를 위해서 ADC ( Analog Digital Conversion ) 과정을 거치고 이는 Sampling , Quantization 두개의 step 으로 이루어진다.

Sample Rate

Sample Rate 는 초당 sample 개수를 의미한다. 예를 들어, Sample rate = 44100 Hz 인 소리는 초당 44100 개의 sample 을 뽑았다는 말이다.

영상업계의 표준 동기화 문제로 보통 오디오 Sample Rate 는 44100 Hz 값을 갖게 된다.

Quantization

실제로 continuous 한 데이터를 discrete 하게 만드는 과정인데 , 이와 관련 된 개념으로 Bit Depth 가 있다. Bit Depth 는 Quantization 을 얼마나 세밀하게 할지에 대한 정도로 예를 들어서 audio file 의 bit depth 가 16bits 이면 , 16 bit ( 약 65536 levels ) 값으로 discrete 하게 양자화 된 소리임을 의미한다. 양자화를 마친 데이터는 인코딩을 거쳐 0과 1 이진 비트로 표현 된다.

Feature Extraction

위에서 Audio 가 어떻게 정의되고, 데이터 화 되는지 알았다. 하지만 오디오 데이터는 매우 고차원이고, 여러 Frequency 가 섞여서 발생하므로, 데이터를 그대로 사용하는 것 보다 , 신호의 성질을 잘 반영하는 Feature 를 추출하는 것이 좋다.

그렇기 때문에 MFCCs ( Mel - Frequancy Cepstral Coefficients ) 라는 대표적인 오디오 Feature 를 뽑는 과정을 살펴 볼 필요가 있다.

이 과정에 대해서 하나씩 알아보자.

Windowing ( Framing )

input data ( audio ) 는 sequential 하고, time dependent 하다. 따라서 Time invariant ( stationary ) 과정이 가능해지고, 아주 짧은 구간으로 신호를 쪼갠다. 이 과정을 windowing 이라고 한다. 이렇게 잘린 구간 내에서 신호는 stationary 가정을 만족해 시간에 영향을 받지 않게 된다. 음성인식 task 에서는 각 구간이 하나의 phone 을 가지게 잘라준다. 보통 25 ms 정도를 한 구간의 길이로 잡는다.

각각 추출한 windowing 의 양 끝은 잘라온것이기 때문에 불연속할 수 있다. 따라서 window 의 양 끝을 0 으로 수렴시키는 window function 을 각 구간마다 곱해준다. 다음 그림에 정규분포 같이 생긴 함수가 window function 이다.

FFT ( Fourier Transform & Spectogram )

푸리에 변환 ( Fourier Transform )

audio 신호는 차원이 매우크고, 한 신호에도 서로 다른 여러 Frequency 들이 결합되어 있어, waveform 에서 feature 를 뽑아내기 어렵다. 푸리에 변환은 신호를 다른 frequency 들의 합으로 표현해, waveform 을 time domain 에서 frequency domain 으로 변환 시킨다. 이를 통해 아무리 복잡한 신호라도 각각의 frequency 에서 해석이 가능하다. 밑에 그래프를 보며 이해해보자.

728x90

현재글Audio Data Preprocessing

💻 🧐

[ 발행 글은 Notion 블로그에서 발췌 되었습니다. ]

250x250

expoitdb, AI, MLOps, Python, 자율주행, ros, ml, 알파벳찾기, 백준, genmap, 학습용데이터구축, 오프라인환경, kubernetes, netdicover, jetson, k8s, kubeflow, on-premiss, 라이다, 백준1018번,

Today :
Yesterday :

일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

💻 🧐