Audio Data Preprocessing
Audio ?
audio λ 맀μ§μ΄ μ§λ νλ©΄μ λ°μνλ€. μλ₯Ό λ€μ΄ λͺ©μ리λ μ±λμμ λ°μν νλμ΄ κ³΅κΈ°λ₯Ό λΆμλ₯Ό μ§λμν€λ©΄μ νμ±λλ 곡기μμ μ§νμ΄ μμ κ°μ waveform ννλ₯Ό λ§λ€κ² λλ€.
Y μΆμ Amplitude ( μ§ν ). X μΆμ Time (μκ° . sec ) μ΄λ€.
νΉμ μ§μ μμ κ·Έ κ°μ΄ λ€μ λ±μ₯νκΈ° κΉμ§μ μκ°μ period ( μ£ΌκΈ° ) λΌκ³ νλ€. μ£ΌκΈ°μ μμλ frequency ( μ£Όνμ ) κ°λ μΌλ‘ νμ₯μ΄ λλ€. Frequency λ Hz λ¨μλ₯Ό μ¬μ©νκ³ μ΄λΉ 100λ² period ( μ£ΌκΈ° ) κ° λ°μνλ μ리λ₯Ό 100 Hz λΌκ³ μ μ νλ€. λ°λΌμ μ£Όνμλ f = 1/t μμμ΄ μ±λ¦½νλ€.
μ¬λμ κ°μ² μ£Όνμ ( Frequency ) λ 20 Hz ~ 20KHz μ΄λ€.
Analog Digital Conversion ( ADC )
μ€λμ€ λ°μ΄ν°λ μ°μμ μΈ λ°μ΄ν°μΈλ°, μ΄λ₯Ό input μΌλ‘ λ£κΈ° μν΄μλ discrete ν 벑ν°λ‘ λ§λ€μ΄μΌ νλ€. μ΄λ₯Ό μν΄μ ADC ( Analog Digital Conversion ) κ³Όμ μ κ±°μΉκ³ μ΄λ Sampling , Quantization λκ°μ step μΌλ‘ μ΄λ£¨μ΄μ§λ€.
Sample Rate
Sample Rate λ μ΄λΉ sample κ°μλ₯Ό μλ―Ένλ€. μλ₯Ό λ€μ΄, Sample rate = 44100 Hz μΈ μ리λ μ΄λΉ 44100 κ°μ sample μ λ½μλ€λ λ§μ΄λ€.
μμμ κ³μ νμ€ λκΈ°ν λ¬Έμ λ‘ λ³΄ν΅ μ€λμ€ Sample Rate λ 44100 Hz κ°μ κ°κ² λλ€.
Quantization
μ€μ λ‘ continuous ν λ°μ΄ν°λ₯Ό discrete νκ² λ§λλ κ³Όμ μΈλ° , μ΄μ κ΄λ ¨ λ κ°λ μΌλ‘ Bit Depth κ° μλ€. Bit Depth λ Quantization μ μΌλ§λ μΈλ°νκ² ν μ§μ λν μ λλ‘ μλ₯Ό λ€μ΄μ audio file μ bit depth κ° 16bits μ΄λ©΄ , 16 bit ( μ½ 65536 levels ) κ°μΌλ‘ discrete νκ² μμν λ μ리μμ μλ―Ένλ€. μμνλ₯Ό λ§μΉ λ°μ΄ν°λ μΈμ½λ©μ κ±°μ³ 0κ³Ό 1 μ΄μ§ λΉνΈλ‘ νν λλ€.
Feature Extraction
μμμ Audio κ° μ΄λ»κ² μ μλκ³ , λ°μ΄ν° ν λλμ§ μμλ€. νμ§λ§ μ€λμ€ λ°μ΄ν°λ λ§€μ° κ³ μ°¨μμ΄κ³ , μ¬λ¬ Frequency κ° μμ¬μ λ°μνλ―λ‘, λ°μ΄ν°λ₯Ό κ·Έλλ‘ μ¬μ©νλ κ² λ³΄λ€ , μ νΈμ μ±μ§μ μ λ°μνλ Feature λ₯Ό μΆμΆνλ κ²μ΄ μ’λ€.
κ·Έλ κΈ° λλ¬Έμ MFCCs ( Mel - Frequancy Cepstral Coefficients ) λΌλ λνμ μΈ μ€λμ€ Feature λ₯Ό λ½λ κ³Όμ μ μ΄ν΄ λ³Ό νμκ° μλ€.
μ΄ κ³Όμ μ λν΄μ νλμ© μμ보μ.
Windowing ( Framing )
input data ( audio ) λ sequential νκ³ , time dependent νλ€. λ°λΌμ Time invariant ( stationary ) κ³Όμ μ΄ κ°λ₯ν΄μ§κ³ , μμ£Ό 짧μ ꡬκ°μΌλ‘ μ νΈλ₯Ό μͺΌκ° λ€. μ΄ κ³Όμ μ windowing μ΄λΌκ³ νλ€. μ΄λ κ² μλ¦° κ΅¬κ° λ΄μμ μ νΈλ stationary κ°μ μ λ§μ‘±ν΄ μκ°μ μν₯μ λ°μ§ μκ² λλ€. μμ±μΈμ task μμλ κ° κ΅¬κ°μ΄ νλμ phone μ κ°μ§κ² μλΌμ€λ€. λ³΄ν΅ 25 ms μ λλ₯Ό ν ꡬκ°μ κΈΈμ΄λ‘ μ‘λλ€.
κ°κ° μΆμΆν windowing μ μ λμ μλΌμ¨κ²μ΄κΈ° λλ¬Έμ λΆμ°μν μ μλ€. λ°λΌμ window μ μ λμ 0 μΌλ‘ μλ ΄μν€λ window function μ κ° κ΅¬κ°λ§λ€ κ³±ν΄μ€λ€. λ€μ κ·Έλ¦Όμ μ κ·λΆν¬ κ°μ΄ μκΈ΄ ν¨μκ° window function μ΄λ€.
FFT ( Fourier Transform & Spectogram )
νΈλ¦¬μ λ³ν ( Fourier Transform )
audio μ νΈλ μ°¨μμ΄ λ§€μ°ν¬κ³ , ν μ νΈμλ μλ‘ λ€λ₯Έ μ¬λ¬ Frequency λ€μ΄ κ²°ν©λμ΄ μμ΄, waveform μμ feature λ₯Ό λ½μλ΄κΈ° μ΄λ ΅λ€. νΈλ¦¬μ λ³νμ μ νΈλ₯Ό λ€λ₯Έ frequency λ€μ ν©μΌλ‘ ννν΄, waveform μ time domain μμ frequency domain μΌλ‘ λ³ν μν¨λ€. μ΄λ₯Ό ν΅ν΄ μ무리 볡μ‘ν μ νΈλΌλ κ°κ°μ frequency μμ ν΄μμ΄ κ°λ₯νλ€. λ°μ κ·Έλνλ₯Ό 보며 μ΄ν΄ν΄λ³΄μ.