오디오 신호를 입력받는 머신러닝이나 신호처리 시스템을 사용할 때는 입력받은 신호가 사용하기 적합하도록 다양한 처리를 해주곤 합니다. 가장 단순한 방법으로 오디오 신호의 레벨을 조정하는 노멀라이즈가 있습니다. 이번 포스트에서는 다양한 노멀라이즈 기법이 어떤 특징을 가지고 언제 적용할 수 있는지 알아보겠습니다.
용어
노멀라이즈(Normalize)는 정규화라고 번역하는경우가 많은데, 노멀라이즈에는 결과가 특정 기준에서 '1'이 된다는 의미를 함축하고있습니다. 좀 고민이 되는데 그냥 노멀라이즈라고 해버리겠습니다.레벨 변경
우선 디지털 오디오 신호를 $x[n]$ 혹은 간단히 $x$라고 하겠습니다. 보통 노멀라이즈는 $x_{normalized} = K \times x$ 의 과정이 됩니다. $K>1$ 이면 소리가 더 커지는 증폭(amplification)이 되고 $K<1$이면 소리가 더 작아지는 감쇠(reduction)가 됩니다. 즉, 특별히 주파수별로 처리를 해주지 않는다면 소리의 특성은 그대로 남아있고 레벨만 변합니다. 청취자가 이 소리를 듣는 맥락이라면 이를 흔히 볼륨을 높이거나 낮춘다고 이야기합니다.이제 노멀라이즈 기법에 대해 알아봅시다.
1. 진폭(Amplitude) 노멀라이즈
디지털 도메인에서는 신호 $x$의 최댓값, 최솟값이 존재하죠. 정수로 표현하면 비트레잇에 따라 다르겠지만 Float으로 표현하면 $[-1, 1]$의 범위를 갖는것이 일반적입니다. 만일 $\text{max}(|x|)>1$인 신호가 있더라도 이를 오디오 '데이터'로 사용하는데는 별 문제가 없습니다. 즉, 이런 오디오 신호도 머신러닝 시스템의 입력값으로 사용할 수 있다는 말입니다. 물론 i) 시스템이 입력값의 크기와 무관한 성능을 보여야 하는지, ii) 실제로 원하는대로 작동하는지는 따로 점검을 해야겠지만요. 하지만 이를 그대로 재생한다면 진폭이 1이 넘는 구간은 제대로 소리가 나지 않습니다. 재생과정에서 이는 강제로 $[-1, 1]$구간이 되도록 짤리게되는데 이를 클리핑이라고 합니다. 클리핑이 난다, 클리핑이 뜬다, 등의 상황입니다.정리하면, 재생하려는 오디오 신호는 진폭 노멀라이즈가 필요합니다.
2. 에너지(Energy) 노멀라이즈
에너지 노멀라이즈는 다소 상대적인 개념입니다. 신호 $x$와 $y$가 있을 때, 두 신호의 제곱의 합(의 평균)이 같아지도록 하는 과정입니다. 데이터셋에 신호가 많이 있다면 전체 신호의 제곱의 합(의 평균)이 전부 같아지도록 해야겠죠. 즉.. $\sum_n{x[n] ^ 2} / n $과 $\sum_n{y[n] ^ 2} / n $가 같아지도록 두 신호의 레벨을 조정하는 것입니다. RMS 에너지/볼륨 노멀라이즈라고도 이야기합니다.진폭과 차이점은, 진폭보다는 에너지가 '실제로 사람이 들었을 때 느껴지는 두 신호의 크기'(=라우드니스)를 더 잘 나타내주기 때문에 에너지 노멀라이즈를 함으로써 두 신호의 '볼륨'이 같아지는 것(을 근사하는 것)이라고 볼 수 있습니다.
에너지 노멀라이즈는 머신러닝에서도 흔히 사용하는 방법입니다. 다만, 위에서도 이야기했듯이 에너지 노멀라이즈를 해주는게 학습하는 시스템의 특성과 잘 맞는지 고민해보고 사용해야합니다.
3. 라우드니스(Loudness) 노멀라이즈
우선 라우드니스의 개념을 알아보겠습니다. 위에서 제가 라우드니스를 '실제로 사람이 들었을 때 느껴지는 두 신호의 크기'라고 이야기했는데, 이 정의를 꼼꼼히 살펴볼 필요가 있습니다.주관성
우선 소리의 크기 인지는 사람마다 다르므로 근본적으로 라우드니스는 주관적인 개념입니다. 그래도 뭔가 하긴 해야하니 '평균'적인 인지를 가정하겠습니다.라우드니스는 주파수의 함수
에너지가 소리의 크기를 대략적으로 나타내주긴하지만 정확하진 않습니다. 에너지가 같은 신호라도 주파수가 다르면 라우드니스, 즉 체감상 느끼는 소리의 크기가 달라집니다. 예를 들어 사람은 3-5 kHz 대역의 소리에 예민하고, 주파수가 아주 낮아지거나 아주 높아지면 잘 듣지 못합니다. 그러므로 에너지가 같은 신호라도 $x$의 주 성분이 100 Hz에, $y$의 주 성분이 3,000 Hz에 있다면 $y$의 라우드니스가 훨씬 큽니다. (물론 이것도 주파수 특성이 평탄한, 즉 100 Hz와 3,000 Hz의 소리를 둘 다 균일하게 재생하는 스피커나 이어폰을 사용하는 경우에 해당합니다.)따라서 라우드니스를 맞춰주려면 주파수 분석을 해야합니다.
라우드니스는 레벨의 함수
그런데 그게 다가 아니고, 라우드니스는 레벨에 따라 달라집니다. 이걸 한번에 나타내주는 그림이 아래의 등청감곡선인데, i) 값이 주파수에 따라 달라서 선이 구불구불하고, ii) 구불구불한 패턴이 소리의 크기에 따라 다르다는 점을 이해하면 됩니다.
따라서 정확한 라우드니스를 구하려면 주파수 분석뿐만 아니라 이 신호(signal)가 어떤 크기의 소리(sound)로 재생될지 알아야합니다.
..그런데 당연히 이걸 알 수가 없겠죠?
도대체 이 신호를 청취자가 들을 때 볼륨을 어떻게 설정하고 들을지 알 수가 없으니까요.
도대체 이 신호를 청취자가 들을 때 볼륨을 어떻게 설정하고 들을지 알 수가 없으니까요.
애당초 디지털 도메인에 있는 신호에는 '라우드니스'라는 개념이 정의되지 않습니다.
그렇지만 근사적으로 맞춰주고자할때는 위의 등청감곡선의 평균적인 분포를 이용하거나, 이를 더욱 더 근사한 A-weighting같은것을 사용합니다. 조금 신경을 쓴다면 예를들어 0 dBFS를 100 dB SPL과 같다고 가정하고 이를 기준으로 처리하는 방법도 있습니다.
마지막으로, 여러 신호를 균일하게 전처리하려는 목적은 아니지만 음성 신호 처리에서 사용하는 pre-emphasis도 라우드니스가 주파수의 함수이기 때문에 (구체적으로는 사람이 저주파수 성분을 잘 못듣기 때문에) 적용된다고 볼 수 있습니다.
4. Mu-law
Mu-law는 낮은 비트레잇(예: 8비트)으로도 최대한 좋은 음질을 얻기 위해 사용하는 방법입니다. 보통 16비트에서는 잘 사용하지 않습니다. 이 방법은 앞에서 소개한 노멀라이즈랑은 조금 다르지만 같이 소개하겠습니다.
Mu-law는 웨이브넷에서 사용하면서 유명해졌죠. 웨이브넷은 오디오의 샘플을 직접 생성하는 뉴럴넷입니다. 그런데 최종 레이어에서 Softmax를 사용하고, 진폭 출력을 회귀(Regression)가 아니라 분류(Classification)문제로 보고 값을 예측합니다. 따라서 8비트 오디오를 생성하는 문제는 총 $2^8=256$개의 카테고리 중 정답을 고르는 문제인데, 이걸 16비트 오디오로 비트레잇을 올리면 $2^{16}=65536$개의 카테고리가 되어서 문제가 많이 어려워집니다. 이를 효율적으로 해결하기 위해 8비트 오디오를 사용하지만 mu-law를 활용했습니다. 다시말해, 진폭을 8비트로 양자화하는 방법중에서 결과가 듣기 좋도록(잡음이 덜 들리도록) 최적화하는 방법입니다.
Mu-law는 오디오를 더 높은 비트레잇의 오디오를 (예: 16비트) 더 낮은 비트레잇으로 저장하는 과정에서(예: 8비트) mu-law따라 저장하는것으로 미리 설정해줘야(=mu-law 인코딩을 수행한 뒤 저장)합니다. 다시말해 일반적인 8비트 오디오 신호를 다시 mu-law를 이용해 더 고음질로 저장하는것은 불가능합니다.
Mu-law는 오디오를 더 높은 비트레잇의 오디오를 (예: 16비트) 더 낮은 비트레잇으로 저장하는 과정에서(예: 8비트) mu-law따라 저장하는것으로 미리 설정해줘야(=mu-law 인코딩을 수행한 뒤 저장)합니다. 다시말해 일반적인 8비트 오디오 신호를 다시 mu-law를 이용해 더 고음질로 저장하는것은 불가능합니다.
5. 주파수 도메인 (STFT) 노멀라이즈
이건 오디오 신호처리보다 머신러닝에 국한된 이야기입니다. 상당수 연구에서 log STFT Magnitude $\log(M)=\log(|X|)=\log(|\text{stft}(x)|)$의 크기를 특정 구간으로 노멀라이즈합니다. 상황에 따라 $[0, 80]$, $[0, 120]$, $[-120, 0]$, $[-1, 1]$ 등.. 제각각입니다. 이쯤되면 오디오 신호라기보다는 입력 데이터의 값을 컨디셔닝해주는 것으로 보는게 더 알맞겠죠.
진폭에도 해당되는 이야기인데, 특히 오디오 신호나 STFT Magnitude를 생성하는 머신러닝 시스템이라면 출력값의 범위와 최종 레이어의 액티베이션 함수 등을 적절하게 선택해야겠죠. 예컨대 GANSynth에서는 마지막 레이어에 $Tanh$ 함수를 사용하지만, 가급적 함수의 선형 구간에 값이 해당되도록 하기 위해 STFT의 크기와 위상을 $[-1, 1]$로 노멀라이즈했습니다.
이번 포스트는 여기까지입니다.