Wednesday, December 4, 2019

영국과 미국 유학 비교 - 졸업과 취직

2016년 5월에 제가 <영국 박사과정의 특징>이라는 제목으로 글을 하나 썼었습니다. 이번 글은 <영국 박사과정의 특징> 2편이라고 할 수 있겠네요. 자세한 내용은 학교마다 조금 다를 수 있습니다. 기본적으로는 공대/컴공, 201x년을 가정하고 있습니다.

"박사과정 3년"의 의미

흔히 유럽 박사학위 공고에 3년짜리 코스라고 나오는데, 이는 입학한지 3년 뒤에 땡! 하고 졸업이 되어서 PhD를 준다는 의미는 아닙니다

보통 대학원은 다음과 같은 과정을 거칩니다.

---[A. 입학]---
.
.
.
.
.
.
(일반적인 박사과정 학생인 상태. 교수에게 연구지도를 받도록 되어있는 기간.)
.
.
.
.
.
.
---[B. 뿅!]---
.
.
(졸업논문=학위논문 Writing-up stage. 공식적으로 연구지도는 끝남. 이 기간은 대략 3개월쯤 걸림)
.
.
---[C. 박사 학위논문 제출]---
.
.
(취직준비, 놀기, 디펜스 준비 등. 논문 심사 위원이 논문을 읽어야하므로 2달정도 시간이 걸림)
.
.
---[D. 박사 학위논문 심사 = 디펜스. 이게 끝난 날 사람들이 막 뫄뫄 박사라고 불러주며 축하해줌.]---
.
(별 일 없으면, 학위 논문을 마지막으로 열심히 고침. 대충 2달쯤.)
.
---[E. 박사 학위 논문 최종본 제출. 이제 공식적으로 박사학위를 보유함.]---
.
.
---[F. 봄이건 가을이건, 여하간 학교 졸업식. 학위복입고 사진찍는 날]---


그리고 공고에서 나오는 기간은 [A. 입학]에서 [B]까지의 기간이 3년이라는 말입니다. 더 정확히 말하면, 등록금과 생활비를 제공해주며 그 결과 연구지도를 받을 수 있는 기간이 총 3년이라는 말입니다. 
다시말해 3년 이상 줄 돈은 없다는 말입니다.


짧은 박사과정의 장단점

아무튼 학위를 빨리 받을 수 있다는 것은 큰 장점입니다. 그러나 장점만 있는것은 아니죠. 세상은, 정확히는 고용주는, 박사과정 학위가 있다고 해서 모든 사람을 동일하게 취급하지 않습니다. 그리고 일단 취직을 하고 나면 새로운 지식을 쌓기는 어렵고, 따라서 실력을 키우는 일도 쉽지 않습니다. 결과적으로 박사를 졸업하는 순간에 갖고있는 스펙이나 능력치가 갖는 영향력이 상당합니다.

따라서 졸업 시점의 능력치를 비교한다면 당연히 1-2년 더 길게 대학원 다니는게 좋겠죠. 이렇게 보면 짧은 기간이 장점만은 아닙니다.

목표가 미국에 있는 회사에 취직하는 것이라면 미국 대학원이 유리

미국에서 직장을 구하려면 회사에 합격하는 것만큼이나 비자가 중요합니다. 경우에 따라 비자가 더 중요하기도 합니다.

미국에서 대학원을 졸업하면 상대적으로 미국 취직이 쉬워집니다. 미국에 있으면 미국에 있는 회사에서 인턴을 하는 기회가 훨씬 많고, 회사에서 비자 스폰서를 받을 필요가 없으므로 자리를 얻을 확률이 확 올라갑니다. 

졸업 후 직장을 구할때도 마찬가지입니다. 미국 대학원 졸업생은 OTP를 이용할 수 있으므로 첫 일단 비자문제없이 취직이 가능하고, 그 뒤에 H1B로 전환하는 연착륙이 가능합니다. 그렇지 않다면 처음부터 H1B를 받아야하는데 일단 추첨을 통과해야하니 운이 좋아야하고 (요즘은 대략 1:3 이라고 이야기합니다) 이 추첨이 연 1회뿐이라 타이밍이 잘 맞아도 몇달, 잘 안맞으면 1년이 훌쩍 넘게 기다려야합니다. 그렇다면 회사입장에서는 비자때문에 입사 가능성이 불투명하고, 가능하다하더라도 시간이 한참 걸리는 사람에게 오퍼를 주는 것인데, 그러려면 실력이 훨씬 더 뛰어나야합니다. 

이 과정을 피하려면 다른 노력이 필요합니다. 피논문 피인용 횟수등을 고려하여 발급해주는 O-1 비자가 있습니다. 다만 충분한 피인용 실적이 있어야합니다. 또는 미국에 있는 회사의 다른 나라 지사(예: 런던, 서울 등)에서 1년동안 근무하면 주재원 비자(L-1 비자)를 발급받을 수 있습니다. 회사에서 이야기가 잘 된다면 비자발급 자체는 상대적으로 수월합니다. 하지만 1년이라는 시간이 걸리고, 미국 국외에 지사가 있고 거기에서 일을 해도 되는 (예컨대 본인이 지원하는 직종이 연구직이라면 연구인력이 미국과 유럽에 모두 있는) 상황이 맞아야하죠. 역시 선택가능한 보기가 줄어듭니다.

다시 강조합니다. 미국 취직에서 비자는 아주 중요한 문제이니 자세히 알아봐야합니다. 

글을 마칩니다. 많은 도움 되었길 바랍니다.

Sunday, December 1, 2019

독서 - 그 많던 싱아는 누가 다 먹었을까 - 박완서

크리스토퍼 놀란의 <배트맨 비긴즈>는 그 자체로도 훌륭한 영화지만 이어지는 <다크나이트>, <다크나이트 라이즈>의 에필로그이기도 하다. 박완서의 자전적 소설 <그 많던 싱아는 누가 다 먹었을까>는 박완서가 직접 쓴 <박완서 비긴즈>랄까. 박완서의 작품 전반에 전후세대 가족의 삶이 자주 나오는데, 일제강점기 후반기 - 해방 - 한국전쟁을 유년기와 청소년기에 겪은 박완서의 삶을 보며 작가 개인의 경험이 작품에 끼친 영향력을 짐작할만하다.

박완서는 작품에서 작중 인물의 허위 의식을 즐겨 까발린다. 이는 소설과 수필에서 두루 나타나는 특징이고 여기엔 화자 자신도, 심지어 수필의 화자인 작가도 예외가 아니다. 이는 물론 <그 많던 싱아는 누가 다 먹었을까>에 나오는 친오빠, 친구들, 선생님, 친척에게도 마찬가지이며 그 중 누구보다도 자주 '까이는' 인물은 바로 박완서의 친엄마다. 작가가 굳이 작심하고 쓴 것같지는 않다. 그보다는 박완서의 유년기에 가장 큰 영향을 미친 인물이 엄마이고, 엄마에게도 자비 없는 인물 묘사가 적용되었을 뿐이라 생각한다.

40-50년대 한국인의 삶의 단면을 낱낱히 보는 재미도 쏠쏠하다. 일제시대말 개성 시골에서 서기장을 하던, 해방 이후 친일파로 마을의 비난을 받던 박완서의 친척, 좌익 운동에 매진하던 박완서의 오빠, 그리고 피상적이지만 역시 좌익 사상에 친화적이었던 박완서 자신. 가진것 하나 없이 서울로 상경해 '현저동' 달동네에서 살아가는 가족의 희노애락과 이들의 삶을 휘젓는 역사의 흐름.

박완서의 작품을 좋아한다면 반드시 읽기를 권한다. 혹시 박완서를 잘 모른다면 다른 작품을 먼저 접한 뒤 읽는 것이 작가를 이해하는데 더 도움이 될 것이다.


Monday, September 2, 2019

독서 - 김대중 평전, 김삼웅 (1/2)


몇 주 전 김대중 전 대통령 서거 10주기 뉴스를 보고 문득 그의 삶을 자세히 알고싶어졌다. 서거 1주기인 2010년 8월에 출간된 이 두 권짜리 평전을 사서 한권을 다 읽었다.
덕분에 민주화 운동의 상징이라는 것 이외에 별 아는바가 없었는데 생각보다 너무 굉장한, 그야말로 거목이라는 것을 이제야 깨달았다. 그야말로 20세기 대한민국의 정치 역사에서 단 한명을 꼽는다면 단연 김대중 전 대통령을 꼽아야 할 것 같다. 젊은 나이부터 정치를 시작해서 한국의 건국 시점부터 20세기가 끝날때까지 민주주의라는 가치를 현실화하기위해 이렇게 노력하고 영향력을 행사한 줄은 전혀 몰랐다.

이번엔 특히 형광펜을 많이 쳤고, 흐름을 이해할 수 있도록 검토도 했으니 재미있게 봐주시길.






















Friday, August 23, 2019

Q&A. 오디오 코덱/디코더와 머신러닝/딥러닝

사운들리 그룹에 올라온 질문과 제 답변을 정리한 글입니다.

----------

질문

오디오 데이터셋의 오디오 포맷이 wav와 flac으로 섞여있습니다. 이를 librosa.load로 불러온 뒤 스펙트로그램이나 mfcc로 변환하려고 합니다. 이 경우에 flac을 wav로 변환해서 전체 파일 포맷을 동일하게 만들어둬야 하나요? 아니면 실시간으로 librosa.load로 불러서 바로 스펙트로그램, mfcc등을 계산하면 되나요?

1줄 답변

미리 변환하지 않고 그냥 librosa.load를 바로 쓰시면 됩니다.

3줄 답변

Flac은 무손실 압축입니다. 즉, 디코더 구현에 관계없이 원본 파형을 그대로 유지해야합니다. 따라서 아무 디코더나 쓰셔도 괜찮습니다.

여러줄 답변

질문의 요지는 "flac을 wav로 변환해서 전체 파일 포맷을 동일하게 만드는 과정"과 "librosa.load에서 사용하는 flac 디코딩 과정"에 차이가 있냐는 것입니다. 일단 flac은 무손실 압축이므로 3줄 답변에서 보듯이 어떻게 디코딩하든간에 차이가 없습니다.

조금 더 알아보면, librosa는 자체적인 오디오 디코더를 가지고 있지 않습니다. librosa는 backend로 시스템에 깔려있는 오디오 디코더를 사용합니다. 만약 디코더가 아예 없다면 에러 메시지를 내보냅니다. 그런데 보통 리눅스나 맥에서는 ffmpeg을 많이 사용하죠. 그리고 아마 직접 flac을 wav로 변환하더라도 마찬가지로 시스템에 설치된 (ffmpeg) 디코더를 사용하겠죠. 따라서 결과는 같습니다.

만약 mp3같이 손실 압축이라면 디코더 버전이나 구현이 중요한가요?

사실, 손실 압축이어도 마찬가지입니다. mp3를 예로 들면, mp3 코덱이 차이가 날 수 있는 부분은 인코더입니다. 공개된 인코더인 LAME같은 경우는 사실 성능이 별로 좋지 못합니다. 대부분의 mp3 인코더는 유료이고, 어떤 mp3 인코더를 쓰느냐에 따라, 같은 스펙 (예: 128 kbps) 이라도 성능(음질)에 차이가 날 수 있습니다.

그런데 질문의 상황은 디코딩 과정이 달라질 수 있냐는 것이죠. 오디오 디코더는 구현 방식에 따른 차이가 (거의) 없습니다. 다만 페북 그룹의 현동일님께서 답변해주신것처럼, 임베디드 시스템에 디코더를 구현한다든지 하면 연산량이나 연산방식 등의 제한으로 인해 다소 오차가 있을 수 있습니다. 하지만 이건 머신러닝에서 데이터를 처리하는 것과는 관련이 없겠죠.

mp3 압축 여부가 학습에 영향을 미치나요?

이건 상황에 따라 다릅니다. 별도의 포스팅으로 정리하도록 하죠.

Saturday, August 17, 2019

독서 - 제비를 기르다, 윤대녕

리디북스 링크

별 근거없이 한번 사서 읽어봤는데 글솜씨가 내 취향이 아니라 재미없는 독서였다. 윤대녕 작가의 비유법은 (내게는) 아무래도 자연스럽지가 않다. 그래서 읽으면서 상당히 거슬렸다. 그 이유를 잠시 생각해봤다.

1인칭 시점의 작품에서 화자는 이야기를 전하는 역할이기도 하지만 작중 인물이기도 하다. 그리고 다른 인물과의 대사뿐만 아니라 화자가 서술하는 모든 내용은 화자의 내면의 목소리를 통해 전달된다. 따라서 화자의 서술 방식과 표현에도 개연성이 있어야 한다. 다시말해, 글을 읽으면서 "이렇게 틈만나면 특이한 비유를 하는 사람이 세상에 어딨나"하는 생각이 들면 안된다는 말이다.

소설가의 덕목이 소위 글빨에만 있는것은 아니고, 재미있게 읽는 사람들도 많은듯하다. 그렇지만 목소리가 거슬리는 노래를 어찌 듣겠는가.. 그래서 두 편 읽고 말았다.





독서 - 사양, 다자이 오사무 (장현주 역)

리디북스 링크

여러분, 다자이 오사무 작품은 연이어 읽지 않는 편이 정신건강에 좋습니다.
하긴 그렇게 따지면 한 권도 안읽는게 제일인가 -.-





독서 - The White Book, 한강

펭귄북스 링크

그럭저럭 읽다가 중간에 접음. 시집이나 노래 가사집같은 책이라 출장중에 읽기엔 내가 너무 산만한 사람이라.. 그런데 출장이 아니어도 비슷했을것 같다. 그냥 호흡이 느린 책을 읽는법을 아직 배우지 못한걸수도. 

독서 - 그녀를 만나다, 곽재식

환상문학웹진 <거울> 링크

곽재식 작가님이 이런 글도 잘 쓰시는 줄 몰랐다. 화자의 1인칭 심리 묘사가 아주 구체적이고 사실적이라 작가님이 평소에 그런 상황을 종종 생각하시는건가, 하는 생각을 했다. 

Saturday, August 3, 2019

독서 - 은교, 박범신

내적 갈등이란 참 끔찍하다. 







독서 - 채식주의자, 한강


한강의 채식주의자 영역본을 읽었다. 2016년 맨부커상(이라는 상)을 받으면서 한국에서도 유명해진것같고, 그맘때 나도 국문 원본은 읽었던 기억이 난다. 아마 그 해에 읽은 거의 유일한 책이었던걸로 기억한다.

소설에 대해 간략히 이야기하자면, 처음 읽었을 때보다 훨씬 더 좋은 인상을 받았다. 주제의식이라든지 내용은 생략. 영혜의 남편, 영혜의 형부, 영혜의 언니로 이어지는 시점의 변화가 특히 눈에 띈다.

이렇게 국문 원본이랑 영역본을 둘 다 읽어본 작품은 이번이 처음같다. 오역 논란은 조금 다른 얘기같지만, 표현 방식의 차이가 본질적으로 문화 차이에 있는것이라 완벽한 번역은 불가능하다는걸 읽으면서 절감했다. 아니, 막 형부! 장인어른, 이거 어떻게 번역해도 이상한데 뭐 어찌해야하는지. 채식주의자의 번역가 드보라 스미스는 이런 내용을 반쯤은 직역으로 처리했다. 예를들어 "Father-in-law, 어쩌구저쩌구.."라는 식으로. 영어 화자가 읽으면 다소 어색하겠지만 이런 어투가 한국-영어 번역투로 정형화될수도 있고.

그리 길지 않고 (180쪽), 내용을 알고 봐서 그런지 영어로도 읽을만했다. 원작을 재미있게 읽었다면 궁금해서라도 한번 읽어볼만하다.

Sunday, June 9, 2019

딥러닝과 오디오 데이터 전처리

이번 글에서는 딥러닝과 오디오 데이터 전처리 전반을 살펴보겠습니다. 제가 몇몇 발표 (2017-11-03 판교 혁신센터, "음악과 딥러닝의 사랑과 전쟁" (발표자료))에서 다룬적이 있는데, 이미지랑은 달리 오디오 데이터는 몇가지 특징이 있습니다.

  • 데이터 사이즈가 크다 - 상황에따라 천차만별이지만 오디오는 기본 16비트고 (이미지는 8비트 x 3, 4채널) 1초당 int16짜리 데이터가 44,100개가 있습니다.
  • 디코딩이 느리다 - 데이터가 크기 때문에 음성/음악 코덱 기술이 많이 발달했습니다. 그런데 오디오 코덱은 신호를 시작부터 끝까지 순차적으로 디코딩합니다. 그리고 연산량이 적어서 디코딩 속도가 빠를수록 좋긴 하지만, 한편으론 재생 속도보다 빠르기만 하면 일반적인 오디오 재생에는 별 문제가 없겠죠. 그러다보니 딥러닝 학습과정에선 문제가 될 수 있습니다. 즉, 디코딩 속도가 데이터 로딩의 병목이 될 수 있습니다.
  • 별도의 전처리가 필요할 수 있다 - STFT, Melspectrogram 등의 연산이 여기에 해당합니다.

그 외에, 일반적인 딥러닝 학습을 하다보면 누구나 겪게되는 상황이 있습니다.

  • 데이터가 커서 메모리에 다 안들어간다.
    • HDF? memmap?
  • 데이터를 추가하거나 데이터 전처리 파라미터를 편리하게 변경할 수 있어야한다.

이런 상황을 고려하면 해결책은 아래와 같습니다.

  • 저장 포맷
    • 디코딩이 끝난 오디오 데이터를 그대로, 파일마다 .wav (int16)나 .npy (numpy array, int16/float32/etc)로 저장
    • 예: audio_1.wav, audio_2.wav, ... audio_10000.wav
    • 장점: 로딩이 빠르다
    • 단점: mp3등 압축 코덱 대비 하드디스크 공간을 많이 차지한다. 그러나 대부분의 경우에 현실적으로 큰 문제가 아님. 하드디스크는 별로 안비싸고, 오디오 데이터셋이 보통 그렇게까지 크지 않음. 
  • 로딩 방식
    • 파이토치와 텐서플로 모두 데이터 로딩 모듈이 잘 짜여져있습니다. 각 모듈에서 데이터 인덱스(예: idx=10)를 받아서 파일을 하나 로딩하는걸 구현합니다.
    • 사용할때는 인덱스 ([1, 2, 3,.. ,10000])을 shuffle한 뒤에 순서대로 불러오면 됩니다.
    • 파이토치의 경우엔 예를들면 저는 이렇게 합니다 (소스).
    • 장점: 
      • 데이터를 쉽게 추가할 수 있음. 마찬가지로 shuffle도 다양하게 할 수 있음. (만일 hdf를 쓰면 연속된 메모리에서 불러와야 유리하므로 미리 셔플을하고 저장해야하는데 이 모든 데이터 준비 과정이 시간을 많이 잡아먹음)
      • 배치 사이즈만큼의 데이터를 불러오는 과정은 텐서플로/파이토치의 데이터 로딩이 알아서 멀티프로세싱으로 잘 수행하므로 편리하고 안정적임. 
  • 전처리
    • 가급적 대부분의 전처리를 gpu에서 수행 (stft 등)
      • 장점: 파라미터 변경이 쉬움. 나중에 모델을 배포하고 사용할때도 오디오 파일을 그대로 불러와서 진폭을 바꿔주고 (int16 --> float, [-1.0, 1.0]) 샘플링 레잇만 맞춰주면 바로 모델에 넣을 수 있어서 편리함. Dependency가 적어짐 (librosa같은 외부 라이브러리를 쓰지 않아도 되므로). 
      • 단점: gpu의 연산과 메모리를 조금 더 사용함.


Thursday, May 9, 2019

오디오 노멀라이즈(정규화) 방법 정리


오디오 신호를 입력받는 머신러닝이나 신호처리 시스템을 사용할 때는 입력받은 신호가 사용하기 적합하도록 다양한 처리를 해주곤 합니다. 가장 단순한 방법으로 오디오 신호의 레벨을 조정하는 노멀라이즈가 있습니다. 이번 포스트에서는 다양한 노멀라이즈 기법이 어떤 특징을 가지고 언제 적용할 수 있는지 알아보겠습니다.

용어

노멀라이즈(Normalize)는 정규화라고 번역하는경우가 많은데, 노멀라이즈에는 결과가 특정 기준에서 '1'이 된다는 의미를 함축하고있습니다. 좀 고민이 되는데 그냥 노멀라이즈라고 해버리겠습니다.

레벨 변경

우선 디지털 오디오 신호를 $x[n]$ 혹은 간단히 $x$라고 하겠습니다. 보통 노멀라이즈는 $x_{normalized} = K \times x$ 의 과정이 됩니다. $K>1$ 이면 소리가 더 커지는 증폭(amplification)이 되고 $K<1$이면 소리가 더 작아지는 감쇠(reduction)가 됩니다. 즉, 특별히 주파수별로 처리를 해주지 않는다면 소리의 특성은 그대로 남아있고 레벨만 변합니다. 청취자가 이 소리를 듣는 맥락이라면 이를 흔히 볼륨을 높이거나 낮춘다고 이야기합니다.

이제 노멀라이즈 기법에 대해 알아봅시다.

1. 진폭(Amplitude) 노멀라이즈 

디지털 도메인에서는 신호 $x$의 최댓값, 최솟값이 존재하죠. 정수로 표현하면 비트레잇에 따라 다르겠지만 Float으로 표현하면 $[-1, 1]$의 범위를 갖는것이 일반적입니다. 만일 $\text{max}(|x|)>1$인 신호가 있더라도 이를 오디오 '데이터'로 사용하는데는 별 문제가 없습니다. 즉, 이런 오디오 신호도 머신러닝 시스템의 입력값으로 사용할 수 있다는 말입니다. 물론 i) 시스템이 입력값의 크기와 무관한 성능을 보여야 하는지, ii) 실제로 원하는대로 작동하는지는 따로 점검을 해야겠지만요. 하지만 이를 그대로 재생한다면 진폭이 1이 넘는 구간은 제대로 소리가 나지 않습니다. 재생과정에서 이는 강제로 $[-1, 1]$구간이 되도록 짤리게되는데 이를 클리핑이라고 합니다. 클리핑이 난다, 클리핑이 뜬다, 등의 상황입니다.

정리하면, 재생하려는 오디오 신호는 진폭 노멀라이즈가 필요합니다.

2. 에너지(Energy) 노멀라이즈

에너지 노멀라이즈는 다소 상대적인 개념입니다. 신호 $x$와 $y$가 있을 때, 두 신호의 제곱의 합(의 평균)이 같아지도록 하는 과정입니다. 데이터셋에 신호가 많이 있다면 전체 신호의 제곱의 합(의 평균)이 전부 같아지도록 해야겠죠. 즉.. $\sum_n{x[n] ^ 2} / n $과 $\sum_n{y[n] ^ 2} / n $가 같아지도록 두 신호의 레벨을 조정하는 것입니다. RMS 에너지/볼륨 노멀라이즈라고도 이야기합니다.

진폭과 차이점은, 진폭보다는 에너지가 '실제로 사람이 들었을 때 느껴지는 두 신호의 크기'(=라우드니스)를 더 잘 나타내주기 때문에 에너지 노멀라이즈를 함으로써 두 신호의 '볼륨'이 같아지는 것(을 근사하는 것)이라고 볼 수 있습니다.

에너지 노멀라이즈는 머신러닝에서도 흔히 사용하는 방법입니다. 다만, 위에서도 이야기했듯이 에너지 노멀라이즈를 해주는게 학습하는 시스템의 특성과 잘 맞는지 고민해보고 사용해야합니다.

3. 라우드니스(Loudness) 노멀라이즈

우선 라우드니스의 개념을 알아보겠습니다. 위에서 제가 라우드니스를 '실제로 사람이 들었을 때 느껴지는 두 신호의 크기'라고 이야기했는데, 이 정의를 꼼꼼히 살펴볼 필요가 있습니다.

주관성

우선 소리의 크기 인지는 사람마다 다르므로 근본적으로 라우드니스는 주관적인 개념입니다. 그래도 뭔가 하긴 해야하니 '평균'적인 인지를 가정하겠습니다.

라우드니스는 주파수의 함수

에너지가 소리의 크기를 대략적으로 나타내주긴하지만 정확하진 않습니다. 에너지가 같은 신호라도 주파수가 다르면 라우드니스, 즉 체감상 느끼는 소리의 크기가 달라집니다. 예를 들어 사람은 3-5 kHz 대역의 소리에 예민하고, 주파수가 아주 낮아지거나 아주 높아지면 잘 듣지 못합니다. 그러므로 에너지가 같은 신호라도 $x$의 주 성분이 100 Hz에,  $y$의 주 성분이 3,000 Hz에 있다면 $y$의 라우드니스가 훨씬 큽니다. (물론 이것도 주파수 특성이 평탄한, 즉 100 Hz와 3,000 Hz의 소리를 둘 다 균일하게 재생하는 스피커나 이어폰을 사용하는 경우에 해당합니다.)

따라서 라우드니스를 맞춰주려면 주파수 분석을 해야합니다.

라우드니스는 레벨의 함수

그런데 그게 다가 아니고, 라우드니스는 레벨에 따라 달라집니다. 이걸 한번에 나타내주는 그림이 아래의 등청감곡선인데, i) 값이 주파수에 따라 달라서 선이 구불구불하고, ii) 구불구불한 패턴이 소리의 크기에 따라 다르다는 점을 이해하면 됩니다. 



따라서 정확한 라우드니스를 구하려면 주파수 분석뿐만 아니라 이 신호(signal)가 어떤 크기의 소리(sound)로 재생될지 알아야합니다.

..그런데 당연히 이걸 알 수가 없겠죠?
도대체 이 신호를 청취자가 들을 때 볼륨을 어떻게 설정하고 들을지 알 수가 없으니까요. 
애당초 디지털 도메인에 있는 신호에는 '라우드니스'라는 개념이 정의되지 않습니다. 

그렇지만 근사적으로 맞춰주고자할때는 위의 등청감곡선의 평균적인 분포를 이용하거나, 이를 더욱 더 근사한 A-weighting같은것을 사용합니다. 조금 신경을 쓴다면 예를들어 0 dBFS를 100 dB SPL과 같다고 가정하고 이를 기준으로 처리하는 방법도 있습니다.

마지막으로, 여러 신호를 균일하게 전처리하려는 목적은 아니지만 음성 신호 처리에서 사용하는 pre-emphasis도 라우드니스가 주파수의 함수이기 때문에 (구체적으로는 사람이 저주파수 성분을 잘 못듣기 때문에) 적용된다고 볼 수 있습니다.

4. Mu-law

Mu-law는 낮은 비트레잇(예: 8비트)으로도 최대한 좋은 음질을 얻기 위해 사용하는 방법입니다. 보통 16비트에서는 잘 사용하지 않습니다. 이 방법은 앞에서 소개한 노멀라이즈랑은 조금 다르지만 같이 소개하겠습니다. 

Mu-law는 웨이브넷에서 사용하면서 유명해졌죠. 웨이브넷은 오디오의 샘플을 직접 생성하는 뉴럴넷입니다. 그런데 최종 레이어에서 Softmax를 사용하고, 진폭 출력을 회귀(Regression)가 아니라 분류(Classification)문제로 보고 값을 예측합니다. 따라서 8비트 오디오를 생성하는 문제는 총 $2^8=256$개의 카테고리 중 정답을 고르는 문제인데, 이걸 16비트 오디오로 비트레잇을 올리면 $2^{16}=65536$개의 카테고리가 되어서 문제가 많이 어려워집니다. 이를 효율적으로 해결하기 위해 8비트 오디오를 사용하지만 mu-law를 활용했습니다. 다시말해, 진폭을 8비트로 양자화하는 방법중에서 결과가 듣기 좋도록(잡음이 덜 들리도록) 최적화하는 방법입니다.

Mu-law는 오디오를 더 높은 비트레잇의 오디오를 (예: 16비트) 더 낮은 비트레잇으로 저장하는 과정에서(예: 8비트) mu-law따라 저장하는것으로 미리 설정해줘야(=mu-law 인코딩을 수행한 뒤 저장)합니다. 다시말해 일반적인 8비트 오디오 신호를 다시 mu-law를 이용해 더 고음질로 저장하는것은 불가능합니다. 

5. 주파수 도메인 (STFT) 노멀라이즈

이건 오디오 신호처리보다 머신러닝에 국한된 이야기입니다. 상당수 연구에서 log STFT Magnitude $\log(M)=\log(|X|)=\log(|\text{stft}(x)|)$의 크기를 특정 구간으로 노멀라이즈합니다. 상황에 따라 $[0, 80]$, $[0, 120]$, $[-120, 0]$, $[-1, 1]$ 등.. 제각각입니다. 이쯤되면 오디오 신호라기보다는 입력 데이터의 값을 컨디셔닝해주는 것으로 보는게 더 알맞겠죠.

진폭에도 해당되는 이야기인데, 특히 오디오 신호나 STFT Magnitude를 생성하는 머신러닝 시스템이라면 출력값의 범위와 최종 레이어의 액티베이션 함수 등을 적절하게 선택해야겠죠. 예컨대 GANSynth에서는 마지막 레이어에 $Tanh$ 함수를 사용하지만, 가급적 함수의 선형 구간에 값이 해당되도록 하기 위해 STFT의 크기와 위상을 $[-1, 1]$로 노멀라이즈했습니다. 



이번 포스트는 여기까지입니다.




Sunday, May 5, 2019

블로그 통계

약 4년간 블로그를 운영했네요. 제 블로그의 방문 현황과 게시물 조회수등을 간략히 공유합니다. 

게시물 누적 조회수

45334
29945
14951
13888
May 31, 2016, 9 comments
5076
4490
4016
3169
3106
3008


최근 일주일간 게시물 조회수

201
103
82
82
76
May 31, 2016, 9 comments
75
37
23
22
18


누적 방문 경로 


파편화가 긴했는데 구글과 페이스북이 압도적이군요. 

국가별 페이지뷰

South Korea
210146
United States
17518
Russia
12321
United Kingdom
3143
Japan
2900
Germany
1256
Ukraine
1189
France
915
Canada
786
Unknown Region
610

대략한국 유학생의 분포가 아닐까합니다. 우크라이나가 순위권에 있는것은 조금 의외군요.