Tuesday, July 13, 2021

총, 균, 쇠 // 대변동 위기 - 제러드 다이아몬드

대변동 위기 리디북스 링크


쉽고 재미있게 잘 썼네요. 문명, 사회, 개인이 위기에 대처하는 방식을 자세히 소개하고 그 과정에서 우리가 얻을수 있는 교훈을 다룹니다. <총, 균, 쇠>가 부담스럽다면 이 책을 먼저 읽는것을 추천합니다.


총, 균, 쇠.

인문학 교양 서적의 고전이죠. 이 책을 인종차별주의적이라고 비판하는 의견들도 제법 있던데 저는 별로 동의하지 않습니다. 저자는 왜 어떤 문명이 다른 문명보다 더 "강하게" 되었는가를 이야기하는데, 저는 사람들이 이 내용을  "강한 문명이 좋은 문명이다"라고 오독하는것이 아닌가 의심합니다.

Sunday, January 17, 2021

첫 직장 요약

---
2018년 7월 30일 입사.
하반기: 대충 놀면서 연구함
---
2019년 2월 첫 평가. 결과는 별로. 
4월 드러머넷 논문 제출
여름: 음성 관련 일 시작 (나중에 포기)
가을: 어쿠스틱 벡터 프로젝트 시작
겨울: 오토 레벨링 시작
---
2020년 2월. 해커톤에서 오토레벨링 마무리. 서비스로 올리고싶었으나 실패.
2월 평가는 잘 받음
3월. 어쿠스틱 벡터 마무리. 배포는 남에게 맡김
4월 JointISM 시작. Q2동안 진행.
5월 Instrumentify 데이터셋 만들기 시작
5월 바이트댄스 면접 진행
6월 오퍼 수락
7월 말 비자 완료
8월 초 퇴사
---

박완서 - 그대 아직도 꿈꾸고 있는가

박완서 작품 다수가 인간의 야비한 면을 노골적으로 묘사하지만 <그대 아직도 꿈꾸고 있는가>는 제가 읽어본 것 중 제일이네요. 육성으로 탄식이 나올정도입니다. 

Saturday, April 11, 2020

Q&A. 음악 유사도를 이용한 추천엔진 개발


질문


프로젝트로 음악의 특징 유사도를 이용한 내용기반 음악 추천시스템을 만드려 하고 있고, 현재 논문들을 서베이중입니다.
그런데, 음악의 어떤 특징을 추출해야 할지가 고민입니다. 널리 알려진 방법으로는 MFCC를 추출하여 DTW 기법을 활용하여 유사도 계산을 하는 것인데요, 이것이 과연 제 주제에 적합한지 아직 직관이 없습니다.
설문조사 결과, 두 음악이 유사한지를 판단하는 기준 중 가장 많은 표를 받았던 게 음악의 멜로디와 빠르기였는데, MFCC가 이러한 정보를 담을 수 있는지도 모르겠습니다

답변


mfcc에는 그런 정보가 거의 없습니다. 템포는 상대적으로 쉽게 추출가능하지만 (librosa 등) 멜로디는 추출과 유사성 비교 둘 다 까다롭습니다. 어느정도의 성능을 원하시는지 모르겠지만 유사한 곡을 찾는 성능이 프로젝트에서 제일 중요한 핵심이 아니라면 mfcc 기반으로 하셔도 뭔가 작동하긴 할겁니다.


추가 질문


국내 논문을 보던중에 크로마레벨표현으로 멜로디 유사도를 구현한 논문을 읽어봤습니다. 여기서는 MRR이 0.713으로 수치상 꽤 높은 값이 나왔는데, 혹시 멜로디 추출과 유사성 비교가 까다롭다고 하신 이유를 알 수 있을까요?

답변


mfcc는 수식으로 정확하게 정의되고 그 특징이 잘 알려져있죠. 그리고 지금 보니 본문에서 DTW를 활용한다고 하셨는데 그렇다면 음악을 mfcc의 수열로 나타내고 그 수열의 유사성이 음악의 유사성을 나타낸다는 가정일텐데, 더 흔하게는 주어진 음악의 시간축에서의 평균과 표준편차를 씁니다. 이렇게하면 성능이 대단히 뛰어나지는 않겠지만 각 음악 신호가 갖는 소리로서의 특징(음색)이 반영된 추천엔진으로 작동을 합니다. 그리고 음색은 음악을 구성하는 악기나 장르와 관련이 깊으므로 추천엔진이 엄청나게 취향을 저격해주진 않겠지만 크게 실패하지도 않겠죠.
반면 멜로디를 추출하고 거기에서 유사성을 비교한다면, 우선 멜로디가 정확하게 추출된다는 가정이 필요하고 (대충 되긴 합니다만) 여기에서는 정말로 멜로디라는 시계열 데이터가 유사한지 찾아내는 잣대가 필요합니다. 멜로디는 곡 전체를 아우르는 시계열 데이터인데 그렇다면 예컨대 4분짜리 곡 전체의 멜로디가 다 비슷해야 된다는것인지 (물론 그건 아니겠죠), 아니면 일부가 비슷하면 된다는것인지, 그렇다면 일부만 비슷한 멜로디를 어떻게 찾아낼 수 있을지 (메트릭을 잘 디자인해야하고) 등등 문제가 생각나네요. 결정적으로, 유저들은 멜로디가 비슷하면 비슷한 음악이라고는 응답하긴 했지만 글쎄요, 그게 어떤 유사성을 의미하는지 알기도 어렵고, 전혀 다른 장르인데 멜로디가 비슷하면 정말로 그 멜로디의 유사성이 호불호의 중요한 기준이 된다고 말할수있을지 회의적입니다. 따라서 이런 불확실성을 해소하는 것이 프로젝트의 목적이라면 얼마든지 재미있는 연구를 진행할 수 있습니다. 그렇지 않다면 굳이 시간을 들일 필요가 없구요.


Wednesday, December 4, 2019

영국과 미국 유학 비교 - 졸업과 취직

2016년 5월에 제가 <영국 박사과정의 특징>이라는 제목으로 글을 하나 썼었습니다. 이번 글은 <영국 박사과정의 특징> 2편이라고 할 수 있겠네요. 자세한 내용은 학교마다 조금 다를 수 있습니다. 기본적으로는 공대/컴공, 201x년을 가정하고 있습니다.

"박사과정 3년"의 의미

흔히 유럽 박사학위 공고에 3년짜리 코스라고 나오는데, 이는 입학한지 3년 뒤에 땡! 하고 졸업이 되어서 PhD를 준다는 의미는 아닙니다

보통 대학원은 다음과 같은 과정을 거칩니다.

---[A. 입학]---
.
.
.
.
.
.
(일반적인 박사과정 학생인 상태. 교수에게 연구지도를 받도록 되어있는 기간.)
.
.
.
.
.
.
---[B. 뿅!]---
.
.
(졸업논문=학위논문 Writing-up stage. 공식적으로 연구지도는 끝남. 이 기간은 대략 3개월쯤 걸림)
.
.
---[C. 박사 학위논문 제출]---
.
.
(취직준비, 놀기, 디펜스 준비 등. 논문 심사 위원이 논문을 읽어야하므로 2달정도 시간이 걸림)
.
.
---[D. 박사 학위논문 심사 = 디펜스. 이게 끝난 날 사람들이 막 뫄뫄 박사라고 불러주며 축하해줌.]---
.
(별 일 없으면, 학위 논문을 마지막으로 열심히 고침. 대충 2달쯤.)
.
---[E. 박사 학위 논문 최종본 제출. 이제 공식적으로 박사학위를 보유함.]---
.
.
---[F. 봄이건 가을이건, 여하간 학교 졸업식. 학위복입고 사진찍는 날]---


그리고 공고에서 나오는 기간은 [A. 입학]에서 [B]까지의 기간이 3년이라는 말입니다. 더 정확히 말하면, 등록금과 생활비를 제공해주며 그 결과 연구지도를 받을 수 있는 기간이 총 3년이라는 말입니다. 
다시말해 3년 이상 줄 돈은 없다는 말입니다.


짧은 박사과정의 장단점

아무튼 학위를 빨리 받을 수 있다는 것은 큰 장점입니다. 그러나 장점만 있는것은 아니죠. 세상은, 정확히는 고용주는, 박사과정 학위가 있다고 해서 모든 사람을 동일하게 취급하지 않습니다. 그리고 일단 취직을 하고 나면 새로운 지식을 쌓기는 어렵고, 따라서 실력을 키우는 일도 쉽지 않습니다. 결과적으로 박사를 졸업하는 순간에 갖고있는 스펙이나 능력치가 갖는 영향력이 상당합니다.

따라서 졸업 시점의 능력치를 비교한다면 당연히 1-2년 더 길게 대학원 다니는게 좋겠죠. 이렇게 보면 짧은 기간이 장점만은 아닙니다.

목표가 미국에 있는 회사에 취직하는 것이라면 미국 대학원이 유리

미국에서 직장을 구하려면 회사에 합격하는 것만큼이나 비자가 중요합니다. 경우에 따라 비자가 더 중요하기도 합니다.

미국에서 대학원을 졸업하면 상대적으로 미국 취직이 쉬워집니다. 미국에 있으면 미국에 있는 회사에서 인턴을 하는 기회가 훨씬 많고, 회사에서 비자 스폰서를 받을 필요가 없으므로 자리를 얻을 확률이 확 올라갑니다. 

졸업 후 직장을 구할때도 마찬가지입니다. 미국 대학원 졸업생은 OTP를 이용할 수 있으므로 첫 일단 비자문제없이 취직이 가능하고, 그 뒤에 H1B로 전환하는 연착륙이 가능합니다. 그렇지 않다면 처음부터 H1B를 받아야하는데 일단 추첨을 통과해야하니 운이 좋아야하고 (요즘은 대략 1:3 이라고 이야기합니다) 이 추첨이 연 1회뿐이라 타이밍이 잘 맞아도 몇달, 잘 안맞으면 1년이 훌쩍 넘게 기다려야합니다. 그렇다면 회사입장에서는 비자때문에 입사 가능성이 불투명하고, 가능하다하더라도 시간이 한참 걸리는 사람에게 오퍼를 주는 것인데, 그러려면 실력이 훨씬 더 뛰어나야합니다. 

이 과정을 피하려면 다른 노력이 필요합니다. 피논문 피인용 횟수등을 고려하여 발급해주는 O-1 비자가 있습니다. 다만 충분한 피인용 실적이 있어야합니다. 또는 미국에 있는 회사의 다른 나라 지사(예: 런던, 서울 등)에서 1년동안 근무하면 주재원 비자(L-1 비자)를 발급받을 수 있습니다. 회사에서 이야기가 잘 된다면 비자발급 자체는 상대적으로 수월합니다. 하지만 1년이라는 시간이 걸리고, 미국 국외에 지사가 있고 거기에서 일을 해도 되는 (예컨대 본인이 지원하는 직종이 연구직이라면 연구인력이 미국과 유럽에 모두 있는) 상황이 맞아야하죠. 역시 선택가능한 보기가 줄어듭니다.

다시 강조합니다. 미국 취직에서 비자는 아주 중요한 문제이니 자세히 알아봐야합니다. 

글을 마칩니다. 많은 도움 되었길 바랍니다.

Friday, August 23, 2019

Q&A. 오디오 코덱/디코더와 머신러닝/딥러닝

사운들리 그룹에 올라온 질문과 제 답변을 정리한 글입니다.

----------

질문

오디오 데이터셋의 오디오 포맷이 wav와 flac으로 섞여있습니다. 이를 librosa.load로 불러온 뒤 스펙트로그램이나 mfcc로 변환하려고 합니다. 이 경우에 flac을 wav로 변환해서 전체 파일 포맷을 동일하게 만들어둬야 하나요? 아니면 실시간으로 librosa.load로 불러서 바로 스펙트로그램, mfcc등을 계산하면 되나요?

1줄 답변

미리 변환하지 않고 그냥 librosa.load를 바로 쓰시면 됩니다.

3줄 답변

Flac은 무손실 압축입니다. 즉, 디코더 구현에 관계없이 원본 파형을 그대로 유지해야합니다. 따라서 아무 디코더나 쓰셔도 괜찮습니다.

여러줄 답변

질문의 요지는 "flac을 wav로 변환해서 전체 파일 포맷을 동일하게 만드는 과정"과 "librosa.load에서 사용하는 flac 디코딩 과정"에 차이가 있냐는 것입니다. 일단 flac은 무손실 압축이므로 3줄 답변에서 보듯이 어떻게 디코딩하든간에 차이가 없습니다.

조금 더 알아보면, librosa는 자체적인 오디오 디코더를 가지고 있지 않습니다. librosa는 backend로 시스템에 깔려있는 오디오 디코더를 사용합니다. 만약 디코더가 아예 없다면 에러 메시지를 내보냅니다. 그런데 보통 리눅스나 맥에서는 ffmpeg을 많이 사용하죠. 그리고 아마 직접 flac을 wav로 변환하더라도 마찬가지로 시스템에 설치된 (ffmpeg) 디코더를 사용하겠죠. 따라서 결과는 같습니다.

만약 mp3같이 손실 압축이라면 디코더 버전이나 구현이 중요한가요?

사실, 손실 압축이어도 마찬가지입니다. mp3를 예로 들면, mp3 코덱이 차이가 날 수 있는 부분은 인코더입니다. 공개된 인코더인 LAME같은 경우는 사실 성능이 별로 좋지 못합니다. 대부분의 mp3 인코더는 유료이고, 어떤 mp3 인코더를 쓰느냐에 따라, 같은 스펙 (예: 128 kbps) 이라도 성능(음질)에 차이가 날 수 있습니다.

그런데 질문의 상황은 디코딩 과정이 달라질 수 있냐는 것이죠. 오디오 디코더는 구현 방식에 따른 차이가 (거의) 없습니다. 다만 페북 그룹의 현동일님께서 답변해주신것처럼, 임베디드 시스템에 디코더를 구현한다든지 하면 연산량이나 연산방식 등의 제한으로 인해 다소 오차가 있을 수 있습니다. 하지만 이건 머신러닝에서 데이터를 처리하는 것과는 관련이 없겠죠.

mp3 압축 여부가 학습에 영향을 미치나요?

이건 상황에 따라 다릅니다. 별도의 포스팅으로 정리하도록 하죠.

Sunday, June 9, 2019

딥러닝과 오디오 데이터 전처리

이번 글에서는 딥러닝과 오디오 데이터 전처리 전반을 살펴보겠습니다. 제가 몇몇 발표 (2017-11-03 판교 혁신센터, "음악과 딥러닝의 사랑과 전쟁" (발표자료))에서 다룬적이 있는데, 이미지랑은 달리 오디오 데이터는 몇가지 특징이 있습니다.

  • 데이터 사이즈가 크다 - 상황에따라 천차만별이지만 오디오는 기본 16비트고 (이미지는 8비트 x 3, 4채널) 1초당 int16짜리 데이터가 44,100개가 있습니다.
  • 디코딩이 느리다 - 데이터가 크기 때문에 음성/음악 코덱 기술이 많이 발달했습니다. 그런데 오디오 코덱은 신호를 시작부터 끝까지 순차적으로 디코딩합니다. 그리고 연산량이 적어서 디코딩 속도가 빠를수록 좋긴 하지만, 한편으론 재생 속도보다 빠르기만 하면 일반적인 오디오 재생에는 별 문제가 없겠죠. 그러다보니 딥러닝 학습과정에선 문제가 될 수 있습니다. 즉, 디코딩 속도가 데이터 로딩의 병목이 될 수 있습니다.
  • 별도의 전처리가 필요할 수 있다 - STFT, Melspectrogram 등의 연산이 여기에 해당합니다.

그 외에, 일반적인 딥러닝 학습을 하다보면 누구나 겪게되는 상황이 있습니다.

  • 데이터가 커서 메모리에 다 안들어간다.
    • HDF? memmap?
  • 데이터를 추가하거나 데이터 전처리 파라미터를 편리하게 변경할 수 있어야한다.

이런 상황을 고려하면 해결책은 아래와 같습니다.

  • 저장 포맷
    • 디코딩이 끝난 오디오 데이터를 그대로, 파일마다 .wav (int16)나 .npy (numpy array, int16/float32/etc)로 저장
    • 예: audio_1.wav, audio_2.wav, ... audio_10000.wav
    • 장점: 로딩이 빠르다
    • 단점: mp3등 압축 코덱 대비 하드디스크 공간을 많이 차지한다. 그러나 대부분의 경우에 현실적으로 큰 문제가 아님. 하드디스크는 별로 안비싸고, 오디오 데이터셋이 보통 그렇게까지 크지 않음. 
  • 로딩 방식
    • 파이토치와 텐서플로 모두 데이터 로딩 모듈이 잘 짜여져있습니다. 각 모듈에서 데이터 인덱스(예: idx=10)를 받아서 파일을 하나 로딩하는걸 구현합니다.
    • 사용할때는 인덱스 ([1, 2, 3,.. ,10000])을 shuffle한 뒤에 순서대로 불러오면 됩니다.
    • 파이토치의 경우엔 예를들면 저는 이렇게 합니다 (소스).
    • 장점: 
      • 데이터를 쉽게 추가할 수 있음. 마찬가지로 shuffle도 다양하게 할 수 있음. (만일 hdf를 쓰면 연속된 메모리에서 불러와야 유리하므로 미리 셔플을하고 저장해야하는데 이 모든 데이터 준비 과정이 시간을 많이 잡아먹음)
      • 배치 사이즈만큼의 데이터를 불러오는 과정은 텐서플로/파이토치의 데이터 로딩이 알아서 멀티프로세싱으로 잘 수행하므로 편리하고 안정적임. 
  • 전처리
    • 가급적 대부분의 전처리를 gpu에서 수행 (stft 등)
      • 장점: 파라미터 변경이 쉬움. 나중에 모델을 배포하고 사용할때도 오디오 파일을 그대로 불러와서 진폭을 바꿔주고 (int16 --> float, [-1.0, 1.0]) 샘플링 레잇만 맞춰주면 바로 모델에 넣을 수 있어서 편리함. Dependency가 적어짐 (librosa같은 외부 라이브러리를 쓰지 않아도 되므로). 
      • 단점: gpu의 연산과 메모리를 조금 더 사용함.