Wednesday, August 17, 2016

ISMIR 2016 - Day 3, 4


Day 3: Poster session 3


이 논문과,


이 논문은 거의 내용이 일치합니다.
우선, ground truth는 binary vector입니다. 다양한 드럼의 요소 - 심벌1, 심벌2, 스네어, 킥, 하이햇 등에 차원을 하나씩 할당한것이죠. 이 ground truth를 프레임별로 만들어줄 수 있겠죠? 그리고 오디오의 2-d representation (Log-frequency spectrogram)을 입력으로 넣어주고, RNN으로 이를 학습시킵니다. 끝~






아주 중요한 논문입니다. 이번 학회 논문중에 제일 중요하지않나 합니다.

음악 신호를 2차원으로 표현하면 주파수-시간축으로 나타냅니다. 여기서 주파수축이 linear scale이냐, mel-frequency냐, log scale냐의 차이가 있을 뿐입니다.

여기서 큰 문제가 발생하는데, 이미지랑 너무너무다른, 배음(harmonics)이라는 놈이 존재한다는거죠. 예를들어 440Hz 음은 880Hz, 1320Hz등 배음이 존재합니다. 

즉 N Hz 성분은 N-1, N+1성분과 상관관계를 갖는것이 아니라, 2N, 3N, 4N Hz 성분과 상관관계를 갖죠.

따라서 convolutional kernal을 '띄엄띄엄' 만들어주면 이 상관관계를 컨볼루션으로 모델링 할 수 있습니다. 위 그림의 spiral으로 표현된게 요겁니다.

진작 이렇게 했어야하고, 저도 비슷하게 구현했던적이 있는데 MTT/MSD로 데이터셋을 넘어오면서 작업이 멈췄습니다. Brian McFee도 얼마전에 같은 이야기를 했었구요.

특히 배음관계가 중요한 작업 - 악기인식 - 에 더 큰 영향이 있을겁니다. 꼭 참고하세요. 


Day 4: Oral session






제 논문입니다. 논문에 사용된 컨브넷의 크기를 최적화하고 다시 학습시킨 모델을 깃헙 저장소에 공개했으니 역시 참고하시길..


남주한 교수님 연구실의 금상은씨가 쓴 논문입니다. 
Multi-column approach를 적용해 보컬 분리를 했는데요, 아마 다른 작업에도 적용할 수 있는데가 많을 것 같습니다. 


Late-Breaking/Demo session

Late-breaking/demo 세션은 2+1페이지에 간략한 연구 내용/계획등을 요약해 자유롭게 발표하는 자리입니다. 정식 학회지로 출판이 되진 않고 온라인으로만 공개됩니다. 


마젠타팀에서 나온 내용인데요, 음... 야심차게 지은 이름 (Audio DeepDream)에서 알 수 있듯이 좀 별로네요. 저자가 구글브레인이라 써있는데 인턴이라고 써있지가 않아서 좀 놀랍습니다.



제가 요즘에 하는 내용입니다. 음악/플레이리스트의 '설명'을 자동으로 생성해주자는 계획인데 의도는 가상하나 데이터가 부족해서 힘들군요.



역대 최강의 학회 테이블을 소개합니다.


사실 이 세션은 제가 발표하느라 다른 포스터를 잘 못봤습니다.
깃헙에서 보려고 하니 클릭하면 웹브라우저에 파일이 뜨는게 아니라 자동으로 다운로드가 되는 바람에 읽을 마음이 들지가 않는군요. 
따라서 여기에서 턴을 종료합니다. 


2 comments:

  1. 오 spiral내용 정말 괜찮은 아이디어네요.! ㅋㅋ 지금 1D cnn tagging 모델 거의 정리되었는데, 추가작업에 한번 해봐야겠어요

    ReplyDelete
  2. 넵. 그런데 더 정확하게 하려면 1-channel CQT로 하는게 아니라, 각 옥타브 대역마다 별도의 base frequency를 갖는 CQT를 구해서 포갠다음에 multi-channel (== multi-octave-bandwidth) CQT를 입력값으로 넣고 3d convolution을 해야 할것 같습니다.

    ReplyDelete