최근우 (Keunwoo Choi): ISMIR 2016

Wednesday, August 17, 2016

ISMIR 2016 - Day 3, 4

Day 3: Poster session 3

Automatic Drum Transcription Using Bi-Directional Recurrent Neural Networks
Carl Southall, Ryan Stables and Jason Hockman

이 논문과,

Recurrent Neural Networks for Drum Transcription
Richard Vogl, Matthias Dorfer and Peter Knees

이 논문은 거의 내용이 일치합니다.

우선, ground truth는 binary vector입니다. 다양한 드럼의 요소 - 심벌1, 심벌2, 스네어, 킥, 하이햇 등에 차원을 하나씩 할당한것이죠. 이 ground truth를 프레임별로 만들어줄 수 있겠죠? 그리고 오디오의 2-d representation (Log-frequency spectrogram)을 입력으로 넣어주고, RNN으로 이를 학습시킵니다. 끝~

Deep Convolutional Networks on the Pitch Spiral For Music Instrument Recognition
Vincent Lostanlen and Carmine Emanuele Cella

아주 중요한 논문입니다. 이번 학회 논문중에 제일 중요하지않나 합니다.

음악 신호를 2차원으로 표현하면 주파수-시간축으로 나타냅니다. 여기서 주파수축이 linear scale이냐, mel-frequency냐, log scale냐의 차이가 있을 뿐입니다.

여기서 큰 문제가 발생하는데, 이미지랑 너무너무다른, 배음(harmonics)이라는 놈이 존재한다는거죠. 예를들어 440Hz 음은 880Hz, 1320Hz등 배음이 존재합니다.

즉 N Hz 성분은 N-1, N+1성분과 상관관계를 갖는것이 아니라, 2N, 3N, 4N Hz 성분과 상관관계를 갖죠.

따라서 convolutional kernal을 '띄엄띄엄' 만들어주면 이 상관관계를 컨볼루션으로 모델링 할 수 있습니다. 위 그림의 spiral으로 표현된게 요겁니다.

진작 이렇게 했어야하고, 저도 비슷하게 구현했던적이 있는데 MTT/MSD로 데이터셋을 넘어오면서 작업이 멈췄습니다. Brian McFee도 얼마전에 같은 이야기를 했었구요.

특히 배음관계가 중요한 작업 - 악기인식 - 에 더 큰 영향이 있을겁니다. 꼭 참고하세요.

Day 4: Oral session

Automatic Tagging Using Deep Convolutional Neural Networks
Keunwoo Choi, György Fazekas and Mark Sandler

Automatic Tagging using Deep Convolutional Neural Networks - ISMIR 2016 from Keunwoo Choi

제 논문입니다. 논문에 사용된 컨브넷의 크기를 최적화하고 다시 학습시킨 모델을 깃헙 저장소에 공개했으니 역시 참고하시길..

Melody Extraction on Vocal Segments Using Multi-Column Deep Neural Networks
Sangeun Kum, Changheun Oh and Juhan Nam

남주한 교수님 연구실의 금상은씨가 쓴 논문입니다.

Multi-column approach를 적용해 보컬 분리를 했는데요, 아마 다른 작업에도 적용할 수 있는데가 많을 것 같습니다.

Late-Breaking/Demo session

Late-breaking/demo 세션은 2+1페이지에 간략한 연구 내용/계획등을 요약해 자유롭게 발표하는 자리입니다. 정식 학회지로 출판이 되진 않고 온라인으로만 공개됩니다.

AUDIO DEEPDREAM: OPTIMIZING RAW AUDIO WITH CONVOLUTIONAL NETWORKS, Diego Ardila, Cinjon Resnick Adam Roberts, Douglas Eck

마젠타팀에서 나온 내용인데요, 음... 야심차게 지은 이름 (Audio DeepDream)에서 알 수 있듯이 좀 별로네요. 저자가 구글브레인이라 써있는데 인턴이라고 써있지가 않아서 좀 놀랍습니다.

TOWARDS MUSIC CAPTIONING: GENERATING MUSIC PLAYLIST DESCRIPTIONS, Keunwoo Choi, György Fazekas, Mark Sandler, Brian McFee, Kyunghyun Cho

제가 요즘에 하는 내용입니다. 음악/플레이리스트의 '설명'을 자동으로 생성해주자는 계획인데 의도는 가상하나 데이터가 부족해서 힘들군요.

AUTOMATIC B***** DETECTION, Anna Krusp, Matthias Mauch

역대 최강의 학회 테이블을 소개합니다.

사실 이 세션은 제가 발표하느라 다른 포스터를 잘 못봤습니다.

깃헙에서 보려고 하니 클릭하면 웹브라우저에 파일이 뜨는게 아니라 자동으로 다운로드가 되는 바람에 읽을 마음이 들지가 않는군요.

따라서 여기에서 턴을 종료합니다.

2 comments:

UnknownAugust 18, 2016 at 10:49 AM
오 spiral내용 정말 괜찮은 아이디어네요.! ㅋㅋ 지금 1D cnn tagging 모델 거의 정리되었는데, 추가작업에 한번 해봐야겠어요
ReplyDelete
Replies
Keunwoo ChoiAugust 18, 2016 at 10:52 AM
넵. 그런데 더 정확하게 하려면 1-channel CQT로 하는게 아니라, 각 옥타브 대역마다 별도의 base frequency를 갖는 CQT를 구해서 포갠다음에 multi-channel (== multi-octave-bandwidth) CQT를 입력값으로 넣고 3d convolution을 해야 할것 같습니다.
ReplyDelete
Replies

Add comment

Pages

Wednesday, August 17, 2016

ISMIR 2016 - Day 3, 4

2 comments: