Thursday, November 5, 2015

[Korean] ISMIR 2015 요약


2015 International Society of Music Information Retrieval (ISMIR)이 끝났습니다. 관심있게 본 발표를 정리하니 도움 되길 바랍니다.




서울대학교 융합기술원의 MARG랩에서 나온 논문입니다. 저도 한때 관심있었던 분야라 저자분과 이야기를 좀 했습니다.
연구의 가정은 스팩트로그램에서 wideband로 분포한 성분이 곧 타악기 성분이라는 것 입니다.
실험에서는 Derry Fitzgerald, Ono의 논문과 비교를 하였습니다.
저자의 말씀에 의하면 실제로는 Derry Fitzgerald 방법보다 좋지가 못하다고...
기본적으로 이 논문은 주파수 축에서의 분포만을 모델링했는데, DF는 주파수축/시간축 두 방향에서 각각 타악기/하모닉 악기의 분포를 모델링했습니다. 즉, DF방법에 비해 실제로 나타나는 현상을 덜 반영한 모델에서 출발하였기 때문에 나오는 한계가 아닌가합니다.






[2] Understanding uses of commercial music services through personas
Jinha Lee 교수님의 논문입니다.
음악 서비스의 유저 그룹을 clustering하고 어떤 패턴을 보이는지 연구한 내용입니다.
그룹 수가 7개나 되는데 전체 실험자 수가 40명밖에 되지 않는 점이 좀 아쉽습니다만 내용은 아주 자세합니다. (반대로 생각하면 숫자가 적어서 다채로운 공통점을 찾기가 쉬웠던 것 일수도 있지요. 즉 몇명 없는 사람의 특징에 오버피팅된...) 7개의 그룹은 두가지 특징에 의해 결정됩니다. 하나의 축은 Companionship - 얼마나 소셜하게 음악을 듣는가: [상-중-하]==[소셜-중립-개인적], 이고, 또 하나의 축은 투자(Investment) - 얼마나 음악에 시간/돈을 투자하는가:[상-중-하]==[투자하는 편 - 중립 - 안한다] 입니다. 조합을 하면 총 9개가 나오게 되지만, 주로 소셜 측면이 [상] 인 경우에 투자 측면은 [상, 중]만 존재하고, 소셜이 [하] 인 경우에 투자가 [중,하] 만 존재한다고 하네요.
이와 관련해서는 그동안 (Jennings 2007) 이 주로 인용되었었는데, 앞으로 이 논문도 많이 참고가 되지 않을까 합니다.





Music recommendation과 관련해서 가장 많은 논문을 쓰고있는 Markus Schedl 교수 랩에서 나온 논문입니다.
CF방식에서 latent factor에 social tag를 추가하였습니다. 
이미 어지간한 회사에서는 쓰고있는 방식일거라고 생각합니다만 아무튼 논문으로는 novel하긴 합니다.





Gracenote에서 소위 day-of-a-year, 즉 연중 각종 이벤트에 관련된 (temporal context) 사람들의 청취 패턴을 조사하였습니다. 데이타는 2012년 1년동안 스트리밍된 호ㅜ쑤이고, 크리스마스/할로윈/성 패트릭 데이 등에서 피크가 크게 나왔네요. 
이번 여름에 제가 네이버 랩스에서 하려고 했었던 것과 유사한 가정을 하고, 그 가정을 점검하였습니다. 가정했던 내용이 어느정도 성립하는걸 보니 다행스럽기도 하면서 그 내용이 출판된걸 보니 아쉽기도 하고 그러네요. 



일단 너무 광범위한 제목이라 좀 맘에 안들지만...
조지아텍에서 나온 논문입니다.
구체적인 내용보다도 셋팅에 먼저 눈이 가네요.
11025 Hz 샘플레잇, CQT - 36 bins/octave, 최저 주파수 110 Hz (베이스기타는 무시하는군요...)부터 최고 주파수 3520 Hz까지로 필터뱅크를 썼네요. 반음 하나당 3개의 bin이 나오고 전체는 180개가 됩니다.
그리고,
그림 2에 전체 시스템이 나와있는데 뭐 그림을 저렇게 그렸는지... 나중에 자세히 보고 보완하든지 하겠습니다. (퍽이나...)



우선 제목에서 semantic은 semantic web에서의 semantic으로 보시면 되겠습니다. 즉 db에 정리된 artist 관련 정보를 이용한 artist similarity measure를 제안한 것입니다. 예를 들어 멤버가 겹치는 밴드는 유사성이 높다든지 하는 내용입니다.




[7] Exploring data augmentation for improved singing voice detection with neural networks

음악 신호와 딥러닝을 적용할 때 data augmentation을 어떻게 해야하는지에 대해 다룬 논문입니다. 이미지의 경우 rotation/flip등의 인위적인 왜곡을 통해 트레이닝 데이타 수를 늘리는데, 음악에서는 그동안 필요에 따라 소소히 쓰여왔지만 이에 대해 정리된 논문은 없었습니다. 안그래도 필요성을 느끼던 차에 이번에 이 포스터도 나왔고, Brian McFee는 오랄로 유사한 내용을 발표했습니다.
다만 두 논문 모두 그동안 흔하게 쓰여왔던 방식 - pitch shift/time stretch/loudness 정도를 제시하였는데 이 외에 좀더 좋은 방식이 없을까 하는 의문이 듭니다. 아, 그리고 gaussian noise를 더하는 방식도 있는데, 음성인식에서라면 모를까 음악과 관련된 머신러닝 작업에서 노이즈를 더하는 것은 일반적인 의미를 갖기는 어려워보입니다.



결과를 보면 데이타를 늘렸다고 늘 좋아지지는 않습니다. 



아주 재미있는 논문입니다. 이번 학회에서 best post representation award를 받았습니다. 
사실 내용은 잘 이해를 못했고 데모를 들어봤는데 정말 웃깁니다. 벌이 웅웅거리는 소리로 비틀즈 노래의 멜로디를 바꿔놨거든요.




2015년 여름에 판도라에서 인턴을 한 Dawen Liang이 발표한 논문입니다. 내용 자체는 흔히 나오는, cold-start problem을 해결하기 위하 content-based recommendation입니다. 2014년 스포티파이에서 인턴을 한 Sander에 이어서 판도라에서도 유사한 접근을 하네요. 
사실 너무 당연한 일인 것이, 그동안 판도라에서는 수십명의 음악 전문가가 곡을 하나하나 태깅해왔습니다. 그렇게 쌓인 곡이 대충 100만-200만정도 되는데, 문제는 전체 음악 DB는 3-4천만곡이라는 거죠. 당연히 머신러닝이 필요하구요.
논문에서는 MSD를 사용했는데, 판도라 내부에서도 그들의 데이타를 갖고 같은 작업을 했다고 합니다. 
2015년 ICML의 워크샵에서 같은 저자가 발표한 논문과 사실상 같은내용이라고 슬금슬금 실토했습니다.




[10] Music boundary detection using neural networks on combined features and two-level annotations
위에서 소개한 data augmentation 논문과 같은 저자가 쓴 논문입니다. 소속 기관인 OFAI는 오시트리아의 국가연구소라고 합니다.
CNN을 통해 바운더리를 트레이닝 하였고, 트레이닝 방식은 바운더리를 포함한 부분에서는 1을, 바운더리가 없는 부분에서는 0을 라벨링하였습니다. 바운더리라는것이 그야말로 경계면이다보니 어떤 크기의 스펙트로그램을 어떻게 주어야 할지 좀 애매할 수 있는데, 여기서는 우선 그렇게 길지 않은 구간의 신호를 (예를들어 1-2초? 기억이 잘 안납니다만..) 사용하였고, 바운더리가 정확히 가운데에 있는 신호에 더 weight를 주었습니다.
바운더리를 찾기 전에 pre-processing으로는 harmonic-percussive separation을 사용하였습니다. 그렇게 할 경우에 채널이 2개 있는 이미지처럼 처음에 데이타를 사용 가능할텐데, 여기에서는 어떻게 했는지 모르겠네요.




굉장히 성능이 좋은 데모를 준비하였고 학회 전 주말에 있었던 핵데이에서 상을 받았습니다. 
사실 내용은 전혀 보지 않았습니다. 대신 데모 영상을 찍었습니다.




DNN으로 아무리 난리를 쳐도 왜 코드 인식이 완전히 해결되지 않는가? 하는 문제인데,  아래 그림을 잘 보시면...


- 12음계, 평균율에 맞지 않는 음원이 있어서.
- 평가 방법의 문제
- task formulation, subjectivity: 저한텐 거의 같은 문제로 보이는데 결국 데이타셋의 문제죠. Consistency가 보장이 되지 않는다는 것.


그 예로 U2의 with or without you의 코드를 들었습니다. 각종 DB및 tab웹사이트에서 나온 코드를 비교하면 다들 조금씩 다릅니다.
팝음악은 악보나오고 음악이 나온것이 아니라, 음악이 나오고 악보가 나온것이라 어쩔 수 없는 문제입니다.


흥미로워보여서 찍었습니다만 아직 안읽어봤습니다. City University에서도 딥러닝과 음악을 접목한 연구가 꾸준히 나오고있습니다. 다만 folk melody와 같이 지엽적인 (안타깝지만 서양 음악은 이제 서양만의 음악이 아니라는 사실은 인정해야합니다. 그렇다고 그 이외의 것들을 '제3세계'로 보는 관점에 동의하는건 아닙니다만.) 소재는 전 개인적으로 좀 별로...



역시 딥러닝이라 찍어봤습니다만 잘 모르는 task라서 자세히 읽어봐야 알 듯 합니다.



[15] Mirex에서 music/speech 구분 1등을 한 논문입니다. 근데 mirex에 낸거라 출판된 논문이 없네요.
일단 1등뿐만 아니라 다른 거의 모든 방법이 다 CNN을 사용하였습니다.




[16] 제 논문입니다. CNN feature를 들어보고 뭔 일이 일어나는지 이해해보자! 라는 내용입니다.
자세한건 여기로.

마지막으로, 왜 사진이 없는지 모르겠습니다. 퀸메리의 Siddharth가 쓴 논문은 RNN을 써서 코드 인식을 하는 내용입니다. 굉장히 똑똑한 친구라 좋은 내용일거라고 생각하고 저도 오늘 읽어보려고 합니다... 논문은 여기.




여기까지 ISMIR 2015 저의 요약본이었습니다.