Sunday, September 30, 2018

ISMIR 2018 논문 소개 [3/3]



차례

ISMIR 2018 논문 소개 [1/3]
ISMIR 2018 논문 소개 [2/3]
ISMIR 2018 논문 소개 [3/3] (이 게시물)


이번 글에서는 Late-Breaking/Demo 세션을 보겠습니다. 이 세션은 6+n페이지고 피어리뷰를 받는 정규 세션과는 다른 워크샵 트랙이라고 보시면 됩니다. 분량은 2페이지이고 MIR과 관련된 것이라면 실험이 진행중인 내용이나 데모 등 무엇이든 편하게 낼 수 있는 세션입니다.

LDB submissions

인공 와우(cochlear)는 음성 인식을 목적으로 하고 신체에 장착해야하므로 효율이 매우 중요합니다. 따라서 복잡한 연산이 어렵고 대략 수십 채널정도의 주파수 해상도를 갖고있습니다. 여기에서는 인공 와우를 장착한 사람들이 음악을 들을 때 어떤 요소를 중요시하는지 알기위해 인공 와우를 모사한 시스템을 통과한 음악을 들려주며 선호도를 AB 테스트로 조사했습니다.

그 결과가 그림 1입니다. 사람들은..
- 아는 노래 > 모르는 노래
- 정상 음질 > 떨어지는 음질

그리고..
- 모르는 노래, 정상 음질 > 아는 노래, 떨어지는 음질

이 이 실험의 제일 큰 수확이겠네요.

너무 간단한 결과지만 '아는 노래'로 널리 알려진 곡을 고르다보면 인기가 높은 곡이 나와서 애당초 '아는 노래'와 '모르는 노래'에 편향이 있을 수 있는데 (예를들어 '아는 노래' 집합의 노래 자체가 '모르는 노래'보다 더 사람들이 좋아할만한 노래라든지..) 이런걸 잘 걸러내고 실험한것 같았습니다.


피아노 악보에 있는 운지를 생성하는 파이썬 라이브러리입니다. 깃헙 코드 참고.

조만간 풀페이퍼로 나올것같은 완성도의 초록입니다. 흔히 악기의 음표 하나의 오디오 신호를  ADSR(attack - decay - sustain - release)의 인벨롭으로 해석합니다. 여기에서는 이를 HMM으로 모델링해서 채보에 이용했는데 매우 직관적이고 합리적인 방법으로 보입니다.

WaveGAN 등 좋은 연구를 많이 하고있는 Chris Donahue의 쩌는 데모입니다. 온라인에서 직접 보시죠.

요약하면, 단선율의 피아노 멜로디에서 다음에 나올 확률이 높은 노트 8개를 (RNN encoder로) 선정해서 8개의 키보드에 맵핑하고 이를 보여주는 방식입니다.

2페이지 워크샵 페이퍼에 수식이 15개라니..




Tonnetz는 음악에서 서로 다른 음표의 상대적인 관계를 시각화하는 방법입니다. 이 설명도 좋네요. Tonnetz를 이용하면 각 관계가 '그림'으로 나오는데 이 그림이 key-invariant, pitch-invariant등의 장점을 갖고있습니다. 이 초록에서는 이를 좀 더 발전시켰는데 제가 깊게 이해하진 못했습니다.

----

이상으로 ISMIR 2018 논문 소개를 마칩니다. 

No comments:

Post a Comment