ICASSP는 ieee의 신호처리 학회로 아마 이 분야에서는 제일 큰 학회일겁니다. 자세한 정보는 http://www.ieee-icassp2017.org 에서 한번 보시고 저는 단박에 논문으로 넘어가겠습니다.
오랜만에 Open access가 아닌 학회엘 갔더니 참 번거롭더군요. 프로시딩을 공유하니 다운받으시어요.
그럼 무작위 리뷰 시작합니다.
https://lemonatsu.github.io/ 에 데모가 있습니다. 곡을 받아서 보컬을 분리하고, 음정을 찾아서 합성을 합니다. 좋은 음질을 이해 time-frequency domain이 아니라 time-domain에서 바로 합성을 합니다. 데모를 들어보면 음질 차이는 아주 뚜렷합니다.
그냥 22.2채널을 아직도 하고있다는게 놀라워서 하나 찍어봤습니다...
제목이 짤렸네요. 아래 포스터의 논문 제목은
FACIAL ATTRACTIVENESS PREDICTION USING PSYCHOLOGICALLY INSPIRED CONVOLUTIONAL NEURAL NETWORK (PI-CNN)
입니다.
입니다.
이 논문에서 제시한 방법이 과연 잘 작동하는건지 저는 별로 신뢰가 가질 않습니다. 우선, 네트워크의 구조를 보면 기본적인 구조는 흔히 알려진 컨브넷이구요, fine-tuning부분이 논문의 주 내용입니다. 본문에서는,
Recent psychology studies indicates that the skin color, smoothness, and lighting are three significant factors influ- encing the perception of facial beauty [1–3]. It inspires us to construct and improve the PI-CNN using a cascaded fine- tuning method with these facial features.
그러면 이 신경망이 탐지하는 특징이 정말 사람의 '미'라고 할 수 있을까요? 데이터셋을 안봐서 모르겠습니다만, 논문에 실린 사진을 보고 판단하자면 소위 '예쁜' 얼굴 데이터는 사진의 품질이 더 좋습니다. 조명도 더 신경썼고 배경도 밝구요. 혹시 이 신경망은 사진의 품질이나 조명같은 특징에 반응하는건 아닐지 하는 의문이 듭니다.
실험에서는 500명 사진을 400:100으로 나눠서 학습했습니다. 데이터 크기도 좀 많이 작죠? 사진은 무려 223x223이나 되구요.
마지막으로, Asiuan female faces with beautify scores 라는 데이터 자체가 별로 맘에 안드네요.
사진 찍을땐 제목만 봤는데 논문을 읽어보니 정말 별로네요. 이런 글이 대체 왜 학회에서 발표되는건지 정말 이해할수가 없습니다.
제목/본문에 '딥러닝'은 그냥 보기 좋으라고 넣은 단어로 이해하고 넘어가겠습니다.
Environmental sound detection을 34-layer resnet으로 구현했고 end-to-end로 작업했습니다. 최근 몇달간 비슷한 논문이 많이 나오네요.
Urbansound10k 데이터를 썼고 성능은 최고 72%가 나왔네요. SoTA를 찍지는 못했습니다.
포스터에도 작게 나와있는데, 학습된 필터를 보면 역시 대충 mel-scale이라고 주장들 하는 모양이 나왔습니다. 저는 이게 특별한 스케일을 배운게 아니라 특정 주파수를 넘는 성분을 그냥 무시하고있는거라고 해석합니다. 아래 그림 보시죠.
더이상 특별히 언급할만한 내용은 없습니다.
개구리 소리를 분류하는 알고리즘입니다.
데이터가 많이 없어서, alexnet등 computer vision에서 공개한 네트웍을 그대로 사용하고 뒤에 SVM을 붙여서 하는 내용입니다. 음악에서도 AlexNet을 그대로 써서 장르 분석한 논문이 있었죠.
Deep Ranking: Triplet MatchNet for Music Metric Learning 발표자료입니다.
음악 관련이고, 데이터셋의 구성은 triplet (id1, id2, id3)으로 되어있습니다. MagnaTagATune에 딸려나오는 데이터인데, 곡 1을 기준으로 곡 2, 곡3중에 뭐가 더 곡1이랑 비슷한지 고르는겁니다.
학습에는 ResNet을 썼구요.
Constraints Fulfillment Rate 이라는걸로 평가를 했는데, triplet으로 주어진 경우엔 결국 전체 샘플에서 triplet을 정확하게 고른게 몇퍼센트냐 - 즉 정확도 - 라고 보면 됩니다. 그리고 두 곡중에하나가 +면 나머지가 자동으로 -가 되기 때문에 랜덤으로 찍어도 50%가 나옵니다.
실험 결과는 70-71%가 나왔네요. 즉 2/3은 맞추고 1/3은 틀린다는 이야기입니다.
컨브넷을 돌리기엔 데이터셋이 너무 작은것이 아닌가 합니다. 전체 860개의 triplet, 993곡밖에 데이터가 없거든요.
음성 인식 과정에서 쓰는 filter bank를 학습하는 내용입니다.
필터뱅크를 gaussian shape을 가정하고 돌렸네요.
저도 비슷한걸 음악에 해봤는데, 이 논문이랑 비슷한 결과를 얻었습니다. 별로 흥미로운 결과는 아니었죠. 아래 그림 보시죠.
center frequency도 학습을 했지만 결과는 전혀 변하지 않았습니다.
각 필터뱅크의 gain만 조금 변했어요.
그것도 아주 조금....;
작년 ICJNN에 나온 음악관련 논문도 비슷한.. 학습이 되었다고 보기가 어려운, 초기값에서 거의 변하지 않는 결과가 나왔죠.
성능은 조금 올라가긴 합니다. 하지만 이렇게 여러 결과를 보니, filterbank를 매개변수화하고 이를 mel-scale로 초기화한뒤에 학습하는 방법이 썩 좋게 보이질 않네요. 제일 큰 문제는 center frequency가 초기값에서 거의 변하지 않는다는겁니다. 설마 그 초기값이 global minima라서 그렇게 남아있는건 아닐테니까요.
(잘 모름) group lasso라는걸 써서 (lasso의 일종이겠죠) node activation의 sparsity를 만들고 잘 안쓰이는 노드를 날리는 내용입니다.
그레이스노트에서도 꾸준히 논문이 나오네요. 이 논문 말고도 더있었는데...
근데 제가 평소에 관심갖는 주제가 아니라 20000....
MIR에서 세계 최강의 산학협력을 하고있는 KKBOX/타이완에서 나온 논문입니다. 사용한 네트워크의 커널 모양 등 참고할만합니다.
가사와 음원을 time-align하는 논문입니다. 그레이스노트에선 아주 중요한 일이겠죠?
이 논문은 접근방법이 좀 독특한데, 보컬을 분리하고, 가사는 speech로 합성을 해준뒤에 걔네를 비교합니다.
일반적으로는 보컬을 분리하고 그걸 써서 음성 인식을 하는데, 보통 음성과 달리 노래를 부른것이라 acoustic model 이 다르다는 문제가 있다고 합니다.
새 소리가 대상이지만 이번에 이런 논문이 엄청 많이 나왔습니다. clip-level label을 이용해 frame-level prediction을 해주는 weakly-labeled learning입니다.
논문의 그림을 보면 새 소리에 특화된 네트웍 구조를 잘 짠것같습니다.
제목: COMBINING UNIDIRECTIONAL LONG SHORT-TERM MEMORY WITH CONVOLUTIONAL OUTPUT LAYER FOR HIGH-PERFORMANCE SPEECH SYNTHESIS
재밌는 논문같아서 찍었지만 아는바가 전혀 없습니다. 설명충 등판 환영합니다!
SKT에서 나온 논문이네요. 학교 선배의 이름이 보여서 반가웠습니다. 학회장엔 안온것같지만..
멀티채널 VAD로군요. VAD는 정말 전통적인 문제지만 실제로 쓰다보면 아직도 완전 해결되지가 않았죠.
음원 분리 하다보면 생기는 musical noise를 평가하는 방법입니다. 마크 플럼블리가 Surrey로 옮기고나서 계속 source separation/remix쪽 논문이 나오네요. 그쪽으로 큰 과제를 땄기때문에; 그렇습니다.
오디오 태깅을 하는데, 정답 태그중에 일부만 랜덤으로 고르고, 그 일부에서 전체 태그를 예측하는 모듈을 추가해서 성능을 높인다고 합니다.
그 모듈이라는건 결국 태그의 co-occurrence 를 추정하는 건데, 네트워크가 잘 학습되었다면 co-occurrence가 학습에 녹아들어있어야 하는것 아닌가 하는 생각이 듭니다만, 도움이 되나봅니다.
데이터셋에따라 차이도 클거같네요. false negative가 많은 음악 태그의 경우엔 어렵지 않나 예상합니다.
인텔에서 나온 저전력 뉴럴넷 소개하는 포스터입니다.
다시한번, end-to-end, convnet, environmental sound detection 논문입니다.
LSTM과 GRU의 차이를 분석하고, GRU의 'lazy update'를 LSTM에도 적용하자고 제안하는 내용입니다.
DCGAN을 써서 음성의 감정 인식을 하는 내용입니다. Unlabeled data가 많아서 걔네를 이용해 GAN을 돌리면서, 그 discriminator에 레이어를 더 붙여서 A/V prediction을 하는 내용입니다.
Autoencoder랑 비슷하게, 저 방식이 반드시 원하는 작업에 필요한 feature를 추출한다는 보장은 없습니다.
acknowledgements에 익숙한 아이디가 있어서 ..
그 외에, 구글에서 발표한 데이터셋인 Audio Set관련 논문이 있었습니다.
icassp은 너무 크고 분야가 산만해서 잘 운용되는 느낌은 아니었습니다. 내년엔 한국에서 하는데 잘 개최길 바라고 저도 꼭 가고싶네요. 학회 요약은 여기서 마칩니다.
No comments:
Post a Comment