Thursday, November 23, 2017

2018년 언어영역 수능 지문 첨삭 제안


위키트리의 뉴스를 보니 올해 수능에 디지털 통신 시스템의 부호화 과정을 다룬 기술 지문이 나왔다. 이 지문의 난이도와 변별력으로 논란이 있는 모양이다. 허나 난이도와 변별력이 적정한지는 언어영역 지문 전체, 문제 난이도, 교육 과정 등을 총체적으로 고려해야 하는 내용이므로 이에대한 언급은 할 수가 없다.

현실에서 보는 번역투를 빼면 남는게 없는 기술 관련 글보다는 훨씬 낫다. 하지만 훌륭한 글은 아니다. 다소 부끄럽지만 첫 두 문단에서 눈에 밟히는 점을 고쳐보았다.

----------

송신기, 채널, 수신기로 구성된 디지털 통신 시스템은 데이터를 빠르고 정확하게 전달하기 위해 부호화 과정을 거친다. 영상, 문자 등의 데이터는 특정 기호 집합에 있는 기호의 조합이다. 예를 들어 기호 집합 {a, b, c, d, e, f}에서 기호를 조합한 add, cab, beef 등이 이에 해당한다. 한편 정보량은 어떤 기호의 존재를 알았을 때 얻는 정보의 양이다. 특정 기호의 발생 확률이 높으면 정보량은 낮고, 반대로 확률이 낮으면 정보량이 많아진다. 기호 집합의 평균 정보량을 계산한 값을 엔트로피라고 하며 모든 기호의 발생 확률이 동일하면 엔트로피는 최대가 된다.

송신기는 기호를 부호로 변환하며 세부적으로는 소스 부호화, 채널 부호화, 선 부호화를 거친다. 소스 부호화는 기호를 0과 1로 이루어진 부호로 변환하는 과정으로 데이터를 압축하는 효과가 있다. 예컨대 어떤 기호를 부호로 변환한 결과가 '110'이라고 하자. 여기에서 0 또는 1을 비트라고 하며 이 부호의 비트 수는 3이 된다. 이때 기호 집합의 엔트로피는 기호 집합에 있는 기호를 부호로 표현하는데 필요한 평균 비트 수의 최솟값이다. ..(후략)

----------

이렇게 고친 글이 무조건 좋은 수능 지문이라고 할 수는 없다. 수능 지문은 나름의 목적이 있을..지도 모르니까. 그러나 현실에서 보는 기술 관련 글이나 번역문이라면 수능에 나온 지문보다는 이게 낫겠지. 

Friday, November 3, 2017

발표자료 - 음악과 딥러닝의 사랑과 전쟁





2017-11-03 판교 융합센터에서 발표한 내용입니다. 

Friday, September 29, 2017

Q&A - 다성음 인식 관련





아래의 질문을 받았습니다. 

* * *

저희는 전자 피아노를 연주 했을 때 다성(polyphony)음을 인식하여 맞았는지, 틀렸는지를 분석해 주는 연구를 진행중입니다. 다성음에 관한 자료가 많지 않아 다양한 논문을 리서치 하던 중, (..중략).. 음악 인식에 관련되어 몇가지 질문이 있어 이렇게 메일을 보내게 되었습니다.
1. (첨부파일 중 magnitudeSpectrum.py)
사전에 연주한 음악 파일(첨부한 파일 중 butterfly.wav)을 fft를 사용하여 frequency와 power(dB)로 분리해 특징을 추출하여 그 결과로 첨부한 사진과 같은 그래프를 얻을 수 있었습니다.
여기서 혹시 전처리와 특징값 추출이 올바르게 되었다는 사실을 검증할 수 있는 방법이 특별히 있는지 궁금합니다.

2. 그 후 NMF(non-negative matrix factorization, 비음수 행렬 인수분해)를 사용하여 다성음 인식을 가능하다는 정보를 얻게 되어 이를 분류기로 사용하여 학습을 진행할 예정입니다. 하지만 정확한 검증과정이 없어 혹시 NMF가 분류기로 사용하기에 적절한지 궁금합니다. 혹시 해당 방법이 적절하지 않다면 적절한 분류기를 추천해 주실 수 있으신가요?
실제 이렇게 하여 다성음간 비교를 하여 일정확률 이상으로 일치여부를 판별하고자 합니다. 방향성이나 구현방법이 맞는지 조언 부탁드리고, 추가로 해주실 말씀 있으시면 의견부탁드립니다.

* * *

받은 소스코드는 아래와 같습니다.


import scipy.io.wavfile as wavfile
import numpy as np
import pylab as pl

rate, data = wavfile.read("Butterfly.wav")
t = np.arange(len(data[:,0]))*1.0/rate

#Original Signal graph
fig = pl.figure()
g1 = fig.add_subplot(221)
g1.set_title("Original signal")
g1.plot(data)


for i in range(0,180778):
  if(data[i,1]>0):
      start = i
      break
print(start)
temp = np.abs(np.fft.rfft(data[start:180778,1]))

p = [20*np.log10(x) if x>=1 else 1 for x in temp]


f = np.linspace(0, rate/2.0, len(p))

g2 = fig.add_subplot(222)
g2.set_title("FFT")

g2.plot(f, p)
# g2.xlabel("Frequency(Hz)")
# g2.ylabel("Power(dB)")

pl.show()


그럼 간단히 첨삭해볼까요?

첨삭

파트 1


import scipy.io.wavfile as wavfile
import numpy as np
import pylab as pl

rate, data = wavfile.read("Butterfly.wav")
t = np.arange(len(data[:,0]))*1.0/rate

#Original Signal graph
fig = pl.figure()
g1 = fig.add_subplot(221)
g1.set_title("Original signal")
g1.plot(data)

좋습니다.

파트 2


for i in range(0,180778):
  if(data[i,1]>0):
      start = i
      break
print(start)
temp = np.abs(np.fft.rfft(data[start:180778,1]))


음악 파일에서 앞에있는 묵음 구간을 제외하려는 코드같네요. 그런데 실제 음원은 잡음이 껴있어서 이렇게 샘플 기반으로, 기준을 0으로 잡아서 하면 잘 작동하지 않습니다. 음성의 경우에 음성이 있는 구간을 탐지하는 (Voice activity detector, VAD) 아주 중요한 문제죠. 프로젝트에서 쓸법한 간단한 방법으로는 1. 신호를 프레임으로 나누고 (예) 2. 프레임마다 평균 에너지를 구하고 3. 그걸 plot해서 4. 눈으로 보고 적당한 기준값을 정하면 됩니다.

그 뒤엔 np.fft(rfft)를 하셨는데요, 이렇게 하면 신호 전체에 대해 FFT를 수행합니다. 하지만 실제로 필요한건 짧은 프레임에 대해 계속 주파수 분석을 하는 short-time Fourier transform입니다.

마지막으로 180778은 butterfly.wav의 샘플 개수인가요? 이건 곡마다 달라질테니 변수로 지정하는편이 좋겠죠.

파트 3 


p = [20*np.log10(x) if x>=1 else 1 for x in temp]

이 부분을 보니 오디오 샘플 x가 웨이브파일에서 그대로 값을 읽어온 int로 이루어진것같군요. 일단 계산 자체는 맞습니다.

하지만 이 연산을 이렇게 수행하는것보다 x=np.array(x)로 바꾸고 p=np.log10(np.maximum(x, 1))를 하는게 좋겠죠.

그리고 p는 좋은 변수 이름은 아니네요.

파트 4



f = np.linspace(0, rate/2.0, len(p))

g2 = fig.add_subplot(222)
g2.set_title("FFT")

g2.plot(f, p)
# g2.xlabel("Frequency(Hz)")
# g2.ylabel("Power(dB)")

pl.show()


맞습니다.

조언

위의 작업을 STFT로 수행해야 시간별로 어떤 일이 일어나고있는지 알 수 있습니다.

NMF와 다성음 인식

일단 쉬운 주제는 아닙니다. 다성음 인식은 아직 풀린 문제가 아니고 기존에 논문으로 나온 인식기를 구현하는 것도 배경지식이 필요합니다.

아주 간단한 작업부터 시작하시길 권합니다 (항상 마찬가지죠). 예를 들어 '도.wav'와 '솔.wav'를 구별할 수 있게 학습이 가능한지 해보시고, 그 뒤엔 이것을 도레미파솔라시 7개 음을 구별하는걸로 확장해보고, 그런 식이죠.

그리고 NMF는 여기서 분류기가 아니라 특징값 추출기입니다. NMF를 np.abs(np.log10(STFT))에 적용한 뒤 나온 값을 다시 분류기에 넣으셔야합니다.

마지막으로 모든 작업은 기본적인 머신러닝의 룰을 따라야합니다. 제 게시물 등을 참고하셔서 오버피팅, 학습/시험셋 나누기 등을 수행하셔야합니다.

Thursday, September 14, 2017

튜토리알 논문을 하나 썼습니다.

"Music information retrieval을 위한 딥러닝"이라는 제목으로 튜토리알 논문을 하나 썼습니다. 어제 아카이브에 올라왔네요.  논문 링크 | 코드 링크
핵심만 쉽게 설명하려고 애를 많이 썼습니다. 재미있게 읽어주세요.


Sunday, August 27, 2017

저널 논문, 리뷰, 스페셜 이슈

오늘은 잡담을 좀 하고싶네요. 박사과정에서 지금 중요한 때라서요.

제가 있는 학교에서는 학교나 학과에서 박사학위에 특별히 SCI저널이라든지 하는 조건이 없습니다. 특히 컴공에서는 점점 이런 추세로 바뀌고있죠. 그렇지만 제 지도교수는 저널 논문을 나름대로 조건으로 따지는 편입니다. 예외인 경우가 무지하게 많지만요.

특히 저는 펀딩 기간보다 빨리 졸업하려고 하다보니 이런 조건을 무시하고 졸업 논문을 작성하겠다고 설득하기가 어려웠죠. 요즘 이 분야가 사람들이 학위과정 졸업이나 프로젝트 실적, 테뉴어 심사같은 이유가 아니면 굳이 저널 논문을 쓰질 않아서 저는 좋은 저널 논문이 어떤건지도 잘 모르는 상태에서 저널 논문을 썼습니다.

그런데 어쩌다보니 주제 두개를 억지로 묶은 이상한 논문이 나왔고, 스페셜 이슈라 제출일/심사종료/발간 등 날짜가 정해진 곳에 제출을 했습니다. 며칠 전, 예정보다 일주일가량 빠른 리뷰를 받았는데 불안했던 예감대로 Major revision and resubmit -- in 2 weeks 라는 결과가 나왔네요.

저널 논문은 즉시 수락/minor revision/major revision/reject 정도로 결과가 갈립니다. 바로 수락되는 경우는 거의 들어본 적이 없고, minor revision이면 리뷰어가 언급한거만 조금 고치거나 하면 수락되죠. reject은 말 그대로 이 연구는 우리 저널에선 실릴 가능성이 없다는 거구요. 제가 받은 major revision은 고칠게 많지만 리젝주긴 미안하고 약간의 희망은 있다, 는겁니다.

그런데 이게 스페셜이슈를 만나면 조금 달라집니다. 스페셜 이슈는 정해진 날짜에 논문집이 나와야하니 편집자나 리뷰어도 논문이 넘치는 상황이 아닌다음에야 가급적 희망의 불씨를 살려두고싶어하죠. 그래서 major revision이라도 잘 고치면 한번쯤 더 minor revision을 하고 수락이 된다는 시나리오가 실현되길 바라고있습니다.

Major revision이면서 2주밖에 시간을 안주는건 좀 이상한건데 이것도 스페셜이슈 발간 일정때문에 그런것으로 생각합니다.

제가 받은 리뷰는 공통적으로 동떨어진 주제 두개가 논문 하나에 있는것이 이상하다는 내용입니다. 물론 저도 인정하구요. 그래서 급하게 전체 11페이지 분량에서 3페이지를 삭제하고 남은 내용을 발전시켜보고있습니다. 2주 안에 다시 낼 수 있을것 같긴 한데, 잘 될지 모르겠네요.

여기까지입니다. 나중에 저 읽으라고 쓰는 글이지만 공개로 작성합니다. 

Wednesday, July 5, 2017

유학 준비 - 자기소개서와 연구계획서 작성법

간결하게 쓰겠습니다.
  • 자기 소개서
    • Q. 자기 소개서에 쓸 내용이 너무 없어요.
      • A. 자기 소개서에 쓸 내용을 만들었어야합니다. 공부를 했다면 그 내용을 정리해서 인터넷에 올리세요. 연구를 도운게 있다면 공저자로 이름이 들어있겠죠? 그걸 사용하세요. 뽑는사람 입장에서는 이 사람을 뽑았을 때 혹시나 깽판치거나 완전 말아먹을수도 있다는 걱정을 항상 하게됩니다. 따라서 그런 불안감을 줄여주려면 근거 없는 경험을 나열하는게 아니라 신뢰할 수 있는, 권위 있는 사람이나 소속이 연관된 뭐라도 하셔야합니다.
      • 지금까지 한게 없으면 지금부터라도 하세요. 1달이라도 의미있는걸, 그리고 문서화할 수 있고 설명이 가능한걸 뭐라도 하고 그걸 적으세요. 만일 수 개월의 시간이 있다면 분명 의미있는 활동을 할 수 있습니다. 
    • Q. 자기 소개서를 교수가 읽나요?
      • A. 읽는다고 가정하고 쓰세요. 
    • Q. 주의사항
      • A. 본인이 참여한 프로젝트나 기관을 너무 열심히 설명하지 마시고 본인이 참여한 이유, 맡은 역할, 배운 내용을 쓰세요. 즉 본인이 뭘 하셨는지를 적으셔야합니다. 자기소개서는 내 예전 직장 소개서가 아닙니다.
  • 연구계획서
    • Q. 전 아는게 없는데 연구계획서를 어떻게 쓰죠? 
      • A. 연구계획서를 쓸 수 있도록 해당 분야의 논문, 서적, 발표자료 등을 면밀히 찾아보시길 바랍니다.
    • Q. 대학원 다니는 동안 연구계획서대로 진짜 연구를 수행해야 하나요?
      • A. 아뇨, 실제로 연구하는 내용은 엄청나게 바뀔겁니다. 그렇지만 현 시점에서 최대한 노력해서 쓰셔야합니다.
    • Q. 연구계획서를 교수가 읽나요?
      • A. 읽는다고 가정하고 쓰세요.
  • 그 외
    • 자기소개서에서는 본인의 과거를 소개합니다. 어지간하면 최근 몇 년만 적으세요.
    • 연구계획서에는 본인이 미래에 - 향후 몇 년 간 - 뭘 할지 적습니다. 
    • 따라서 두 문서는 내용이 겹치거나 같은 말을 반복하지는 마세요. 그러나,
      • 과거에 나는 이런이런걸 했고, 이건 나의 어떠한 면을 보여주며, 내 관심 분야를 이렇게 공부해왔고,
      • 미래에도 이걸 계속하고 싶으며 이러이러하게 열심히 잘 할것이니 뽑아달라.
    • 로 일맥상통해야 합니다.
    • 연구계획서에 적힌 연구 내용은 당연히 지원하는 학교와 잘 맞아야합니다. 교수의 논문 목록을 찾아보시면 최근 관심분야가 나오겠죠.
    • 자기소개서나 연구계획서가 당락을 가르는지 관심갖지 마세요. 그냥 열심히 준비하세요. 교수마다 다르고, 학교마다 다르고, 기분따라 다릅니다. 남들이 어떻게 하는지, 어떻게 했는지는 전혀 중요하지 않습니다.

Wednesday, June 14, 2017

음성/음악신호+머신러닝 초심자를 위한 가이드 [4편]

음성/음악신호+머신러닝 초심자를 위한 가이드 전체 게시물은 여기를 클릭하세요.

데이터 수집

이번엔 데이터 수집을 주제로 글을 쓰겠습니다.

기존 데이터셋 사용

음악 데이터 셋은 http://www.audiocontentanalysis.org/data-sets/ 여기에 잘 정리되어있습니다.
오디오 관련 데이터셋은 좀 더 중구난방인데, 
- Urbansound8K by Justin Salamon
- AudioSet by Google, 2017 (유튜브 주소만 제공하고 직접 크롤링해야함. 어떻게? Fuel, YouTube-dl)
- DCASE audio detection by Queen Mary University of London
- Bird Audio Detection by Queen Mary University of London

이 정도가 생각나네요.

데이터 수집

살다보면 힘들고 험한 길을 가야할 때가 있죠.
freesound에서 직접 크롤링해서 뭔가 할 수 있지 않을까? 하는 희망을 한번쯤은 품어볼 필요가 있습니다.
아래 코드를 참고하세요. 주소는 여기





데이터 정리

데이터를 모으는게 다가 아니죠. 일단, 키워드로 검색을 했으니 특정 소리가 들어있는 음악 파일을 잔뜩 받았다고 해봅시다. 뭘 해야할까요?


  • Normalisation
import numpy as np
import librosa

x = librosa.core('event1.mp3', sr=None, mono=True)
x = x / np.max(np.abs(x))

  • Trimming
앞뒤에 조용한 구간이 있다면 싹둑 잘라주는편이 좋겠죠. 이건 어느정도 대애충 감으로 하는게 편할것같네요. 저라면, hann window같은걸 씌우고, 각 윈도에서 평균 에너지를 구해서 (np.mean(np.abs(windowed_source_x) ** 2)), 그 윈도 별 평균 에너지를 기준으로,아무런 음향 이벤트가 안일어나는 첫 N개의 윈도와 마지막 M개의 윈도를 날리겠습니다.

  • Augmentation
데이터가 부족하면 뻥튀기를 하고싶겠죠? 방법은 여러가지가 있습니다. 적당한 구간에서 pitch shift / time expanding을 하시면 무난할테고, 다른 잡음을 적당히 섞어주는것도 좋겠죠 (x = x + gain * noise). 이 정도만 해도 벌써 10배이상 데이터가 늘어날 것 같네요. 


  • 주의사항
음원이 매우 길다거나해서 여러 개의 학습 데이터 샘플로 쪼개서 쓰는 경우에, 같은 음원에서 나온 샘플 여러개가 training/validation/test 셋에서 섞이지 않도록 주의합시다.


이상입니다.

Monday, June 5, 2017

WWDC 2017 - Apple Music, MusicKit API

Apple Music 관련 몇 가지 뉴스가 나왔네요.
  • 애플 뮤직이 런칭한게 약 2년 전입니다. 2015년 6월 30일에 서비스를 시작했군요. 1년 반이 2016년 12월에 유료 구독이 2천만명을 넘었다고 기사가 나왔었고 오늘은 2천 7백만명이 넘었다고 발표했습니다. 업계 1위인 Spotify가 5천만명을 발표했죠. 둘 다 여전히 성장을 하고 있습니다. 
    • 참고로 Spotify는 아직까지 적자 기업이지만 음악 비즈니스 전체의 파이가 커지고 있는 것 등을 감안하면 미래가 그렇게 어둡지는 않아보입니다. 
    • 역시 사견입니다. Spotify는 광고 기반 무료 감상때문에 적자인건데, 이게 음악 시장 전체를 악화시킨다고 생각합니다.
  • MusicKit 이라는 새 API를 발표했군요. iOS 11의 신기능입니다. 이걸 쓰면 애플 뮤직 유저의 각종 정보 - 라이브러리, 개인화 추천 등에 접근이 가능하다고 하네요. 애플 뮤직은 안드로이드에서도 있으니 안드로이드용 API도 나오면 좋을텐데 딱히 언급은 없었습니다.
  • 역시 Spotify포함 기존 서비스에 많이 있는거죠. 소셜 기능을 추가했네요. '친구' 맺은 사람이 뭐 듣는지 나오고 그런거라고 하네요. 자세한 언급은 없었지만 연락처에 있는 목록 / 페북 친구 등등으로 연계해서 나올거같습니다.

국내 스트리밍 서비스도 재미있는 API를 많이 열면 좋겠습니다만, 경제적인 유인이 적으니까 안하는것이겠죠. 연구자, 종사자 및 음악을 좋아하는 사람으로서 매우 아쉬운 면입니다.

Friday, June 2, 2017

블로그를 하십시오.

독자가 컴공 대학원생이라고 가정하고 글을 쓰겠습니다. 아닌분들이 더 많겠죠? 본인의 상황에 맞는 조언인지 생각해보면서 읽으시면 되겠습니다.

블로그를 운영하면 생각보다 많은 사람들이 와서 봅니다.
그리고 연구는, 더군다나 취직은, '장사'의 속성을 지니고 있습니다.
아시다시피 그리고 컴공 분야 종사자들은 컴퓨터를 엄청 오래 합니다.

블로그에 논문을 설명해놓으면, 더 많은 사람들이 효율적으로 당신의 연구를 이해하게 됩니다. 그럼 더 많이 읽고 더 많이 인용하겠죠.
블로그의 좋은 글을 보면서 당신이 누군지 알게되고, 당신의 연구와 논문에 관심을 갖고 더 신뢰하게 됩니다.
블로그를 보면 독자는 당신의 연구 분야와 능력을 알게 되고, 더 낮은 기회비용으로 당신을 고용하려고 하겠죠.

모두 실제로 제게 일어난 일입니다. 저는 국문 블로그(여기), 영문 블로그, 깃헙 저장소 등으로 열심히 '영업'을 합니다. 지금보다 훨씬 영업할 껀덕지가 없을때부터 그랬습니다. 이건 제가 박사과정 시작하고 갔던 첫 번째 학회에서 (현재 DeepMind에서 일하는, AlphaGo와 Wavenet 논문의 저자) Sander Dieleman이 조언해준 덕분입니다. Sander도 Spotify x Convnet 게시물이 엄청난 인기를 끌어서 유명해졌고 그 결과로 딥마인드에서 면접 오퍼를 받았습니다. 저는 그런 스타급 연구자가 아니지만 현재 일하고있는 스타트업(버즈뮤직)에서도 제 블로그를 보고 연락을 줬고, 자문역으로 일하기 시작한 제이마플도 마찬가지입니다. 멜론에서도 연락이 왔었군요. 제가 런던에 있으니 더 용이한 것도 있겠지만 Mixcloud나 Kantar Media에서도 비슷한 연락을 받았습니다.

아마 제가 블로그/깃헙을 안했다면 아무 일도 일어나지 않았을 것입니다. 여러분, 블로그를 하세요. 엄청난 도움이 됩니다. 남들도 하루종일 웹서핑 하거든요.

Wednesday, May 17, 2017

두괄식 글쓰기: 영어 논문을 'Poor English'로 리젝 당하지 않는법

요즘 저랑 같은 사무실 쓰는 친구들이 학회를 준비중입니다. 최근에 리뷰가 끝났고 이제 통과/탈락 Acceptance/Rejection을 정하는 회의를 하더군요. 그리고 그럭저럭 재밌는 연구를 했지만 논문 작성 - 글쓰기를 매우 못해서 모든 리뷰어에게 낮은 점수/Rejection을 받은 논문을 보여주더군요.

인터넷에서 논문 리뷰 가이드를 찾아보면 '글쓰기'보다 연구 내용을 보고 평가하라고 써있곤 합니다. 그렇지만 현실에서는 영어 또는 글쓰기 이슈로 점수를 많이 깎이고 결과적으로 억셉될수도 있었던 논문이 리젝되는 슬픈일이 일어나곤합니다.

사실 억울하죠. 서양애들은 영어가 모국어가 아니더라도 한국어 화자가 얼마나 영어로 말하고 글쓰기가 어려운지 몰라요. 그렇지만 현실이 냉정하니 생존할 방법을 논의해봅시다. 저도 많이 부족하지만 제가 깨달은 몇가지를 이야기해보도록 하겠습니다. 

몇 가지 이야기를 할건데, 핵심 키워드는 "두괄식" 입니다. 

두괄식으로 초록 쓰기

오늘 제가 리젝당한걸 지켜본 논문의 시작은 두 문단으로 되어있습니다. 대략 이런식으로요. (제가 작성한 예제입니다.)

The development of parallel-computing hardware and optimisation techniques have been helped research on deep neural networks since 2000s when .. blahblah (중략)
This work present a music classification based on deep convolutional neural network. ... (후략)

즉, 첫 문단에 이 연구의 배경 설명을 소개하고 두 번째 문단에서 본격적으로 이 논문의 내용을 소개하는겁니다.

결론부터 이야기하면, 서양식 글쓰기에서 첫 번째 문단은 완전 불필요한 잉여문단입니다. 저런 소개를 빼고 조금도 어색하지 않아요. 리뷰어는 이미 해당 분야의 배경 지식을 갖고있습니다. 저런 소개는 잉여인데다가 리뷰어의 집중력을 흐트려놓습니다. 그리고 논문의 시작에서 강렬하고 좋은 인상을 주지 못하면 이미 "이 논문 뭐야? 어디꺼야?"이러면서 부정적으로 보게 되고 최악의 경우엔 제대로 읽지도 않아요. 부당하지만 현실.

게다가 영어 실력이 조금 떨어져서 쓸데없는 내용을 담은 이상한 문장이 나왔다면? 리젝률이 막 올라가는거죠. 오늘 본 논문이 딱 이랬어요. 

즉, 부족한 영어실력 * 두괄식이 아닌 글쓰기 = 리젝. 따라서 일단 두괄식으로 초록을 쓰세요. 초록 첫 문장에서 바로 강펀치를 빵! 날리셔야합니다.

두괄식으로 본문 쓰기

마찬가지 내용입니다. 각 문단의 첫 문장만 모아놓으면 자동으로 개요가 되어야한다고 생각하면 편합니다. 문단의 첫 문장은 그 문단의 가장 중요한 내용을 요약해야합니다. 만일 중요한 내용이 두 개가 나온다면 문단을 나누세요.

두괄식으로 문장 쓰기

논문에서는 'we'가 아니라 수동태로 문장을 작성하라고 배우죠. 그런데 보면 종종 we로 시작하는 문장도 있어요. 이걸 더 자세히 설명해볼게요.

1. Audio signals are converted into short-time Fourier transform.
2. Short-time Fourier transform is adopted to represent audio signals.
3. We use short-time Fourier transform to represent audio signals.

언뜻 보면 같은 내용을 다르게 표현한것 같지만 논문 글쓰기를 하는 경우에는 저 셋을 구별해서 사용해야합니다.

일단, 1과 2는 소위 수동태고 3은 능동형 문장이네요. 그럼 어떤 차이가 있을까요?

1. 주어가 Audio signals로 되어있네요. 이 경우엔 오디오 신호를 어떻게 처리하는지가 제일 중요한 상황입니다.
2. 주어가 Short-time Fourier transform이네요. 이 맥락에서 다른 방법 (CQT, Mel-spectrogram, ...)이 아니라 STFT를 사용했다는 사실이 중요한거죠.

사실 1과 2는 그렇게 다르진 않습니다. 독자가 읽기에도 별 차이 없는 경우가 대부분일거에요. 그러나 3은 아주 다릅니다.

3. 상황에 따라 "We used short.."로 쓰는게 나을수도 있어요. 아무튼, 왜 논문인데 능동형이냐! 이 문장은, 제안한 방법이 꼭 STFT를 써야하는건 아니고 다른것도 가능한 상황, 즉 알고리즘 내부에서 STFT를 쓰건 다른걸 쓰건 큰 차이가 없고, 이 논문에서 보고하는 실험은 STFT를 썼다는걸 명시하는 경우에 쓸 수 있는 문장입니다. 반대로, STFT를 (거의) 반드시 써야하는 상황이라면 1이나 2처럼 쓰는것이 더 적합하겠죠.

결론

초록도, 본문의 문단도, 문장도 모두 두괄식으로 써야합니다. 한국인의 대화/글쓰기 사고방식이 두괄식이 아니라 두괄식으로 쓰려고 맘먹어도 자꾸 잊을거에요. 그래도 계속 이걸 잊지말고 계속 쓰고 고치다보면 훨씬 좋은 글이 나올거에요. 그럼 다들 좋은 논문 쓰길 바랍니다.

Saturday, April 29, 2017

ISLR 2.2 - An Introduction to Statistical Learning (with applications in R)



pdf 다운로드 링크
구매 링크 (네이버 책)

2. 통계 학습 Statistical Learning

2.2 모델 정확도 평가 Assessing model accuracy


이 책에서는 선형 모델보다 복잡한 다양한 모델을 소개할 예정입니다. 왜 이렇게 많은 모델이 존재하고 이걸 다 공부해야 할까요? 그냥 제일 좋은거 하나를 쓰면 되지 않을까요? (아님) 안타깝게도 모든 경우에 제일 적합한 최고의 모델같은건 없습니다. 데이터 셋에 따라 다른 모델의 성능이 더 좋을 수 있고 문제에 따라, 목적에 따라 다 다를 수 있습니다.

제일 좋은 모델을 고르려면 어떤 모델이 좋은지를 평가할 수 있어야합니다. 이 부분을 알아봅시다.

2.1.1. 학습 성능 평가 Measuring the quality of fit

데이터 셋이 주어져있을 때 여기에 제일 잘 맞는 모델을 고르려면 모델의 성능을 수치화해야합니다. 회귀 regression 문제에서는 흔히 평균 제곱 오차 (MSE, Mean square error)를 많이 사용합니다. 말 그대로 오차의 제곱을 평균낸 것이죠.

$MSE = \frac{1}{N} \sum_{i=1}^n (y_i - \hat{f}(x_i))^2$

$y_i$가 정답, $\hat{f}(x_i)$가 우리의 예측 값이구요. 예측값이 정답에 가까울수록 MSE는 작아지게 됩니다.

학습 셋에서 구한 MSE를 '학습MSE' (training MSE)라고 하죠. 그런데 우리가 진짜로 신경쓰는건 학습MSE가 아니라, 생전 처음 보는, 새로운 데이터에서 모델의 MSE - 즉 시험MSE (test MSE)입니다. 예를 들어 주가 예측 모델을 짰다고 하면, 과거의 주가 패턴을 분석해서 모델을 만들고 학습시키겠죠. 그런데 이 모델의 학습MSE가 완벽해서 과거의 주가를 100% 맞추는건 아무 의미가 없습니다. 시험 셋에서의 성능 -- 즉 내일 주가를 맞추느냐! 가 중요하겠죠. 그래야 돈을 버니까!

때론 시험 셋이 있어서, 시험셋에서 성능이 제일 잘 나오는 모델을 고르면 되기도 합니다. 그런데 아닐때도 있죠. 그럼 어떻게 해야할까요? 흔한 오해는 학습MSE를 보고 판단하는겁니다.



그림 2.9를 보시죠. 우측 회색 선이 학습MSE, 빨간 선이 시험MSE입니다. 모델의 복잡도가 올라갈수록 학습 MSE는 계속 감사합니다. 왜냐면, 복잡한 모델일수록 어떻게든 학습 데이터에 모델을 "끼워 맞추는" 식으로 학습할 여지가 많기 때문입니다. 왼쪽 그림의 녹색 그래프가 바로 그런거죠. 복잡한 데이터에 막 그래프가 쭈글쭈글거리면서 끼워맞춘거죠.

이런 경우에 빨간 선, 즉 시험 셋의 MSE가 제일 적은 점(파랑 네모)로 골라야 최적의 선택이 됩니다.

2.2.2. 바이어스-베리언스 트레이드 오프 The bias-variance trade-off


시험MSE(의 제곱)는 아래와 같이 세 항으로 나눌 수 있습니다.

$E(y_0 - \hat{f}(x_0))^2 = Var(\hat{f}(x_0)) + [Bias(\hat{f}(x_0))]^2 + Var(\epsilon)$

여기에서, 역시 $\epsilon$은 우리가 어떻게 할 수가 없습니다. 따라서 여기에 있는 Variance와 Bias를 최소화하는것이 좋겠죠.

그런데 대체 여기에서 말하는 Variance와 Bias가 뭘까요?

Variance는 데이터셋을 바꾸면 일어날 수 있는 $\hat{f}$의 변화입니다. 만일 Variance가 크다면, 같은 모델을 학습 데이터만 바꿔도 오차가 확 증가합니다.

Bias는 실제로 일어나는, 훨씬 복잡한 상황을 이보다 단순한 함수 $\hat{f}$를 사용함으로써 생기는 오차입니다. 예를 들어 실제로 일어나는 상황엔 입력-출력 사이에 비선형성이 작용하는데 이걸 선형으로 모델링한다면 어쩔 수 없이 오차가 생기게됩니다.

일반적으로, 복잡하고 유연한 모델을 쓸수록 Variance가 증가하고 Bias는 감소합니다. 당연히 그렇겠죠. 그러나 이는 실제 문제가 어떤지, 그리고 우리가 어떤 데이터를 가지고 있는지에 따라 달라집니다.

2.2.3. 분류기 설정 The classification setting

그동안은 MSE를 쓰면서 회귀 모델을 가정했습니다. 이번엔 분류의 경우에 어떻게 되나 보도록 합시다. 우선 평가 방법으로 흔히 오차율 error rate을 계산합니다.

$\frac{1}{n}\sum_{i=1}^n I(y_i \neq \hat{y}_i)$

이 식에서 $\hat{y}_i$는 i번째 입력 데이터로 모델이 예측한 값입니다. 그리고 $I()$는 indicator 함수라고 흔히 부르는데, $I(true)=1$, $I(false)=0$ 으로 정의됩니다. 즉, 예측 값이 맞다면 -- 예를 들어 숫자 인식기라면 0-9중에 3을 예측했고, 실제로 정답이 3이면 $I()$가 1이 되는 것이죠. 따라서 최종적으로 100개를 테스트했는데 정답이 95개면 오차율은 $5/100=0.05$가 나오는 간단한 방식입니다.

베이즈 분류기 The Bayes Classifier
베이즈 분류기는 아래의 식을 (Bayes rule) 최대화하는 클래스 $j$를 고르는 분류기입니다.

$Pr(Y=j | X=x_0)$

쉬운 예를 들면, 만일 클래스가 두개인 이진분류 binary classification이면, $Pr(Y=1
 X=x_0 > 0.5 $이면 $Y=1$로 예측을 하는 방식입니다.

베이즈 분류기는 테스트 오차율을 최소화하는 규칙입니다. 이 오차율을 베이즈 오차율 Bayes error rate이라고 부릅니다.

KNN; K-nearest neighbors
그럼 베이즈 분류기를 쓰면 참 좋겠죠? 그러나 실제로는 조건부확률 $Pr(Y=j | X=x_0$를 모르기 때문에 불가능합니다. 즉 베이즈 분류기는 영원히 도달할 수 없는 궁극의 목표같은거죠. 이 조건부 확률을 추정하는 방법이 여러가지가 있는데 그 중 하나가 KNN입니다.




KNN은, 학습 데이터의 $X$를 보고, 테스트 데이터 $x$가 들어왔을 때, $x$ 근처의 가장 가까운 값 $K$개의 클래스를 살펴보고 다수결로 여기에 쫓아가는 방식입니다. 즉 자기 주변의 값을 보고 비슷한걸로 가는, 매우 직관적인 방법입니다.

$K$가 1이면 무조건 제일 가까운걸 쫓아갑니다. 반대 극단으로, 학습 셋이 100개의 데이터인데 $K$가 100이라면 무조건 전체 학습 셋에서 제일 많은 라벨을 쫓아가는거죠. $K$가 작을수록 decision boundary - 클래스를 결정짓는 경계선이 울퉁불퉁 꼬불꼬불해집니다.


여기에서도 적당한 $K$를 고르는것이 중요합니다. 아래 그림을 보면 $1/K$가 증가할수록 -- 즉 $K$가 감소할수록 -- 학습 오차는 줄어들지만 테스트 셋 오차는 어느순간 오히려 증가합니다.


2.3 Lab: Introduction to R


PDF파일을 보고 직접 해보시길 바랍니다.


ISLR 2.1 - An Introduction to Statistical Learning (with applications in R):



pdf 다운로드 링크
구매 링크 (네이버 책)

2. 통계 학습 Statistical Learning

2.1. 통계 학습이란? What is statistical learning?


통계 학습을 설명하기 위해 여기에서는 간단한 예를 하나 듭니다. (통계) 컨설턴트로 업무를 맡게 되었고 고객이 매출을 늘리기 위해 어떤 광고를 어떻게 집행해야하는지 궁금해하는 상황이라고 가정해보죠. 200개의 다른 시장 자료가 있고, 각각은 TV/라디오/신문 광고를 얼마씩 집행했으며 발생한 매출인지를 정리한 자료입니다. 예를 들어 TV가 효과가 제일 좋고, 라디오는 별로니 양을 줄이시고, 이런 컨설팅을 해줄 수 있겠죠. 아래 그림 (그림 2-1)같은 형태가 될테구요.


이 상황이라면 종류별 광고 예산을 입력 변수 input variable으로, 매출 sales을 출력 변수 output variable로 놓을 수 있습니다. 기호를 쓴다면 $X_1$, $X_2$, $X_3$이 각각 TV/라디오/신문 광고 집행 비용에 해당하겠죠. 출력은 $Y$가 되구요.

이 식을 좀 더 일반적으로 쓰면, 입력을 $X=(X_1, X_2, .., X_p)$로 놓고 이 입력과 출력간에 어떤 관계가 있는지를 알아내는게 우리의 목적이 됩니다. 수식으로 쓰면..

$Y = f(X) + \epsilon$
가 되게습니다.
이 식에서 $f$가 뭔지는 지금 모르고, $\epsilon$은 뭔진 모르지만 $X$완 관계 없는 추가적인 노이즈가 됩니다. 평균은 0이구요. 이렇게 가정을 하면 $f$는 $X$와  $Y$의 관계를 규정하는 함수가 됩니다.

2.1.1. f를 추정하는 이유

$f$를 추정하는 이유는 두가지가 있습니다. 예측 prediction과 추론 inference 입니다.

Prediction
$X$는 알지만 $Y$를 모르는 경우가 보통입니다. 이럴 때 $f$의 추정값 $\hat{f}$를 안다면 출력값을 역시 추정 $\hat{Y}$할 수 있겠죠. 

$\hat{Y}=\hat{f}(X)$

이렇게요. 위에서 $\epsilon$의 평균이 0이라고 가정했기때문에 추정치는 평균적으로 $\epsilon$을 무시한거구요. 이렇게 값을 예측하는 경우에 $\hat{f}$을 블랙박스로 생각합니다. 즉, 그 구조가 뭔지는 알바 아니라는거죠. 정확한 예측만 한다면.

$\hat{Y}$의 정확도는 줄일 수 있는 에러 reducible error와 우리가 어찌할 수 없는 에러 irreducible error 두 가지에 달려있습니다. "완벽한" 함수 $f$를 찾았다 하더라도 이를 이용한 추정치 $\hat{Y}=f(X)$는 오차 $\epsilon$이 있습니다. 왜냐하면 $\epsilon$를 처음부터 그렇게 정의했기 때문입니다. 이 $\epsilon$ 때문에 생기는 오차를 irreducible error라고 부릅니다.

예를 들어, $\epsilon$는 애당초 우리가 측정을 안하는 값의 영향일수가 있겠죠. 위의 예를 들면 티비/신문/라디오랑 관계 없는 다른 요소가 (당연히) 매출에 영향을 줄 것이고 따라서 저 데이터로 아무리 노력을 해도 그 부분은 모델에 넣을 수가 없습니다.

이 책에서는 우리가 데이터로 모델링할 수 있는 오차인 reducible error를 줄이는데 초점을 둡니다.

Inference
예측도 좋지만, 대체 어떤 과정으로 이런 일이 일어나는지 그 내부 논리/구조를 알고싶을 수도 있겠죠. 이렇게 모델을 추론하기 위해 $f$를 추정 estimate합니다. 책에는 3가지로 나눴지만 결국은 
어떤 입력이 출력과 어떤 관계가 있는지
를 알아보는 일 입니다.

2.1.2 어떻게 $f$를 추정하나요?

앞으로 다양한 선형/비선형 모델을 보겠지만 몇가지 공통점이 있습니다. 일단 $n$개의 데이터가 주어진다면 이를 학습 데이터라고 부릅니다. 데이터 하나가 $j$개 (예: 입력이 티비/라디오/신문 3개라면 $j=3$)의 입력을 갖는다고 하죠.

우리의 목적은 통계 학습을 학습 데이터에 잘 적용해서 함수 $\hat{f}$를 찾는 것입니다. 잘 찾아졌다면 어떤 데이터를 가져와도 대략적으로 $Y=\hat{f}(X)$가 성립하겠죠.

매개변수 방법 parametric methods
매개변수 방법은 두 단계로 이루어져있습니다.
  1. 함수의 형태를 특정한 모양으로 가정합니다. 예를 들어
    $f(X) = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + ... + \beta_p X_p$
    라고 가정을 할 수 있겠죠. 참고로 이를 선형 모델이라고 부릅니다. 
  2. 모델을 고른 뒤엔, 학습 데이터를 써서 모델을 학습 (fit, train)합니다. 그렇게 하면 $\beta_0, \beta_1, ..., \beta_p$를 다 구하게 됩니다. 
이렇게 모델을 짜면, 함수 $f$를 구하기 위해서는 매개변수 $\beta$를 구해야겠죠.

비 매개변수 방법 non-parametric memthods
비매개변수 방법은 함수의 형태가 이런이런식일거다-라는 가정을 전혀 하지 않고, 바로 함수 $f$의 모양을 찾습니다.

2.1.3 예측 정확도와 모델 복잡도의 트레이드오프


그림 2.7, p25

위의 그림을 보면 여러가지 모델의 복잡도 (혹은 유연함, flexibility)를 x축에 그렸습니다. 그런데 복잡하고 유연한 모델이 있는데 왜 단순하고 형태가 제한적인 모델이 필요할까요?

복잡한 모델은 성능이 잘 나올수 있는 대신에 추론 inference을 하기가 어려워서, 대체 '왜' 이렇게 예측을 하는지 설명하기가 interpretability 어렵습니다. 물론 성능을 최대한 높이기 위해서라면 복잡한 모델을 쓰는게 좋겠죠. 그런데, 그렇다고해서 무조건 제일 복잡한 모데을 쓰는게 좋은것은 아닙니다. 이상하죠! 제일 큰 이유는 과적합 overfitting때문입니다. 나중에 뒤에서 다시 다룹니다.

2.1.4. 지도학습과 비지도학습 supervised vs unsupervised learning

대부분의 통계 학습 (혹은 기계 학습)은 지도학습과 비지도학습으로 나뉩니다.

지도 학습은 입력 $x$와 예측값 $y$가 같이 주어지고 이를 이용해 모델을 구하는 것입니다. 비지도학습은 $y$가 없이 입력 $x$만으로 뭔가 하려는거구요.

예를 들어 위 그림에서 (우리는 색깔과 기호로 구분된 정답 $y$를 알고 있지만) 점을 같은 그룹의 점끼리 모아주는 군집화 clustering 가 이에 해당합니다.

2.1.5. 회귀 대 분류 Regression vs Classification problems

입력 및 출력 변수는 '양적' 혹은 '질적' 값입니다. 양적 quantitative 값은 사람의 나이나 키, 온도, 가격처럼 연속적인 값을 의미합니다. 반면에 제품의 브랜드 (A, B, C), 어떤 병에 걸려있는지 아닌지 (True, False) 등의 특징은 숫자로 표현되지 않는 질적 qualitative 값입니다. 혹은 이를 categorical이라고도 합니다.

양적 값을 예측하는 문제를 회귀 regression 문제, 질적 값을 예측하는 문제를 분류 classification 문제라고 합니다. 다만 이 구별이 항상 깔끔하게 되는건 아닙니다. 문제를 풀기에 따라 분류문제도 회귀 모델을 써서 풀 수 있고, 그 반대도 가능하구요. 예컨대 성별을 예측하는 문제를 (0, 1)로 나눠서 분류 문제로 풀 수 있지만 이를 [0, 1] 사이의 연속된 값을 예측하도록 모델을 세우고 맨 마지막에 여기에 반올림을 적용해서 예측값을 구할 수 있겠죠.








Tuesday, March 14, 2017

ICASSP 2017 후기


ICASSP는 ieee의 신호처리 학회로 아마 이 분야에서는 제일 큰 학회일겁니다. 자세한 정보는 http://www.ieee-icassp2017.org 에서 한번 보시고 저는 단박에 논문으로 넘어가겠습니다.
오랜만에 Open access가 아닌 학회엘 갔더니 참 번거롭더군요. 프로시딩을 공유하니 다운받으시어요. 

그럼 무작위 리뷰 시작합니다.



https://lemonatsu.github.io/ 에 데모가 있습니다. 곡을 받아서 보컬을 분리하고, 음정을 찾아서 합성을 합니다. 좋은 음질을 이해 time-frequency domain이 아니라 time-domain에서 바로 합성을 합니다. 데모를 들어보면 음질 차이는 아주 뚜렷합니다.




그냥 22.2채널을 아직도 하고있다는게 놀라워서 하나 찍어봤습니다...


제목이 짤렸네요. 아래 포스터의 논문 제목은
FACIAL ATTRACTIVENESS PREDICTION USING PSYCHOLOGICALLY INSPIRED CONVOLUTIONAL NEURAL NETWORK (PI-CNN)
입니다. 

이 논문에서 제시한 방법이 과연 잘 작동하는건지 저는 별로 신뢰가 가질 않습니다. 우선, 네트워크의 구조를 보면 기본적인 구조는 흔히 알려진 컨브넷이구요, fine-tuning부분이 논문의 주 내용입니다. 본문에서는,

Recent psychology studies indicates that the skin color, smoothness, and lighting are three significant factors influ- encing the perception of facial beauty [1–3]. It inspires us to construct and improve the PI-CNN using a cascaded fine- tuning method with these facial features. 
라고 주장을 하고있구요.

그러면 이 신경망이 탐지하는 특징이 정말 사람의 '미'라고 할 수 있을까요? 데이터셋을 안봐서 모르겠습니다만, 논문에 실린 사진을 보고 판단하자면 소위 '예쁜' 얼굴 데이터는 사진의 품질이 더 좋습니다. 조명도 더 신경썼고 배경도 밝구요. 혹시 이 신경망은 사진의 품질이나 조명같은 특징에 반응하는건 아닐지 하는 의문이 듭니다.

실험에서는 500명 사진을 400:100으로 나눠서 학습했습니다. 데이터 크기도 좀 많이 작죠? 사진은 무려 223x223이나 되구요. 

마지막으로, Asiuan female faces with beautify scores 라는 데이터 자체가 별로 맘에 안드네요.




사진 찍을땐 제목만 봤는데 논문을 읽어보니 정말 별로네요. 이런 글이 대체 왜 학회에서 발표되는건지 정말 이해할수가 없습니다.
제목/본문에 '딥러닝'은 그냥 보기 좋으라고 넣은 단어로 이해하고 넘어가겠습니다.




Environmental sound detection을 34-layer resnet으로 구현했고 end-to-end로 작업했습니다. 최근 몇달간 비슷한 논문이 많이 나오네요.
Urbansound10k 데이터를 썼고 성능은 최고 72%가 나왔네요. SoTA를 찍지는 못했습니다. 
포스터에도 작게 나와있는데, 학습된 필터를 보면 역시 대충 mel-scale이라고 주장들 하는 모양이 나왔습니다. 저는 이게 특별한 스케일을 배운게 아니라 특정 주파수를 넘는 성분을 그냥 무시하고있는거라고 해석합니다. 아래 그림 보시죠.

더이상 특별히 언급할만한 내용은 없습니다.



개구리 소리를 분류하는 알고리즘입니다.
데이터가 많이 없어서, alexnet등 computer vision에서 공개한 네트웍을 그대로 사용하고 뒤에 SVM을 붙여서 하는 내용입니다. 음악에서도 AlexNet을 그대로 써서 장르 분석한 논문이 있었죠.








Deep Ranking: Triplet MatchNet for Music Metric Learning 발표자료입니다.



음악 관련이고, 데이터셋의 구성은 triplet (id1, id2, id3)으로 되어있습니다. MagnaTagATune에 딸려나오는 데이터인데, 곡 1을 기준으로 곡 2, 곡3중에 뭐가 더 곡1이랑 비슷한지 고르는겁니다. 
학습에는 ResNet을 썼구요.
Constraints Fulfillment Rate 이라는걸로 평가를 했는데, triplet으로 주어진 경우엔 결국 전체 샘플에서 triplet을 정확하게 고른게 몇퍼센트냐 - 즉 정확도 - 라고 보면 됩니다. 그리고 두 곡중에하나가 +면 나머지가 자동으로 -가 되기 때문에 랜덤으로 찍어도 50%가 나옵니다.
실험 결과는 70-71%가 나왔네요. 즉 2/3은 맞추고 1/3은 틀린다는 이야기입니다.

컨브넷을 돌리기엔 데이터셋이 너무 작은것이 아닌가 합니다. 전체 860개의 triplet, 993곡밖에 데이터가 없거든요.






음성 인식 과정에서 쓰는 filter bank를 학습하는 내용입니다.
필터뱅크를 gaussian shape을 가정하고 돌렸네요.
저도 비슷한걸 음악에 해봤는데, 이 논문이랑 비슷한 결과를 얻었습니다. 별로 흥미로운 결과는 아니었죠. 아래 그림 보시죠.


center frequency도 학습을 했지만 결과는 전혀 변하지 않았습니다.
각 필터뱅크의 gain만 조금 변했어요. 
그것도 아주 조금....;
작년 ICJNN에 나온 음악관련 논문도 비슷한.. 학습이 되었다고 보기가 어려운, 초기값에서 거의 변하지 않는 결과가 나왔죠.

성능은 조금 올라가긴 합니다. 하지만 이렇게 여러 결과를 보니, filterbank를 매개변수화하고 이를 mel-scale로 초기화한뒤에 학습하는 방법이 썩 좋게 보이질 않네요. 제일 큰 문제는  center frequency가 초기값에서 거의 변하지 않는다는겁니다. 설마 그 초기값이 global minima라서 그렇게 남아있는건 아닐테니까요.





(잘 모름) group lasso라는걸 써서 (lasso의 일종이겠죠) node activation의 sparsity를 만들고 잘 안쓰이는 노드를 날리는 내용입니다.




그레이스노트에서도 꾸준히 논문이 나오네요. 이 논문 말고도 더있었는데...
근데 제가 평소에 관심갖는 주제가 아니라 20000....



MIR에서 세계 최강의 산학협력을 하고있는 KKBOX/타이완에서 나온 논문입니다. 사용한 네트워크의 커널 모양 등 참고할만합니다. 












가사와 음원을 time-align하는 논문입니다. 그레이스노트에선 아주 중요한 일이겠죠?
이 논문은 접근방법이 좀 독특한데, 보컬을 분리하고, 가사는 speech로 합성을 해준뒤에 걔네를 비교합니다.
일반적으로는 보컬을 분리하고 그걸 써서 음성 인식을 하는데, 보통 음성과 달리 노래를 부른것이라 acoustic model 이 다르다는 문제가 있다고 합니다. 




새 소리가 대상이지만 이번에 이런 논문이 엄청 많이 나왔습니다. clip-level label을 이용해 frame-level prediction을 해주는 weakly-labeled learning입니다. 
논문의 그림을 보면 새 소리에 특화된 네트웍 구조를 잘 짠것같습니다.




제목: COMBINING UNIDIRECTIONAL LONG SHORT-TERM MEMORY WITH CONVOLUTIONAL OUTPUT LAYER FOR HIGH-PERFORMANCE SPEECH SYNTHESIS


재밌는 논문같아서 찍었지만 아는바가 전혀 없습니다. 설명충 등판 환영합니다!







SKT에서 나온 논문이네요. 학교 선배의 이름이 보여서 반가웠습니다. 학회장엔 안온것같지만..
멀티채널 VAD로군요. VAD는 정말 전통적인 문제지만 실제로 쓰다보면 아직도 완전 해결되지가 않았죠. 









음원 분리 하다보면 생기는 musical noise를 평가하는 방법입니다. 마크 플럼블리가 Surrey로 옮기고나서 계속 source separation/remix쪽 논문이 나오네요. 그쪽으로 큰 과제를 땄기때문에; 그렇습니다. 





오디오 태깅을 하는데, 정답 태그중에 일부만 랜덤으로 고르고, 그 일부에서 전체 태그를 예측하는 모듈을 추가해서 성능을 높인다고 합니다. 
그 모듈이라는건 결국 태그의 co-occurrence 를 추정하는 건데, 네트워크가 잘 학습되었다면 co-occurrence가 학습에 녹아들어있어야 하는것 아닌가 하는 생각이 듭니다만, 도움이 되나봅니다. 
데이터셋에따라 차이도 클거같네요. false negative가 많은 음악 태그의 경우엔 어렵지 않나 예상합니다.




인텔에서 나온 저전력 뉴럴넷 소개하는 포스터입니다.





다시한번, end-to-end, convnet, environmental sound detection 논문입니다. 



LSTM과 GRU의 차이를 분석하고, GRU의 'lazy update'를 LSTM에도 적용하자고 제안하는 내용입니다. 



DCGAN을 써서 음성의 감정 인식을 하는 내용입니다. Unlabeled data가 많아서 걔네를 이용해 GAN을 돌리면서, 그 discriminator에 레이어를 더 붙여서 A/V prediction을 하는 내용입니다.
Autoencoder랑 비슷하게, 저 방식이 반드시 원하는 작업에 필요한 feature를 추출한다는 보장은 없습니다. 

acknowledgements에 익숙한 아이디가 있어서 ..