최근우 (Keunwoo Choi): 딥러닝

Showing posts with label 딥러닝. Show all posts

Friday, August 23, 2019

Q&A. 오디오 코덱/디코더와 머신러닝/딥러닝

사운들리 그룹에 올라온 질문과 제 답변을 정리한 글입니다.

----------

질문

오디오 데이터셋의 오디오 포맷이 wav와 flac으로 섞여있습니다. 이를 librosa.load로 불러온 뒤 스펙트로그램이나 mfcc로 변환하려고 합니다. 이 경우에 flac을 wav로 변환해서 전체 파일 포맷을 동일하게 만들어둬야 하나요? 아니면 실시간으로 librosa.load로 불러서 바로 스펙트로그램, mfcc등을 계산하면 되나요?

1줄 답변

미리 변환하지 않고 그냥 librosa.load를 바로 쓰시면 됩니다.

3줄 답변

Flac은 무손실 압축입니다. 즉, 디코더 구현에 관계없이 원본 파형을 그대로 유지해야합니다. 따라서 아무 디코더나 쓰셔도 괜찮습니다.

여러줄 답변

질문의 요지는 "flac을 wav로 변환해서 전체 파일 포맷을 동일하게 만드는 과정"과 "librosa.load에서 사용하는 flac 디코딩 과정"에 차이가 있냐는 것입니다. 일단 flac은 무손실 압축이므로 3줄 답변에서 보듯이 어떻게 디코딩하든간에 차이가 없습니다.

조금 더 알아보면, librosa는 자체적인 오디오 디코더를 가지고 있지 않습니다. librosa는 backend로 시스템에 깔려있는 오디오 디코더를 사용합니다. 만약 디코더가 아예 없다면 에러 메시지를 내보냅니다. 그런데 보통 리눅스나 맥에서는 ffmpeg을 많이 사용하죠. 그리고 아마 직접 flac을 wav로 변환하더라도 마찬가지로 시스템에 설치된 (ffmpeg) 디코더를 사용하겠죠. 따라서 결과는 같습니다.

만약 mp3같이 손실 압축이라면 디코더 버전이나 구현이 중요한가요?

사실, 손실 압축이어도 마찬가지입니다. mp3를 예로 들면, mp3 코덱이 차이가 날 수 있는 부분은 인코더입니다. 공개된 인코더인 LAME같은 경우는 사실 성능이 별로 좋지 못합니다. 대부분의 mp3 인코더는 유료이고, 어떤 mp3 인코더를 쓰느냐에 따라, 같은 스펙 (예: 128 kbps) 이라도 성능(음질)에 차이가 날 수 있습니다.

그런데 질문의 상황은 디코딩 과정이 달라질 수 있냐는 것이죠. 오디오 디코더는 구현 방식에 따른 차이가 (거의) 없습니다. 다만 페북 그룹의 현동일님께서 답변해주신것처럼, 임베디드 시스템에 디코더를 구현한다든지 하면 연산량이나 연산방식 등의 제한으로 인해 다소 오차가 있을 수 있습니다. 하지만 이건 머신러닝에서 데이터를 처리하는 것과는 관련이 없겠죠.

mp3 압축 여부가 학습에 영향을 미치나요?

이건 상황에 따라 다릅니다. 별도의 포스팅으로 정리하도록 하죠.

Sunday, June 9, 2019

딥러닝과 오디오 데이터 전처리

이번 글에서는 딥러닝과 오디오 데이터 전처리 전반을 살펴보겠습니다. 제가 몇몇 발표 (2017-11-03 판교 혁신센터, "음악과 딥러닝의 사랑과 전쟁" (발표자료))에서 다룬적이 있는데, 이미지랑은 달리 오디오 데이터는 몇가지 특징이 있습니다.

데이터 사이즈가 크다 - 상황에따라 천차만별이지만 오디오는 기본 16비트고 (이미지는 8비트 x 3, 4채널) 1초당 int16짜리 데이터가 44,100개가 있습니다.
디코딩이 느리다 - 데이터가 크기 때문에 음성/음악 코덱 기술이 많이 발달했습니다. 그런데 오디오 코덱은 신호를 시작부터 끝까지 순차적으로 디코딩합니다. 그리고 연산량이 적어서 디코딩 속도가 빠를수록 좋긴 하지만, 한편으론 재생 속도보다 빠르기만 하면 일반적인 오디오 재생에는 별 문제가 없겠죠. 그러다보니 딥러닝 학습과정에선 문제가 될 수 있습니다. 즉, 디코딩 속도가 데이터 로딩의 병목이 될 수 있습니다.
별도의 전처리가 필요할 수 있다 - STFT, Melspectrogram 등의 연산이 여기에 해당합니다.

그 외에, 일반적인 딥러닝 학습을 하다보면 누구나 겪게되는 상황이 있습니다.

데이터가 커서 메모리에 다 안들어간다.

HDF? memmap?

데이터를 추가하거나 데이터 전처리 파라미터를 편리하게 변경할 수 있어야한다.

이런 상황을 고려하면 해결책은 아래와 같습니다.

저장 포맷

디코딩이 끝난 오디오 데이터를 그대로, 파일마다 .wav (int16)나 .npy (numpy array, int16/float32/etc)로 저장
예: audio_1.wav, audio_2.wav, ... audio_10000.wav
장점: 로딩이 빠르다
단점: mp3등 압축 코덱 대비 하드디스크 공간을 많이 차지한다. 그러나 대부분의 경우에 현실적으로 큰 문제가 아님. 하드디스크는 별로 안비싸고, 오디오 데이터셋이 보통 그렇게까지 크지 않음.

로딩 방식

파이토치와 텐서플로 모두 데이터 로딩 모듈이 잘 짜여져있습니다. 각 모듈에서 데이터 인덱스(예: idx=10)를 받아서 파일을 하나 로딩하는걸 구현합니다.
사용할때는 인덱스 ([1, 2, 3,.. ,10000])을 shuffle한 뒤에 순서대로 불러오면 됩니다.
파이토치의 경우엔 예를들면 저는 이렇게 합니다 (소스).
장점:

데이터를 쉽게 추가할 수 있음. 마찬가지로 shuffle도 다양하게 할 수 있음. (만일 hdf를 쓰면 연속된 메모리에서 불러와야 유리하므로 미리 셔플을하고 저장해야하는데 이 모든 데이터 준비 과정이 시간을 많이 잡아먹음)
배치 사이즈만큼의 데이터를 불러오는 과정은 텐서플로/파이토치의 데이터 로딩이 알아서 멀티프로세싱으로 잘 수행하므로 편리하고 안정적임.

전처리

가급적 대부분의 전처리를 gpu에서 수행 (stft 등)

장점: 파라미터 변경이 쉬움. 나중에 모델을 배포하고 사용할때도 오디오 파일을 그대로 불러와서 진폭을 바꿔주고 (int16 --> float, [-1.0, 1.0]) 샘플링 레잇만 맞춰주면 바로 모델에 넣을 수 있어서 편리함. Dependency가 적어짐 (librosa같은 외부 라이브러리를 쓰지 않아도 되므로).
단점: gpu의 연산과 메모리를 조금 더 사용함.

Friday, November 3, 2017

발표자료 - 음악과 딥러닝의 사랑과 전쟁

발표자료 공유합니다.

2017-11-03 판교 융합센터에서 발표한 내용입니다.

Friday, December 30, 2016

번역 - Generative Adversarial Network (GAN) 설명

오랜만에 설명 자료 하나 번역합니다. 주로 http://blog.aylien.com/introduction-generative-adversarial-networks-code-tensorflow/ 를 보고 번역합니다만 적당히 편집과 내용추가가 있어서 1:1 번역은 아닙니다.

GAN?

시선을 끌기위해 예제부터 뽑아오자. 아래 예제가 GAN으로 만든 - 요즘 신문기사처럼 표현하면 "인공지능이 그린" 그림이다.

침실

냥짤

애니 캐릭터

서문

최근에 GAN: Generative Adversarial Network가 무지무지 인기를 끌고있다. GAN은 Ian Goodfellow가 https://arxiv.org/abs/1406.2661 등에서 제안한 것이다. 참고로 2014, 2015년에 Adversarial example 등 용어가 범람하면서 다소 개념이 애매한 부분이 있는데, 이는 Ian Goodfellow의 Quora답변을 참고하자. 아무튼 위대한 Yann LeCun이 꼽은 중요한 기술 1위 GAN이라는게 뭔지 한번 알아보겠다.

Discriminative vs. Generative 구별 대 생성 모델

간단하게 구별 모델과 생성 모델을 짚고 넘어가자.

구별 모델은 입력-->출력의 관계를 알아내는 것이 목적이다. 즉, 조건부 확률 p(y|x)을 추정하자는 것.
생성 모델은 더 일반적인 입력과 출력의 관계를 알아내려는 모델이다. 즉 p(x, y)을 추정하자는 것. p(x, y)를 알면 당연히 p(y|x)도 알아낼 수 있을 뿐만 아니라 더 재밌는 일을 할 수 있다. 예를 들어 새로운 (x, y) 데이터를 생성할 수 있고, 그래서 이름이 생성 모델이다. 더 강력한 정보를 필요로 하는 만큼 더 어렵다.

Generative Adversarial Networks

(그림 출처: https://ishmaelbelghazi.github.io 라고 나오는데 이 블로그가 사라짐..)

위의 그림이 GAN의 구조다. 간단하지요! 그야 간단히 그렸으니까 그렇고, 저기에서 보통 discriminator (구별망)와 generator (생성망)가 여러 층의 신경망로 이루어진 경우가 대부분이다. 대부분의 연구가 이미지를 다루고 있고, 그래서 두 신경망도 컨브넷인 경우가 많다. 자, 핵심은,
GAN의 핵심은,

생성망은 최대한 실제 데이터와 비슷한 데이터를 생성해내려고 하고
구별망은 열심히 그 둘을 구별하려고 한다는 것

이다. 이를 원문에서는 minimax two-player game이라고 표현했다.

수식으로는 아래처럼 표현한다.

arg max D: 여기에서는 목적함수를 극대화하는 분류망 D를 찾는다

첫번째 항 E[Log D(x)]은 실제 데이터 (x), 예를 들어 진짜 그림을 넣었을 때의 목적함수의 값이다.
두번째 항 E[log(1-D(g(z)))]은 가짜 데이터 (G(z)), 즉 생성망이 만들어낸 그림이 들어가있다. 그리고 arg max D인데 항 내부는 1-D(G(z))이다. 다시 말해 둘째 항의 극대화는 D(G(z))의 극소화다.
결과적으로, 이 두 항의 목적함수를 이용해

진짜 그림을 넣으면 큰 값을,
가짜 그림을 넣으면 작은 값을

..출력하도록 구별망 D를 열심히 학습시키자는 것이다.

arg min G: 이 말은 목적함수를 극소화하는 생성망 G를 찾자는 이야기다.

G는 두번째 항에만 포함되어있다.
전체 함수를 극소화하는 G는, 둘째 항을 극소화하는 G이고, 결국 D(G(z))를 극대화하는 G이다.
결과적으로, 구별망을 속이는 생성망 G를 열심히 학습시켜보자는 이야기다.

코드

예제 (깃헙 저장소 원문)의 일부를 간단히 소개하겠다. 코드는 텐서플로우로 되어있다.

 def generator(input, hidden_size):  
   h0 = tf.nn.softplus(linear(input, hidden_size, 'g0'))  
   h1 = linear(h0, 1, 'g1')  
   return h1

 def discriminator(input, hidden_size):  
   h0 = tf.tanh(linear(input, hidden_size * 2, 'd0'))  
   h1 = tf.tanh(linear(h0, hidden_size * 2, 'd1'))  
   h2 = tf.tanh(linear(h1, hidden_size * 2, 'd2'))  
   h3 = tf.sigmoid(linear(h2, 1, 'd3'))  
   return h3

각각 생성망과 구별망이다. 여기에서 중요한 내용이 언급되었다. 생성망보다 복잡하게 구별망을 짜야한다!

사실은 아래 코드가 핵심이다.

 with tf.variable_scope('G'):  
   z = tf.placeholder(tf.float32, shape=(None, 1))  
   G = generator(z, hidden_size)  
 with tf.variable_scope('D') as scope:  
   x = tf.placeholder(tf.float32, shape=(None, 1))  
   D1 = discriminator(x, hidden_size)  
   scope.reuse_variables()  
   D2 = discriminator(G, hidden_size)  
 loss_d = tf.reduce_mean(-tf.log(D1) - tf.log(1 - D2))  
 loss_g = tf.reduce_mean(-tf.log(D2))

아래 두 줄이 각각 구별망과 생성망에 arg max D, arg min G를 구현한 부분이다. loss를 감소하도록 학습되기 때문에 loss_d는 위에서 소개한 식과 부호가 반대다.

결과

보강

위의 영상을 보면 결과가 조금 아쉬운데, 이에 대해 https://arxiv.org/abs/1606.03498에서 해결 방법을 소개했다. 미니배치를 써라! 구별망이 한번에 여러 샘플을 보게 하라는 내용이다. 그 외에도 몇 가지 방법이 있는데 실제로 써본적이 없으므로 원문을 참고하면 된다.

그 결과는? 아래처럼 더 잘된다.

------

번역은 여기까지입니다. 우리모두 열공!

Wednesday, December 7, 2016

Stochastic Gradient Descent 자동 학습속도 조절 알고리즘 정리

이미지와 내용은 http://www.deeplearningbook.org을 참고했습니다. 저도 별로 이해하고있는게 없어서 간단히 요약만 합니다.

AdaGrad를 보면, 그라디언트를 1/sqrt(r)에 비례하도록 크기를 조절합니다(노랑색). 그리고 r은 그라디언트^2를 누적해서 더한 값입니다(초록색). 결과적으로 학습이 진행되면서 학습속도(learning rate)가 지속적으로 감소합니다.
이 방법은 Convex 최적화 관점에서 보면 - 즉 풀고자하는 문제가 컨벡스라면 - 별 문제 없습니다. 하지만 딥러닝 모델의 경우에 어느정도 학습을 진행하다보면 학습 속도가 너무작아진다는 문제가 실험적으로 밝혀졌습니다.

아마도 이는 saddle point때문이 아닌가 생각합니다.

RMSProp은 AdaGrad와 비슷하지만 (노랑색) 차이가 있습니다 (빨강색). ρ (rho)는 보통 0.9를 사용하는데, 쉽게 이야기하면 ρ만큼만 기억하고, (1-ρ)만큼만 업데이트를 합니다. 혹은 이 과정이 계속되면 아주 오래전의 그라디언트는 지속적으로 ρ가 곱해지면서 값이 작아지게 되고, 최근에 추가된 그라디언트가 상대적으로 큰 영향력을 발휘하게됩니다. 결과적으로 학습 속도의 감쇠가 AdaGrad보다 약하게 일어납니다.
RMSProp은 힌튼의 Coursera 강의에서 처음 소개되었고 한동안 (사실 지금도) 가장 널리 쓰인 방법입니다. 사람들이 강의노트를 인용하곤했죠.

이 내용은 RMSProp에 (빨강색) Nesterv momentum을 추가한겁니다 (파랑색). Momentum = 관성. 즉 부화뇌동;하지 않고 상대적으로 차분하게 업데이트한다고 생각을 하시면 됩니다.

Adam은 최근에 가장 널리 사용되는 방법입니다. 보다시피 1st moment (s), 2nd moment (r)을 구하는 과정에서 관성(momentum)을 적용합니다.
correct bias는 제가 잘 이해하지 못했습니다.

----------

김범수님 블로그에 더 잘 정리되어있으니 참고하셔요.

Tuesday, September 6, 2016

논문 요약 - Deep Neural Networks for YouTube Recommendations

원문은 구글 리서치 블로그 (논문 pdf)입니다. 조만간 보스턴에서 열리는 2016 RecSys 논문인데 최근에 구글 리서치 홈페이지에 올라오고 나서 학계에서 주목을 많이 받았습니다.

1. 서문

세 가지 중요한 잣대: Scale, Freshness, Noise

Scale: 데이터가 매우 많으므로 scalability가 중요하다.
Freshness: 새로운 비디오가 추가되었을때 추천에 바로바로 반영되어야 한다.
Noise: 데이터의 sparsity, ground truth의 부재, 거의 항상 implicit feedback만 갖고있다, meta data가 엉망인 점 등을 고려해야함.

구현

Tensorflow를 사용함
전체 시스템은 10억개정도의 파라미터 존재
트레이닝 데이터는 수천억개정도.

2. 시스템 개요

전체 구조는 (파란 블럭)

단계 1: 추천할 후보 비디오를 몇 백개 내외로 뽑아내고
단계 2: 다시 그 중에서 자세하게 순위를 매겨서 추천

이 과정에서 사용자의 이용 내역과 맥락을 감안합니다.
개발 과정은

precision/recall/ranking loss등 offline에서 측정 가능한 것들을 일단 측정해서 어느정도 범위를 줄이고
watch time, click-through rate은 A/B test를 거친다.
A/B test 결과 (실시간 피드백)가 항상 offline 실험 (전체 히스토리를 retrospective하게 보고 평가하는것)과 일치하진 않는다.

3. 단계 1: Candidate generation

기존에는 Ranking loss를 이용한 Matrix factorisation [23]을 사용
MF를 대체하기 위해 간단한 뉴럴넷을 사용한적 있었으며 이때는 사용자가 과거에 본 비디오 내역만 이용했었다.

3.1 Recommendation as classification

문제 정의

추천: 엄청나게 클래스가 많은 multiclass 분류 문제로 재정의 (Extreme multiclass classification)
user, context가 주어지면 특정 시간에 이 비디오를 볼 확률을 구함. 즉,

v_j : context embedding
u: user embedding
이 학습 과정에서 사용자가 누른 '좋아요' 같은 정보는 사용하지 않고 비디오를 끝까지 봤는지/아닌지만 사용.

Extreme multiclass classification 효율적으로 어떻게 구현?

Offline에서는 (즉, 미리 계산)

negative class를 샘플링 (i.e., skip-gram negative sampling)
loss function으로는 각 class (비디오)마다 (binary) cross-entropy를 사용
대략 수천개정도의 negative sample 이용
hierarchical softmax는 (이런저런 이유로) 사용하지 않음.

at serving time (추천을 실시간으로 할때는)

드디어 사용자에게 추천을 N개의 비디오를 고르는 시간
기존에는 [24]처럼 hashing을 사용했고 이번에도 마찬가지.
최종적으로는 (위의 식처럼) dot-product space에서 가장 가까운 아이템 (nearest neighbour)를 찾는 과정.
A/B test 결과 nearest neighbour 알고리즘간에 추천성능 차이는 없음

3.2 구조

사용자가 본 영상 내역을 embedding vector (좌측하단 파란색)로 바꿈

여러 영상의 embedding vectors를 평균내서 사용. (sum, component-wise max 등 사용해봤으나 평균이 제일 좋음)
Fully-connected layer + ReLU 사용

3.3 Heterogeneous signals

개요

검색 내역 (그림의 하단 초록색)도 영상처럼 embedding을 구함
그 외에 사용자의 지역정보/기기 등 간단한 정보도 embedding을 구하고 이 값을 concatenate함.

성별, 나이 등 값은 [0, 1]로 바꿔서 넣음.

"비디오의 나이" (example age)

새로 나온 비디오를 잘 보여주는것이 중요하다.
사용자가 얼마나 새로운 비디오를 선호하는지도 중요
트레이닝 데이터 특성상 머신러닝을 단순하게 적용하면 오래된 아이템들이 더 추천을 많이 받게 된다.
이를 해결하기위해 아이템(비디오)의 "나이"를 입력으로 넣어준다.
위의 그래프를 보면 아이템의 나이를 넣어주면 (빨강색) 업로드 직후에 사람들이 많이 감상하는 경향을 예측하고 있다.

3.4 Label and context selection

추천은 전형적인 "Surrogate problem"이다. -- 다른 문제를 통해 추천 문제를 해결할 수 있다.

예를 들어 영화 평점 예측 알고리즘은 영화 추천에 사용 가능.
그러면 유튜브에선 어떤 문제를 이용해야하는가?

학습 데이터: 잘못 만들면 추천엔진이 exploit >> explore 하게 된다.

유튜브 웹사이트를 통해 본 내역 말고도 온갖 소스를 통해 본 이용 내역을 전부 활용한다. 왜냐하면 유튜브에서 이미 추천 시스템이 있으므로 유튜브 웹사이트에서 감상한 비디오는 이미 추천 시스템의 결과에 치우친 데이터를 만들어내기 때문에.
데이터에서는 이용자별 영상 감상 횟수를 제한한다. 엄청나게 많이 보는 사람들의 영향을 빼기위해.
또, 추천 결과나 검색 결과를 즉시 활용하지 않는다.

검색 키워드는 일부러 순서를 날린 bag-of-tokens을 이용한다.
안그러면 방금 검색한 내용이 계속 메인 페이지에 떠서 짜증남.

유튜브 영상 감상 패턴: 매우 비대칭적이다.

비대칭적인 co-occurrence (or co-watch)
즉, 영상 감상은 순서가 정해져있음.
에피소드가 1-2-3-4.. 진행되는 경우는 물론이고,
음악의 경우에도 유명한 노래 --> 마이너한 노래로 가는 경향.
이 비대칭을 모델링하려면 offline 실험에서도 "과거"의 자료만 사용해야함 (그림 5-b)

실험결과 - feature and depth

Offline에서 MAP 측정
baseline: 감상 내역만 이용
파랑색: 감상내역 + 검색
빨강색: 감상내역 + 검색 + 영상의 나이
초록색: 전부 다 이용

실험은 영상 100만개, 검색어 100만개를 256차원의 embedding으로 변환. bag_size는 최근 50개 영상/검색
depth 깊어질수록 성능 좋아짐.

4. 단계 2: 랭킹

여기에서는 더 많은 feature를 이용해 영상과 이용자의 관계를 구한다.

역시 deep neural network를 이용.

그리고 이 구조는 A/B test를 통해 계속 업데이트됨. 평가 잣대는 추천된 횟수 (=화면에 뜬 횟수) 대비 평균 감상 시간.

4.1 Feature representation

여기에서는 딥러닝을 통해 학습된 feature뿐만 아니라 hand-written feature를 사용.

대략 수백개정도의 feature 사용.
사용자의 이용패턴 - 특히 여러 종류의 정보가 어떻게 관계를 맺고있는지가 중요. 예를 들어,

이 채널에서 이 이용자가 몇 개나 되는 영상을 봤는지
마지막으로 이 주제의 영상을 본게 언제인지..

또, 왜 이 영상이 추천되었는지 정보도 활용한다.
또또또, 추천했는데 안보는 영상은 조금씩 순위를 깎는다.

categorical features

Top-N 영상 및 검색어를 embedding한다.
그 외의 것들은 0으로 놓는다.
영상 id, 사용자가 마지막으로 본 영상 id, 이 추천에 사용된 seed 영상 id 등을 전부 사용한다.

얘네들은 평균을 구하거나 하는게 아니라 별도로 network에 들어간다. [왜냐하면 다른 역할을 해야하니까!]

continuous features 처리방법

값 x를 [0, 1]에 들어오도록 scaling해주고,
x, x**2, sqrt(x) 를 다 넣어준다.

왜냐면 딥러닝은 입력 데이터의 pre-processing에 매우 민감한데 어떤 값이 가장 좋은지 알기 어려우므로. [이렇게 넣어주면 별도의 layer를 통해 제곱, sqrt()등의 비선형성을 학습하지 않아도 단일 레이어에서 가중치만 잘 주면 됨.]

4.2 Modelling expected watch time

감상시간: 안보면 0으로, 보면 본 시간대로 값을 넣어준다.
(새로 정의한) weighted logistic regression을 사용한다.

감상한 영상을 감상 시간으로 가중치를 주는 것.

실험 결과

(당연히) 더 크고 깊은 신경망이 작동을 더 잘함. 실제 상황에서는 서비스의 반응 시간이 느려질 수 있다는점 주의.

5. 결론

요 방법이 Matrix factorisation보다 좋다.
전체 시스템을 디자인하는건 거의 과학이 아니라 예술임.
"영상의 나이"가 잘 작동한다.
단계 2의 세부 튜닝은 딥러닝보다는 전통적인 ML에 더 비슷하다.

특히 사용자의 과거 행동 패턴을 잘 설명하는 feature가 중요

weighted logistic regression을 쓴것이 click-through rate을 쓴것보다 결과가 좋다.

Tuesday, August 9, 2016

세상에 있는 (거의) 모든 머신러닝 문제 공략법

좋은 블로그 게시물이 나와서 번역합니다. 원문은 이곳을 참고하시기 바랍니다.
Karpathy의 글도 그랬지만 그림은 그대로 퍼오고, 글도 가급적 그대로 번역합니다. 교육 목적으로 활용해주시길 바랍니다.
제가 보충 설명을 하는 경우엔 괄호안에 (**요렇게) 적어놓았습니다.

세상에 있는 (거의) 모든 머신러닝 문제 공략법 (Approaching (Almost) Any Machine Learning Problem)

저자: Abshshek Thakur

번역: 최근우

데이터 사이언티스트들은 하루종일 데이터를 다룹니다. 사람에 따라 다르겠지만 60-70%의 시간을 데이터를 전처리하고 원하는 형태로 변환하는데 사용한다는 사람도 있습니다. 그런 과정이 끝나고 나면 실제로 데이터에 머신러닝 알고리즘을 적용합니다. 이 글에서는 간단한 전처리 과정 및 머신러닝을 적용하는 과정을 자세히 다룹니다. 여기에서 소개하는 파이프라인은 제가 백개가 넘는 머신러닝 대회에 참가한 경험을 바탕으로 배운 내용입니다.

파이썬을 사용해 설명드리겠습니다.

데이터

머신러닝을 활용하려면 데이터를 테이블의 형태로 변환해야합니다. 이 과정은 시간도 오래걸리고 힘든 과정입니다.

이 테이블의 각 행(row)은 각각의 데이터 샘플에 해당합니다. 보통 입력 데이터를 X, 레이블 (혹은 출력)을 y로 표현합니다. 레이블은 하나의 열(single column)일 수도 있고 여러 열로 이루어져 있을 수도 있습니다.

레이블의 종류

단일 열, 이진수 (분류 문제. 레이블엔 두 개의 카테고리가 존재하고 모든 데이터 샘플은 반드시 둘 중 하나의 카테고리에만 해당하는 경우. 0과 1로 각각 다른 카테고리를 표현할 수 있으므로 이진값을 사용한다.)(**예: 텍스트를 보고 저자의 성별을 맞추는 경우)
단일 열, 실수 (회귀 문제. 단일 열이므로 단 하나의 값만 예측하면 된다.)(**예: 텍스트를 보고 저자의 나이를 예측하는 경우)
여러 열, 이진수 (분류 문제. 여러 카테고리가 존재하고 각 데이터는 하나의 카테고리에 해당한다.)(**예: 댓글을 보고 작성자가 응원하는 스포츠 팀을 맞추기, 이 경우에 열의 개수는 스포츠 팀의 개수와 같다.)
여러 열, 실수 (회귀 문제이나 여러 값을 예측함.)(**예: 의료 검진 데이터를 보고 피검사자가 여러 종류의 암에 걸릴 확률을 예측. 이 경우 열의 개수는 암 종류의 개수와 같다.)
다중 레이블 (분류 문제, 각 데이터 샘플이 여러개의 카테고리에 속할 수 있다.)(**예: 음악 신호를 보고 드럼, 기타, 보컬이 있는지 여부를 판단하는 경우. 열의 개수는 3개가 된다.)

평가 방법

어떤 경우든지간에 머신러닝 알고리즘의 평가는 필수입니다. 각 카테고리의 데이터 개수가 크게 차이나는 경우에 ROC AUC를 사용할 수도 있고, 다중 레이블 분류 문제는 카테고리 크로스 엔트로피나 다중레이블 로그 로스 등을 활용합니다.

평가 방법은 상황에 따라 다르기 때문에 여기에선 자세히 다루지 않습니다.

라이브러리

필수적인 라이브러리를 몇 가지 소개합니다.

데이터를 보고 간단한 연산을 수행: pandas
각종 머신러닝 모델: scikit-learn
최강의 그라디언트 부스팅 라이브러리: xgboost
뉴럴 네트워크: keras
데이터 시각화: matplotlib
실시간 모니터링: tqdm

아나콘다를 사용해 다양한 라이브러리를 쉽게 설치할 수 있습니다. 저는 사용하고있지 않지만 각자 판단하시길 바랍니다.

머신러닝 프레임워크

2015년부터 제가 개발중인 머신러닝 자동화 프레임워크의 그림입니다. 이 글에서도 그림과 같은 구조로 작업을 수행합니다.

가장 일반적으로 적용되는 단계를 진한 분홍색 화살표로 그렸습니다. 우선 앞에서 이야기한 전처리 과정을 거쳐 표 형태로 데이터를 정리하고나면 이 단계를 시작할 수 있습니다.

전처리

우선 우리에게 주어진 문제가 어떤 문제인지 파악해야합니다. 이진 분류(0 vs 1)인지, 여러 카테고리중 하나를 고르는 다범주 분류(multi-class classification)인지, 다중 레이블 분류문제인지 아니면 회귀 문제인지를 명확하게 결정해야합니다. 그리고 나면 우리가 가지고 있는 데이터를 학습 셋(training set)과 검증 셋(validation set)으로 나눕니다. 아래 그림을 참고하시길 바랍니다.

(**중요) 두 셋으로 나눌 때에는 반드시 레이블 정보를 사용해야합니다. 분류 문제의 경우 stratified splitting을 사용하시기 바랍니다. 파이썬에선 scikit-learn을 사용하면 됩니다. (**이렇게 하면 두 셋에서 레이블의 분포가 동일하게 유지됩니다.)

회귀 문제의 경우 그냥 간단하게 K-fold로 셋을 나눠주면 됩니다. 회귀에서도 분포를 유지하는 방법이 있긴 한데 독자여러분이 생각해보시길 바랍니다. (**아니 저기..)

이 코드에서는 검증 셋의 크기를 전체의 10%로 설정했습니다. 이 값은 가지고 있는 데이터의 크기에 따라 적절히 설정하면 됩니다.

이렇게 데이터를 나눈 뒤에는 두 셋을 동일하게 처리해야합니다. 그리고 절대 학습 셋과 검증 셋에 데이터가 겹치면 안됩니다. 그렇게 할 경우 마치 학습이 아주 잘 된 것 처럼 착각할 수 있습니다. 실제로는 엄청난 과적합(overfitting)이 일어나겠죠.

다음 단계는 데이터에 어떤 형태의 값이 있는지 알아내는 것입니다. 대략 숫자, 범주 정보, 그리고 문자열 데이터정도로 나눠서 생각할 수 있습니다. 카글의 타이타닉 데이터셋을 살펴볼까요?

여기에서는 survival이 레이블이 됩니다. 그리고 각 승객의 좌석 등급, 성별, 탑승한 항구는 범주화해서 생각할 수 있습니다. 나이, 형제자매의 수, 부모/자녀 등은 숫자 정보가 되구요. 마지막으로 이름은 문자열입니다. 이 작업 (**생존 여부를 예측하는 작업)에서는 크게 중요하지 않을 것 같군요.

우선 숫자를 봅시다. 이 값은 특별한 전처리 필요없이 바로 사용할 수 있습니다. 따라서 정규화(normalization) 및 머신러닝 기법을 바로 적용하면 됩니다.

범주 데이터는 두가지 방법으로 처리할 수 있습니다.

카테고리를 라벨로 변환

카테고리를 이진 변수 (one-hot-vector)(**하나의 성분만 1이고 나머지는 0인 벡터)로 변환

여기서 OneHotEncoder를 쓰기 전에 우선 LabelEncoder를 적용해야 하는 점을 주의하시기 바랍니다.

타이타닉 데이터셋의 문자열은 문자열 변수의 예로는 별로 좋지 않습니다. 일반적으로 문자열을 어떻게 다루는지 한번 알아보겠습니다.

우선 (**pandas를 쓸 경우) 아래 코드를 써서 데이터에 있는 모든 텍스트를 하나로 이어 붙일 수 있습니다.

그리고 여기에 CountVectorizer 또는 TfidfVectorizer를 사용합니다.

보통 TfidfVectorizer가 더 잘 작동합니다. (**당연히.. ) 대체로 아래처럼 셋팅하면 무난하게 사용 가능합니다.

만일 이 Vectorizer를 트레이닝 데이터에만 적용했다면, 나중에 사용할 수 있도록 하드디스크에 저장을 해놓아야합니다.

이제 Stacker 모듈을 봅시다. 여기에서는 다양한 특징값을 합칩니다.

일반적인 데이터는 np.hstack으로 벡터를 이어주면 됩니다.

만일 데이터가 sparse한 경우 (대부분의 값이 0인 경우) scipy.sparse를 사용합니다.

만일 PCA같은 과정이 포함되어있다면 sklearn.pipeline.FeatureUnion을 쓰면 됩니다.

자, 드디어 데이터 전처리가 끝났습니다.

이제 머신러닝 알고리즘을 적용하면 됩니다.

머신러닝 적용

어떤 모델을 적용할까요? 위의 단계를 밟은 경우엔 트리 기반의 알고리즘만 가능합니다. 트리 기반의 모델은 여러가지 종류가 있습니다.

RandomForestClassifier
RandomForestRegressor
ExtraTreesClassifier
ExtraTreesRegressor
XGBClassifier
XGBRegressor

선형 모델을 사용하려면 위의 특징값을 Normalize하는 과정을 거쳐야합니다. sklearn의 Normalizer나 StandardScaler를 사용하면 됩니다. 단, 데이터가 dense한 경우에만 사용이 가능합니다. Sparse한 경우엔 결과가 좋지 않습니다.

위의 트리 모델을 사용해서 그럭저럭 괜찮은 결과가 나왔다면 이제 모델을 자세하게 튜닝할 차례입니다.

다음 단계는 decomposition 입니다.

여기에선 LDA와 QDA는 생략합니다. 고차원 데이터의 경우 PCA(주성분분석)를 쓰면 차원을 효과적으로 줄일 수 있습니다. 이미지의 경우 10-15개의 성분을 사용해보고 차원을 늘려가며 성능을 비교해보십시오. 그 외엔 50-60개정도의 성분으로 시작해보십시오. 단, 값을 그대로 사용해도 괜찮은 상황이라면 굳이 차원을 줄일 필요는 없습니다.

텍스트의 경우는 sparse 행렬에 SVD를 적용합니다.

보통 120-200정도의 값을 사용합니다. 이보다 큰 값을 쓴다면 연산량에 유의하십시오.

이제 선형 모델도 사용할 수 있도록 특징값을 normalize하거나 re-scaling합니다. (**특징값의 범위를 조절) 그리고 나면 유용한 특징값을 고르는 Feature Selector 단계로 들어갑니다.

특징값을 선정하는 방법은 여러가지가 있습니다. Greedy 알고리즘을 쓸 경우엔, 우선 하나의 특징값을 골라서 모델을 돌리고 여기에 다른 특징값을 더하거나 빼면서 결과를 비교합니다. AUC로 모델을 평가하면서 특징값을 고르는 코드를 참고하십시오.

아래의 코드는 RandomForest를 이용한 예제입니다. 이렇게 학습한 모델을 저장해놓고 나중에 사용할 수도 있습니다.

n_opimators 등의 하이퍼파라미터를 너무 크게 설정하면 과적합(overfitting)이 일어나니 주의하십시오.

혹은 xgboost를 사용할 수도 있습니다.

데이터가 sparse한 경우에도 RandomForestClassifier, RandomForestRegressor, xgboost 등을 사용 가능합니다.

그 외에도 chi-2로 특징값 선택이 가능합니다.

여기에선 k를 20으로 설정했는데, 이 값 역시 하이퍼파라미터이므로 최적화가 필요합니다.

지금까지 여러 모델을 소개했습니다. 데이터를 처리할 때 이렇게 학습한 모델을 꼭 저장해놓으십시오.

모델 선택 및 최적화

이제 모델을 선택하고 하이퍼파라미터를 최적화하는 일이 남았습니다.

널리 쓰이는 모델은 아래와 같습니다.

분류

Random Forest
GBM
Logistic Regression
Naive Bayes
Support Vector Machines
k-Nearest neighbors

회귀

Random Forest
GBM
Linear Regression
Ridge
Lasso
SVR

하이퍼 파라미터를 최적화하는 과정은 정해진 공식이 없습니다. 많은 사람들이 이와 관련해 질문을 합니다만 데이터와 모델에 따라 달라지기때문에 한마디로 말하기가 어렵습니다. 또, 몇 가지 팁이 있지만 경험이 많은 사람들은 이 비법을 숨기려고 하기도 합니다. 하지만 제가 알려드리겠습니다.

각 모델별로 어떤 하이퍼파라미터가 있는지 정리하면..

위의 값을 임의로 조합한 랜덤 서치를 추천합니다.

제 생각일뿐이지만, 위의 값을 기반으로 찾아본다면 충분할겁니다.

정리

마지막으로 학습 과정을 정리해보면..

그리고 학습 과정에서 저장한 각종 변환(transform)을 다시 불러와서 validation/test set에 사용해야겠죠?

마무리

위의 과정을 잘 따라하면 대체로 아주 좋은 성능을 얻을 수 있을 것입니다. 물론, 잘 되지 않는 경우도 있겠죠. 그러면서 배우는 것이니 열심히 해보시길 바랍니다.

Wednesday, May 25, 2016

딥러닝과 음악 분류 (Deep learning and music classification), 2016-05-24, 카이스트

카이스트 남주한 교수님의 수업인 GCT634에서 Deep learning and music classification이라는 제목으로 세미나를 했습니다.
덕분에 교수님과 연구실에 계신분들 만나뵙게되었네요. 같은 분야에 계신 분들을 여럿 만나뵙게되어 여러모로 의미있는 자리였습니다.
강의에 사용한 슬라이드를 공유하니 참고하셔요.

Deep learning for music classification, 2016-05-24 from Keunwoo Choi

PS. GCT634 강의자료가 업로드되어있는데, Music information retrieval 공부하시는 분들에게 훌륭한 공부자료입니다.

Thursday, May 12, 2016

딥러닝 세미나@키스텝, 2015-05-09

딥러닝 개요 (2015-05-09 KISTEP) from Keunwoo Choi

2015-05-09 키스텝에서 진행한 딥러닝 개요입니다.

짧은 분량이지만 세미나는 매우 인터랙티브하게 진행되어 두시간을 꽉 채웠던 슬라이드입니다.

다시 말해 슬라이드만 보시면 부족한 부분이 많이 있으니 참고하시기 바랍니다.

8페이지에 6개의 텐서플로 플레이그라운드 데모를 연결해두었습니다. 링크 눌러보시고 직접 돌려보시면 뉴럴넷에 대해 쉽게 이해하실 수 있을겁니다.

Pages