Saturday, July 21, 2018

독서 - 황석영 - 강남몽

한국 드라마를 보다보면 대놓고 사투리를 엉망으로 구사하는 배우들이 참 많이 나온다. 사람들은 그냥 참아준다. 시청자는 연기에 몰입해 배역과 상황을 이해하는것이 아니라 못난 사투리를 들으며 작가의 의도를 파악해주고 넘어간다. 그러려니.

황석영의 <강남몽> 30여페이지를 읽었다. 1995년 한국을 배경으로 대략 '졸부' 여성들의 삶을 대화로 보여준다. 아, 아주 나쁘진 않지만 아무래도 아저씨말씨가 섞인 아줌마들의 대화를 이해해주고있던차에 "내가 오늘 마싸지 한 턱 쓴다"라는 대사가 나왔다. 아 뭐.. 사실 1995년의 40대 여성의 말투를 나도 모르니까 그러려니 했는데, 역시 1995년의 마싸지샵이 어떻게 돌아가는지 모르긴 마찬가지긴 하다만, 맛사지는 보통 10회권같은거 끊고 가지않나? 더군다나 이 아주머니들은 1주일에 몇 번씩 맛사지받는 사람들인데?

이쯤까지 읽고 지하철에서 내렸는데 그날 만난 한 친구분이 샐린저의 <아홉가지 이야기>를 선물로 주셔서 나도 답으로 <강남몽>을 드려버렸다. 끝.

Tuesday, July 17, 2018

미국 O-1A 비자 신청 과정 정리

개인적인 기록 목적을 겸하여 O-1A 비자 신청과정을 간단히 정리했습니다. 시간 역순이니 참고하시길. 

  • 7/19 (목) 비자 수령
    • 비자 수령 완료. 
  • 7/17 (화) 미국대사관 인터뷰.
    • 필요했던 구비서류: I-797 (approval notice), interview confirmation page, DS-2019 confirmation, passport, 
    • 사진: 검토는 했는데 다시 돌려줌
    • 나머지 (resume, offer letter): 전혀 필요없었음
    • 인터뷰 내용: “Spotify애서 일하냐? 무슨 하냐? 언제 어떻게 그런 기술을 익혔냐? 서류에 머신러닝 어쩌구 써있는데 머신러닝이 뭔지 설명해볼래?”
    • 고지내용과 달리 일반적인 백팩정도는 가져가도 .
    • "이번주 안에 받을거다"라고 알려줌!
  • 7/13 택배 수령 (1)
    • 대사관에서 이메일 와서 일양택배로 찾으러감
    • 열어보니 인터뷰 대상이 아니라고 인터뷰 예약하라고 (제길)
    • 가장 빠른날이 8/6()라서 좌절
    • emergency request 회사 내부 사정과 컨퍼런스 참석이 있어서 8 첫째주에 가야하고 따라서 빠른 인터뷰 예약이 필요하다고 아래처럼 적어서 보냄. offer letter 첨부함. 
* Disclaimer: I am not a student or an exchange visitor *

Dear Officer, 
A technical conference in which I am presenting is due in the first week of August in New York, Spotify, where I work. Since the U.S. Embassy website page showed me that I was exempted for an interview last week, I calculated last week of July would be possible. I would therefore very much appreciate if you could consider me for the emergency service the interview.  

As shown in the attached document, my employment contract with Spotify was signed on March 6th, 2018, for which I need to be located in New York and I have been working to obtain a O1 visa ever since.  

    • 몇시간 뒤에 승인 메일이 와서 7/17 예약함
  • 7/10 택배로 서류 보냄
    • 인터뷰 면제 확인서, resume, passport, photo, ds-2019 confirmation 보냄
    • I-797 안보냄! (아직 스캔본을 못받아서)
  • 7/6 비자 인터뷰 신청
    • 온라인에서 마무리하고 돈도 내고 등등 .
    • 신청을 마무리했더니 비자 면제 대상자라고 .
  • 7/6 O-1A visa approved
    • USCIS에서 드디어 비자 신청을 승인! 했다고 변호사에게 연락받음
  • 6/23 추가 서류 송부
    • “We received a very basic request for information from the government, and will respond to the request today or by Monday”
  • 6/9 O-1A petition 제출!
    • Filing the petition via premium processing
    • 분량: 16페이지
  • 5/25 변호사가 petition 초안 완료
    • 향후: 자기들이 리뷰내가 리뷰회사가 리뷰제출
  • 4/20 5/6 추천서 패스
  • 4/19 4/6 추천서 패스
  • 4/18 추천서 2/6, 3/6 패스
  • 4/13 추천서 1/6 패스
  • 3/23부터 계속: 교수들에게 답변 받음.
  • 3/17 추천서 작성에 필요한 질문양식 받음
  • 3/14 기초적인 정보 (미국방문이력 몇가지 질문) 답변
  • 3/10 로펌에서 petition application 관련 연락 받음

독서 - 박노자 - <당신들의 대한민국>


저자 박노자는 꽤 특별한 이력을 가진 사람이다. 러시아에서 태어나 한국학을 전공하고 고려대학교로 교환학생도 왔었다. 러시아에 있을때 이미 한국의 역사와 전통 문화에 깊은 관심을 가졌다. 이후 한국에 와서 한국사람과 결혼하고 한국으로 귀화했다. 현재는 노르웨이 오슬로대학교에서 한국학 교수로 일하고 있다. 지금은 온갖 국적과 인종의 사람들이 한국에 와서 살고 유창한 한국말을 하며 예능프로에 나오지만 박노자가 한국에 처음 온 90년대 말, 이 책을 쓴 2001년에 박노자같은 사람은 매우 드물었다. 요즘 타일러같은 사람들이 한국사람보다 더 한국말 잘하는 외국인(서양인, 백인;;)으로 유명하지만 일찍이 박노자가 있었던 셈이다.

(내가 꼬꼬마이던) 2001년에 러시아 출신, 문과, 대학원생의 시각으로 보는 한국이 재미가 쏠쏠하다. 나는 종종 한국의 ‘빨리빨리’나 ’냄비근성’을 예찬한다. 빨리빨리 대응하고 중요한 이슈에 일순간이나마 확 관심이 쏠린 덕분에 한국은 엄청나게 빠른 발전을 이뤄냈다! 경제적인 측면만 이야기하는것이 아니다. 2001년과 2018년의 한국은 동성애, 양심적 병영거부, 페미니즘 등 여러 방면에서 참 다르다. 교수도, 학교도, 대학원생도 많이 달라졌다. 인종주의는 아직 갈길이 멀지만 본격적인 논의가 벌어지고있다. 군대도, 사회에서 군대 문화를 대하는 방식도 달라졌다. 사대주의는 줄었고 한국인은 보다 당당해졌다. 우리는 민족주의에 대해서도 나름대로 ‘쿨’해졌다. 2001년의 박노자의 예측과 희망사항이 어떻게 되어나 복기하는 재미가 쏠쏠한데, 한국의 발전이 미미했다면 쏠쏠보다는 씁쓸할것이다.

씁쓸한 부분도 있다. 박노자는 언론이 교수에게 주는 거대한 발언권을 지적한다. 이는 이제 일반 대중에게도 널리 알려진 문제다. ‘서심곽교’(서울대 심리학과 곽금주 교수)나 숭실대학교 배명진 교수같이 너무너무너무너무너무너무너무너무너무너무너무 너무너무너무 너무너무너무너무너무 인터뷰를 많이 하는 교수들을 차치하고서라도, 우리 사회에서 교수의 의견은 과대평가되어있다는 점은 누구나 공감할것이다. 안타깝게도, 나는 2001년에 박노자가 가지고있던 문제의식에 정확히 동의하는 바이다. 촛점을 명확히 하자. 이 점은 교수의 문제라기보다 언론의 문제다. 그리고 내가 볼 때 지난 10-20년간 가장 발전이 더딘 분야가 언론이다. 

아무튼, 너무너무 유명한 책이고, 나온지 오래된 만큼 새롭게 돌이키는 재미가 있는 좋은 책이다.


PS. 책 뒷표지와 책날개에 출판사에서 적어놓은 문구에선 박노자라는 특수한 한국인을 타자화하는 시선이 또렷하게 드러난다. 책 뒷부분에서 상당한 분량을 들여 한국 사회의 인종주의를 지적한다는걸 생각하면 매우 아이러니.


Sunday, July 15, 2018

독서 - 최종렬 - <복학왕의 사회학 : 지방 청년들의 우짖는소리>

대구 소재의 계명대학교 사회학과 최종렬 교수의 최신작. 최종렬 교수는 기안84의 만화 "복학왕"을 보고 웃퍼하다가 지방대생의 삶에 대해 본격적으로 연구해보기로 결심함. 연구를 토대로 작성한 논문이 언론에 실리면서 관심을 받았고 아예 더 깊히 연구하게 되었고 그 결과로 나온 책이 <복학왕의 사회학>. 시사in 기사에 책 내용이 잘 소개되어있음.

간접 체험으로서도 적절했고, 연구 내용도 매우 훌륭하다. 지방대 재학생, 졸업생, 지방대생 부모 - 총 3개 유형의 사람들을 1:1로 인터뷰하였고 이를 해석을 덧붙여서 재구성하였다. 이런 연구 방식이 인문학에서는 널리 쓰일텐데 나에겐 생소한지라 방법론도 흥미로웠다. 인터뷰라는게 인터뷰어의 역량에 크게 좌우되게 마련이라 최종렬 교수의 인터뷰 능력이 더욱 돋보인다. 그리고 직접인용을 적극적으로 사용한 기술방식이 빛을 발한다.

재미있게 읽은 부분을 하나 소개하고 포스팅을 마무리한다. 연구의 결론 중 하나는 지방대생에게 공통적으로 "성찰적 겸연쩍음"이 나타난다는 것이다.

---
 왜 이렇게 민주는 운동을 추구하는 방식에 성찰적 겸연쩍음을 지니는 것일까? 그것은 민주가 속한 조직의 운동 스타일 때문이다.
 "제 생각에 그런 힘은 조직에서 오는 것 같아요. 제가 속한 조직은...... 더 낮게 알아주는 게...... 얼마 전에 조직 의장님이 돌아가셨는데 의장님의 그게 에, 더 낮게 더 이름 없이 이런걸 유언처럼 평생을 사신 분이셔서 우리도 그걸 좀 본받자. 우리 조직 자체가 그런걸 좀...... 그런 게 조직의 힘이 아닌가 싶긴 해요."
 왜 운동하는 사람이 마치 성직자처럼 왼손이 하는 일을 오른손이 모르는 방식으로 운동하는가? 남을 변화시키는 것이 운동이라면, 운동가는 자신을 선동하고 선전에 능한 운동가로 자기계발해야 하지 않겠는가? 하지만 그렇게 하지 않는다. 왜? 그건 평범하게 살아온 습속에 맞지 않는다. 남들처럼 직장도 안 갖고 결혼도 안 하고 20-30대 청춘을 운동에만 바쳐왔는데. 어떻게 이런 삶이 가능했냐고 묻자 더듬거린다.
 "그냥 자연스럽게 이까지 흘러온 게 아닌가 이런 생각도 들고...... 살면서 대학 들어오기 전까지 그렇게 충격적인 것도 별로 없었고요. 누가 그렇게 뭐...... 세월호 유가족이 된 것도 아니고...... 진짜 그냥 평범하게만 살아온 것 같아요. 그런......"
  중고등학교 시절 평범하게 살았다고 했는데, 그 의미가 뭐냐고 묻자 답한다.
 "학교에서 공부를 아주 잘하는 건 아닌데 아주 못하는 것도 아니고 항상...... 중간 정도보다 약간 잘하는 건 유지하고."
 사회운동도 아주 잘하는 것도 아니고 아주 못하는 것도 아닌 중간 정도보다 약간 잘하는 게 습속에 맞는다.
---

복학왕의 사회학 (논문) | 복학왕의 사회학, 2018, 최종렬, 오월의 봄 (네이버 책) | "지방 청년도 다른 세계 꿈꿔야" 시사in 기사

Wednesday, July 11, 2018

책 - 주성하 - 북한 바로보기 외 여럿

주성하 기자는 북한에서 김일성 대학을 졸업한 엘리트로 1998년 탈북하여 우여곡절끝에 한국에 오고, 2003년부터 동아일보 기자로 일한 북한전문기자입니다. 저자소개에 의하면 "동아일보 기자로 공채에 당당히 합격했다"고 적혀있군요. 아마도 탈북자 출신이라 우대를 받고 취직한것이 아닌가하는 질문을 여러번 받고나서 추가한 문장이 아닐까 짐작합니다.

대부분의 사람들은 대부분의 이슈의 대부분을 잘 모르고 살게 마련입니다. 한국인에게 북한이라는 주제도 마찬가지죠. 저도 유럽, 중국, 일본, 미국 등 비한국인 친구들에게 북한에 대한 질문을 종종 받는데, 그제서야 제가 아는게 거의 없다는걸 깨달았습니다. 그래도 계속 게을리 살다가, 올해에 남북관계가 급속도로 변화를 일으키는 것을 보고 북한을 좀 알고싶다는 생각이 들더군요. 그래서 읽게된 책이 주성하 기자의 책입니다. 일단 리디북스에 가시면 <주성하 기자의 북한 바로보기>는 단돈 3천원에 구매할 수 있고 <헬로월드>시리즈는 무료로 대여해서 볼 수 있습니다.

한국 언론, 특히 종편에서 다루는 북한은 2500만 인구가 사는 나라의 아주 단편적인 면을, 그나마도 수박 겉핥기 식으로 겨우겨우 다루고 있습니다. 당, 군부, 김일성-김정일-김정은 주변에서 일어나는 사건만을 소개하고 그마저도 오류투성이입니다 (북한 관련 오보에 대한 신문기사에 잘 정리되어 있습니다). 이런 현실에서 그나마 믿을만한 소스를 찾는다면 주성하 기자의 글이 아닐까 싶습니다.

책에서 읽는 북한은, 당연히, 매우 복잡한 모습입니다. 생각보다 현대적이고, 생각보다 낡았고, 생각보다 가난하고, 생각보다 잘 살고, 생각보다 시장경제를 받아들이고 있고, 생각보다 잔인하고, 생각보다 인간적이고, 생각보다 크고, 생각보다 비합리적이고,..

낮은 가격에(혹은 무료로) 읽을 수 있는 책이니 오며가며 폰에서 읽어보시길 추천합니다. 물론 한국은 지하철에서 폰이 잘 터지므로 굳이 E-book이 아니어도 시간을 때울 수 있습니다만.

책의 목차는 다음과 같습니다. 블로그 하단의 각종 링크도 참고하세요.

어업, 북한 자본주의 전초지대로 뜨다
SKY보다 어려운 김일성대, 졸업하면 권력층 ‘일등사윗감’
북한 집단체조
북한 장마당 최고 히트상품은 ‘오뚜기 사과식초’
우리가 슬픈 노래 부르면 그는 눈물을 흘렸다
1966년 ‘월드컵 8강 신화’의 북한 축구팀 44년 만의 기적 가능할까
화폐개혁의 막전 막후, 완패로 끝난 암시장과의 정면승부
북한 교육현실 집중 분석
북한 젊은 층의 사랑방정식 집중 분석
남한 밀수 컴퓨터에 ‘야동’ 가득 ‘누리꾼 체육대회’로 채팅방 전격 폐쇄
평양공화국의 이중생활
북한 협동농장의 어두운 오늘
북한 선교사 훈련생 76명, 중국 공안에 체포돼 북송
낡은 자전거로 먼지 나는 시골길 달리는 행복을 아십니까


주성하 블로그 | 리디북스 "주성하" 책 목록 | 네이버 책 링크



책 - 록산 게이 - 헝거: 몸과 허기에 관한 고백



"나쁜 페미니스트"라는 책으로도 유명한 록산 게이의 수필집 <헝거>입니다. "과체중 흑인 여성"으로 살아가는 본인의 삶에 대한 이야기입니다.

록산 게이는 13살때 집단 성폭행을 당한 뒤 극심한 심리적 고통을 겪었고, 지금도 그 후폭풍에 시달리고 있습니다. 이 부분을 읽는데 정말 마음이 힘들더군요. 이후 록산 게이는 세상과 본인을 혐오하게 됩니다. 책의 대부분은 그녀가 겪는 트라우마, 내적/외적 갈등, 욕망, 딜레마, 미국 사회가 여성과 여성의 몸을 다루는 시각 등의 내용으로 채워져있습니다. 최근들어 여성주의가 주목받고있고 한국도 마찬가지입니다. 안타깝게도 우리가 접하는 정보는 자극적인 내용 위주로 편향되어 있게 마련이지요. 사실 <헝거>는 여성주의를 직접적으로 다루는 책은 아닙니다. 그러나 책을 읽다보면 남성 위주의 '시각'이 지배하는 세상에 대해 자연스럽게 생각하게 됩니다.

제가 읽은것은 한국어 번역본으로 총 339페이지인데 글씨가 큰 편이라 양이 그렇게 많지 않습니다. 읽는 것보다 곱씹는데에 많은 시간을 쓴 것 같군요.

[헝거] 네이버 책 링크

마지막으로 록산 게이의 TED 강연을 첨부합니다.




Saturday, March 3, 2018

논문 리뷰 - SINGING VOICE DETECTION WITH DEEP RECURRENT NEURAL NETWORKS (ICASSP 2015)



2015년에 나온 논문으로 음악에서 음성이 있는지를 찾는 singing voice detection 관련 논문입니다. [링크]

지난번에 소개한 ismir 논문과 같은 방식으로 프레임별로 보컬이 있는지를 탐지하는 문제입니다. 리뷰를 부탁받은지라 가끔씩 태클을 걸면서 리뷰하겠습니다. 2015년이면 MIR에서 딥러닝 논문이 서서히 나오기 시작할때죠. 전반적으로 실험 설계와 결과는 괜찮은데 결과 분석, 토의가 매우 부족한 논문입니다. 근데 원래 초반에 나온 논문이 다 좀 그랬습니다.

초록

요약: Bi-LSTM으로 보컬 유무를 찾는다.
태클: 
"The BLSTM-RNN contains several hidden layers, so it is able to extract a simple representation fitted to our task from low-level features"

그런데,
- "Bi-LSTM에 은닉층이 여러개 있기때문에"인지는 알수 없구요, 
- "simple representation"이라고 했는데 뭐가 어떻게, 왜 simple이라는건지 설명 못했을것같구요. 
그래서 저라면 이렇게 바꿀것 같네요.
"The stacked hidden layers of Bi-LSTM learns representations to solve the given task"

그런데 이렇게 바꾸고난뒤엔 이 문장을 그냥 지울것같습니다. 하나마나한 말이라..

1. Introduction and previous work

요약: 기존에는 MFCC, PLP, LFPC등을 이용했다. Lehner에 의하면 MFCC 구할때 파라미터를 최적화하는게 성능에 중요하더라. [10]에 의하면 비브라토(주기적인 주파수의 변화, frequency modulation)과 트레몰로(시간에 따른 amplitude의 변화, amplitude modulation)가 중요한 특징이라고 하는군요.
[5]는 엄청 많은 low-level feature를 사용했다고 합니다. [7]에서는 바이올린, 플룻, 기타같이 혼동하기 쉬운 악기와 목소리를 잘 구별하는 특징값을 골라서 false positive를 줄였군요.

2. RNN and LSTM

RNN과 LSTM소개입니다. 요약은 생략합니다.

3. System overview


그림 3입니다. 데이터 전처리를 간단히 코드로 나타내면 다음과 같습니다. 아... 이부분 설명을 좀 더 명확하게 쓰면 좋을텐데, 좀 아쉽군요. 그러니까...
 - HPSS 1, HPSS 2의 역할이 명확하지 않고
 - 각종 변수가 [ms] 단위로만 나와있는데 실제로 n_win이 몇개의 샘플인지, n_freq이 몇개인지도 명시를 해야하고
 - 저 그림에서 double stage HPSS를 더 자세히 그렸어야하고
 - 왜 보컬 성분이 enhance되(ㄴ다고 생각하)는지 안써놨고
등등의 문제가 있습니다.


# PREPARE TRAINING DATA
src, sr = load('file.wav', sr=16000)
# First HPSS
src_p_1, src_h_1 = HPSS_ONO(src, n_win=4096) # returns percussive/harmonic parts each
# Second HPSS
src_p_2, src_h_2 = HPSS_ONO(src_p_1, n_win=512)


def compute_mel_feature(src):
    SRC = np.abs(STFT(src, n_win=512))
    mel_bank_matrix = freq_to_mel(freq=16000, n_freq=n_mels=40) # size: (257, 40)
    SRC_mel = mel_bank_matrix.transpose() * SRC   # matrix multiplication 
    SRC_mel = 10 * log10(SRC_mel)  # decibel scaling
    # Assume there're X_h_mean, X_h_std, X_p_mean, X_p_std from the training data,
    # which are in a shape of (40, )
    mean, std = load_suitable_stats() # for each SRC_mel_{p_1, p_2, h_1, h_2}
    return (SRC_mel - mean) / std  # normalisation per mel band

SRC_MEL_P_2 = compute_mel_feature(src_p_2)
SRC_MEL_H_2 = compute_mel_feature(src_h_2)


설명을 보니 src_p_2, src_h_2가 결과가 잘 나와서 이걸 쓰기로 했습니다. 결과적으로 각 프레임마다 80차원의 벡터(40개의 mel 밴드 x 2)가 나옵니다.
이제 여기에 Bi-LSTM을 적용해야죠. 그런데 엄청 중요한 파라미터가 설명이 안되어있네요. Bi-LSTM의 time step이 명시가 안되었습니다. 이건 치명적인 문제인데요, 왜냐면 이 논문에서 LSTM을 쓰는 이유는 우리가 구하고자하는 p_vocal, 즉 각 프레임별 보컬 성분이 존재할 확률이 주변 맥락(context), 즉 주변 프레임에 영향을 받는다는 (합당한) 가정을 한 결과이기 때문입니다. 주변 frame을 대체 몇개나 봐야하는지가 중요하겠죠. 아마 섹션 4.2에서 트랙을 7초씩 썼다고 나오는데서 힌트를 찾아야할것같군요. 그러면 대략 512-STFT에 hop이 256이므로 7/(256/16000)=218.75개쯤 프레임을 쓴것같네요. 흠.. 이정도면 굉장히 긴 time-step이죠.


# MODEL
inp = Input(shape=(218, 80))
x = LSTM(80, bidirectional=True, return_sequence=True)(inp)
x = LSTM(30, bidirectional=True, return_sequence=True)(x)
# LSTM이 더 많으나 생략
output = Dense(1, activation="sigmoid", per_time_step=True)(x)  # shape: (218, )

model = Model(input=inp, output=output)

4. Results

..잘 나왔습니다.


제 분석

  • 제안한 방법은 다소 복잡하고 특이한 오디오 신호 전처리와 여러 층의 LSTM으로 구성되어있어서 성능 증가가 무엇때문인지 알기가 어렵다는 단점이 있네요.
    • 제가 추정하기로는 둘다 굉장히 중요할듯합니다. 일단 전처리에서 HPSS가 성능이 괜찮은 편이구요, 
    • Recurrent layer역시 중요한 역할을 했을텐데 그 이유는 [아래]에 있습니다.
  • (특히) 첫번째 레이어에서 ConvLSTM이 아니라 LSTM을 썼기 때문에 모델에 frequency invariance가 없다는 단점이 있습니다. 이래서 나중에 나온 Convnet이 더 좋은 성능을 보인것으로 생각됩니다.
  • 특징 추출 단계에 더 가까운 입력쪽, 초반 레이어가 하는일이 정확히 뭘까요? 일단 첫번재 레이어에 dense connection이 되어있고 Convolutional layer 아니고.. 각 프레임마다 dense connection이 있기때문에 결과적으로 한번에 여러 프레임을 보지 못합니다. 따라서 앞에서 언급한 비브라토나 트레몰로를 찾아낼 수 없는 구조입니다. 그럼 뭘찾은것일지는..저도 모릅니다.
    • [아래] 다만 이런 한계를 생각하면 결국 recurrence가 중요한 역할을 했을것같아요. 특히나 그림 4에 잘 나와있듯이, 보컬 성분 유무라는게 매 프레임마다 계속 바뀔리는 없고, 연속한 여러 프레임에 같은 groundtruth가 적용되는 경우가 많습니다. 
    • 그림4의 hidden layer 시각화 결과를 보죠. 사실, hidden layer 2만 봐도 이미 보컬 유무에 따라 hidden vector 값이 굉장히 다르거든요. 같은 이유로..

    • 같은 이유로, 여기 보시면 레이어가 늘어나면서 최고 성능은 좋아지고있지만 전체적으로 엄청난 차이가 아니죠? 따라서 depth를 늘리면서 증가한 비선형성이나 network capacity의 증가보다는 recurrent connection, 즉 주변 프레임의 결과를 합치는 것이 훨씬 중요한 역할을 한걸로 해석할수 있습니다. 이걸 정확히 알아내려면 각 프레임별로 작동하는, 즉 LSTM이 아닌 일반적인 deep feed-forward network를 같은 depth, width로 만들어서 실험을 돌려보면 되겠죠. 
  • 언급한 내용을 논문에 전부 요구하는건 어렵겠지만 하나도 실험 내지 언급이 되지않은것은 조금 안타깝네요. 그런데 이 논문이 아마 이 문제에 처음으로 LSTM을 쓴 논문이라 그럴거에요. 제 ismir 2016 논문도 지금 읽어보면 별 분석이나 통찰력따위 없을테니.. 아무튼, 당시 상황은 그렇고, 결과적으로 여전히 많은 의문이 남아있는 문제라고 할수있습니다.
여기까지입니다.