Tuesday, January 16, 2018

논문 요약 - Measuring the tendency of CNNs to learn surface statistical regularities



이번 논문은 벤지오 그룹에서 나온 논문입니다. 저자는 Jason Jo and Yoshua Bengio. 벤지오 그룹에서 나온 논문중에 저자가 2명밖에 안되는 논문은 오랜만이군요. 비전쪽 학회에 제출한 논문같은데 제가 그 동네를 잘 몰라서 어디인지 잘 모르겠습니다. 아마 ICCV나 CVPR이겠죠? 


조경현 교수님이 트윗하신걸 계기로 읽었습니다. 이렇게 요약하셨죵.

my reading is that low-level features, on top of which higher-level concepts are built, are very specific to and specialized for a narrow set of textures.

요약

이 논문은 이렇게 요약할수 있습니다.

컨브넷이 우리 바람처럼 고수준의 정보를 파악하는것은 아니다. Adversarial example에 취약한걸 봐라! 컨브넷은 객체의 전체 모양 등을 파악한다기 보다는 개별적인 저수준 특징값(~=텍스쳐)를 파악하고 이를 조합한다. 
그러면 최신 컨브넷은 어떻게 그렇게 unseen data (=test set)에 잘 작동하는거냐? 왜냐면 실제 데이터는 고수준, 추상적 정보와 저수준 특징값의 상관관계가 높기 때문이다.

배경 소개


이를 실험적으로 보여주려면 어떻게 해야할까요? 몇몇 기존 연구([7], [4])에 의하면 저수준 특징값은 이미지의 2차원 푸리에 분석, 특히 (상대적으로) 저주파 성분으로 표현이 가능합니다.

그리고 원본 이미지의 푸리에 성분(Fourier statistics)을 왜곡한 데이터를 이용해 다양한 실험을 수행합니다. 이 왜곡을 식(1)로 표현하죠.

$ F: X \rightarrow X' $

이 왜곡은 다음 조건을 만족해야합니다.

1) 사람 눈으로 봤을 때 여전히 같은 객체로 인식이 가능해야합니다. 즉, 사람은 못속이지만 컨브넷은 속이는 왜곡이죠.
2) 왜곡 전후의 Surface regularities (=질감, 텍스쳐)는 달라야합니다.
3) 이 왜곡으로 인해 컨브넷의 테스트셋 인식률이 확연히 낮아져야합니다.


이와 관련해 몇 가지 기존 연구를 소개합니다.

[43] 이미지의 단순한 특징값(image statistics)와 분류작업결과(visual understanding)에 상관관계(a strong statistical relationship)이 존재한다.
[31] 실제로 일어날 수는 없지만 보기엔 자연스러운 배경 (예를 들어 구름과 잔디가 같이 존재하는 배경에 떠있는 자동차)를 합성해보니까 컨브넷이 이 배경에 크게 영향을 받았다.


실험


실험에서 사용한 왜곡 방법은 간단합니다. 식 (3)-(6)을 참고하세요.

원본으로 학습한 컨브넷에, 푸리에 성분을 왜곡한(즉 사람 눈으로 보기엔 여전히 별 차이가 없는) 이미지를 넣었더니! --> 아주 성능이 좋은 (에러율 1-2%) ResNet에서 에러율이 실험에따라 5%, 8%, 10% 등 크게 증가했습니다. 그리고 대조군으로 쓴 랜덤 왜곡에서는 이렇게 심각하게 성능이 떨어지지 않았구요. (그림 3, 4, 6, 7 참조) (표를 전부 그림이라고 표시했군요. 나중에 그림 번호는 바뀔수도 있습니다.)

결론

결론은 간단합니다.

  • 예상대로 푸리에 왜곡이 컨브넷을 발랐다.
  • 푸리에 왜곡을 데이터 augmentation에 포함해서 학습을 수행하면 많이 개선이 된다. (하지만 이게 완벽한 해결책이라는건 아님!)

No comments:

Post a Comment