히비스서커스의 블로그

[WSSS] AE-PSL 논문 정리 본문

Theory/Computer Vision

[WSSS] AE-PSL 논문 정리

HibisCircus 2022. 2. 13. 00:44
728x90

Object Region Mining with Adversarial Erasing: A Simple Classification to Semantic Segmentation Approach 의 논문을 읽고 이해한대로 정리해본 글입니다. 아래에 첨부된 그림들 중 논문에 나와있지 않은 그림들은 제가 제작한 내용이니 사용 시 반드시 출처를 남겨주시기 바랍니다. AE-PSL 논문핵심 아이디어만 정리하였습니다. 풀잎스쿨 18기 WSSS 논문으로 입문하기를 통해 같이 공부한 분들께 감사를 드립니다.

 

개인적인 생각

CAM의 등장으로 WSSS(Weakly-Supervised Semantic Segmentation)의 연구의 청사진을 그릴 수 있었다면 AE-PSL의 등장은 WSSS의 연구에 주춧돌이 되었다고 생각한다. 수 많은 WSSS의 논문들 중 AE(Adversarial Erasing)를 활용한 논문들은 AE-PSL 을 기반으로 작성되었으며 이는 AE-PSL이 WSSS에서 AE 연구의 발판이 되었음을 증명한다. CAM의 영역에서 가장 두드러지는 부분을 지우려는 아이디어와 이를 통해 목표 객체의 다른 부분의 특징을 잘 뽑아냈다는 것은 매우 큰 센세이션이었다. 이 과정이 어떻게 이루어지는지를 살펴보는 것이 핵심 포인트라고 생각한다.

 

0. Abstract

CAM (Class Activation Map)

  • WSSS에서 원하는 객체의 부분을 얻어내기 위해서 Classification Network를 사용하였음
  • pixel-wise inference을 하기에는 small and sparse하게 객체의 부분을 얻어 문제가 되었음

AE (Adversarial Erasing)

image

  • CAM에서 부족하게 얻이진 객체의 영역을 보완하기 위해 이 논문에서 제안된 방법임
  • 현재 얻어진 객체 부분을 적대적인 방법으로 지움으로써 작동
  • 하나의 작은 객체 부분으로 시작하여 점차적으로 새롭고 보완적인 객체영역을 찾아냄
  • 최종적으로 이러한 localized regions (점차적으로 찾아낸 객체 영역들)들은 semantic segmentation을 학습하기 위한 완전한 객체 영역이 됨

PSL (Prohibitive Segmentation Learning)

  • AE 방법으로 찾아낸 영역들의 퀄리티를 높이기 위한 방법
  • 더욱 신뢰할만한 classification score에 의해 변조된 Auxiliary Segmentation Supervision을 제공함으로써 AE와 함께 발전하게 됨

 

3. Classification to Semantic Segmentation

3.1 Object Region Mining with AE

image

  • AE는 반복적으로 2개의 작업을 반복한다.

첫번째 작업

  • 객체의 구별 영역을 찾기 위한 classification network를 학습하는 작업
    • DeepLab-CRF-LargeFOV model에 근거하여 초기화된 classificaiton model을 사용
    • GAP(Global Average Pooling)이 conv7에 적용되었고 생성된 representation이 분류 예측을 위해 FC(Fully Connected) layer를 통과하였다.
  • squared label prediction loss를 최소화하는 classifciation model를 훈련시킴

두번째 작업

  • 발견한 영역을 적대적으로 지우는 작업
  • 1) CAM을 이용하여 이미지 수준의 라벨에서 heatmap을 얻음
  • 2) heatmap에 뚜렷한 임계값을 적용하여 뚜렷한 객체 영역을 얻음
  • 3) 모든 training image의 픽셀값의 평균으로 얻어낸 영역을 대체
  • 4) 이렇게 처리된 이미지는 다음 classification model의 학습 과정의 입력이 됨
  • 지워진 뚜렷했던 영역은 더 이상 분류 예측에 기여를 하지 않고, classification model은 분류 정확도를 유지하기 위해 객체의 다른 구별가능한 영역을 찾게 됨.

반복

  • 훈련되는 이미지로부터 모델이 수렴하지 않을 때까지 (= 분류를 수행하기 위한 구별가능한 영역이 더 이상 발견되지 않을 때까지) classfication 모델의 학습과 AE 과정을 반복함

sudo code

image

  • 위의 과정을 슈도 코드로 나타냄

 

3.2 Online PSL for Semantic Segmentation

AE의 한계점

image

  • 1) 위 figure의 하늘색 영역처럼 객체와 연관되거나 background와 연관된 픽셀을 놓칠 수 있음.
  • 2) boundary detail을 포착하는 것에 대한 AE의 한계로 인하여 몇몇 지정된 픽셀의 semantic label들은 noisy 할 수 있음. (= 몇몇 픽셀들은 틀린 라벨을 가질 수 있음.)

online PSL

특징
  • image classification 결과를 활용하여 신뢰할만한 범주별 segmentation map들을 식별
  • 이를 노이즈가 적은 auxiliary supervision map으로 구성하여 AE 출력에 보조 정보를 제공
과정
  • 실시간으로 segmentation network의 훈련함에 따라 생산된 auxiliary segmentation map을 update
  • 그리고 더욱 신뢰할만한 auxiliary supervision을 생산함.
구조

image


위의 figure와 같이 PSL은 classification과 semantic segmentation을 위한 두 개의 branch를 가지는 framework로 구성된다.

squared loss
  • classification bracnch의 최적화를 위해 squared loss를 사용
  • squared loss를 통해 생성된 분류 신뢰도PSL에서 해당 범주별 segmentation score map가중치를 부여하는데 사용
PSL의 효과
  • classificiation 결과를 통해 다중 범주 segmentation maps을 auxiliary segmentation mask로 통합할 수 있음
  • 또한, AE 출력 외에 감독 기능을 제공
  • classification의 신뢰도가 낮은 segmentation map은 auxiliary segmentation map에 기여도가 낮아짐
  • 따라서, 관련 없는 class의 noise를 효과적으로 완화할 수 있음

loss

image

  • noise-prohibitive semantic segmentation의 Cross Entropy Loss는 위의 과정을 걸쳐 위의 중간식과 같이 표현됨

 

 

-히비스서커스-

728x90

'Theory > Computer Vision' 카테고리의 다른 글

[WSSS] EADER 논문 정리  (0) 2022.02.13
[WSSS] ACoL 논문 정리  (2) 2022.02.13
[CS231n 12] Visualizing and Understanding  (0) 2021.09.11
[CS231n 11] Detection and Segmentation  (0) 2021.09.06
[CS231n Midterm] Short Answer  (12) 2021.03.25