본문 바로가기
AI Paper Review

[논문 리뷰] Computer Vision - SOLO(Semgmentation Objects by LOcation)

by coding-choonsik 2023. 10. 4.
728x90
반응형
SMALL

📃논문 - https://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123630630.pdf

SOLO(Segmaentation Objects by LOcation)

  • FCN에서 제시했던 network처럼 주어진 input image의 크기와 동일한 사이즈의 output을 pixel 단위로 class를 예측하는 것을 dense pixel-wise classification라고 함.
  • 현실적으로 이런 방식을 선택하면 모든 instance를 바로 예측하기가 힘듬

Preview

  • 기존의 instance segmentation연구
    • top-bottom(detect - then - segment)
      • bbox를 통해서 개체를 찾은 다음에 pixel 별로 predict를 하는 방법
      • Mask R-CNN
    • bottom-up
      • 픽셀들 간의 유연한 관계에 대해 학습한 후 동일한 instance의 픽셀의 경우 grouping, 다른 instance의 픽셀의 경우 pulling함으로써 각 픽셀에 임베딩 벡터 값을 할당

 👉🏻 단계가 많아 direct segmentation이 불가


Main Ideas

중심점의 좌표가 다른 점을 반영하기 위해서 instance category를 도입하고, 사이즈가 다른 점을 반영하기 위해서 FPN을 백본으로 이용했다.

 

 

@ 추가예정!

 


Training SOLO

1) Label assignment

  • category classification의 경우에 object의 center가 grid cell 내부에 있는 경우는 positive sample, 그렇지 않으면 negative sample로 분류
  • segmentation의 label같은 경우는 모든 positive sample은 binary mask를 가지고 있어야 하기 때문에, output S²개의 mask 중에서 positive sample의 경우만 annotation하면 됨

 

2) Loss

SOLO Loss Function
mask Loss

 

 


Prediction

  • input image가 backbone, FPN을 통과
  • 각 grid cell 마다 class score p_i,j와 mask m_k 값을 계산
  • confidence threshold를 0.1로 두고 낮은 예측 값들을 걸러냄
  • 걸러진 예측값들 중에 score를 기준으로 상위 500개의 mask에 NMS 를 적용
  • 마지막 0.5 threshold로 binary mask의 최종 예측값을 걸러냄

→ 각 grid cell마다 mask 이미지를 예측!

 

 

Grid 수에 따른 정확도 비교

  • 그리드 수를 늘리는 것도 좋지만, FPN 이 특히 mAP를 더 높임
  • 하지만 만약 이미지의 스케일이 비슷하다면 SOLO의 성능은 꽤 괜찮을 것으로 예상

 

성능 평가

 

 

  • 기존의 instance segmentation method(i.e. Mask R-CNN) 비교해도 성능이 뒤지지 않음
  • end to end로 학습할 수 있고, raw image to instance mask로 constant time에 inference할 수 있음
  • box supervision이 필요없고 mask만 있으면 됨
  • 특히 Top-down approach에서 필요한 단계(box detection, roi operation)들이 많이 사라지고, box의 개수에 따라서 inference time이 달라지는게 아니라 constant time이 걸리니까 훨씬 안정적으로 사용 가능하다.

 

728x90
반응형
LIST