Search
Duplicate

8월 2주차: Semantic Image Segmentation

8월 2주차: Semantic Image Segmentation
FCN (2014) [pdf], U-Net (2015) [pdf]
Mask R-CNN (2017) [pdf]
Deeplab (2017) [pdf]
BCE Loss
교차 엔트로피 손실에서 손실은 픽셀당 손실의 평균으로 계산됨 픽셀당 손실은 인접한 픽셀이 경계인지 여부를 알지 못한 채 별도로 계산됨
boundary prediction with cross entropy loss
Dice Loss

Mask-RCNN

Mask R-CNN = Faster R-CNN + mask branch
이미지 내에서 각 instance(object)에 대한 segmentation mask 생성  (Classification + Localizing(pixel))
 * mask branch : object의 mask를 예측하는 branch
- Mask R-CNN은 5 fps 정도의 속도가 나오며, human pose estimate에서도 사용됨
RoIAlign: 간단하면서 정확한 공간 정보를 보존하는 레이어

RoI Pooling

RoIPool은 각 RoI에서 small feature map를 extract하기 위한 표준 연산
* RoIPool : 다른 사이즈의 Region Proposal이 들어와도, max pooling을 이용하여 output size를 동일하게 만듦 (Faster R-CNN에서 나오는 개념)
- RoIPool은 RoI를 feature map으로 quantization하게 되는 데, 이 과정에서 RoI와 추출된 feature 사이에 오정렬을 초래함
- 이는 pixel 단위로 예측하는 mask에 큰 악영향을 끼침
- 이러한 단점을 해결하기 위해 extract한 feature를 input에 적절하게 정렬하는 RoIAlign layer를 제안

RoI Align

- RoIAlign layer를 simple
bilinear interpolation 연산을 사용하여 각 RoI bin의 샘플링된 4개의 위치에서 input feature의 정확한 value를 계산
 검은색 실선은 RoI를 의미, RoI 안의 4개의 점들은 각 bin의 샘플링 된 4개의 point를 의미
 RoIAlign은 feature map에서 근접한 grid point(파란색 화살표의 시작점)을 bilinear interpolation 연산을 통해 각 샘플링 point를 계산
Faster R-CNN의 quantization은 사용되지 않음

Deep Lab

ASPP

GCN