8월 2주차: Semantic Image Segmentation
•
•
•
BCE Loss
교차 엔트로피 손실에서 손실은 픽셀당 손실의 평균으로 계산됨
픽셀당 손실은 인접한 픽셀이 경계인지 여부를 알지 못한 채 별도로 계산됨
boundary prediction with cross entropy loss
•
Dice Loss
Mask-RCNN
Mask R-CNN = Faster R-CNN + mask branch
•
이미지 내에서 각 instance(object)에 대한 segmentation mask 생성
(Classification + Localizing(pixel))
* mask branch : object의 mask를 예측하는 branch
- Mask R-CNN은 5 fps 정도의 속도가 나오며, human pose estimate에서도 사용됨
•
RoIAlign: 간단하면서 정확한 공간 정보를 보존하는 레이어
RoI Pooling
- RoIPool은 각 RoI에서 small feature map를 extract하기 위한 표준 연산
* RoIPool : 다른 사이즈의 Region Proposal이 들어와도, max pooling을 이용하여 output size를 동일하게 만듦 (Faster R-CNN에서 나오는 개념)
- RoIPool은 RoI를 feature map으로 quantization하게 되는 데, 이 과정에서 RoI와 추출된 feature 사이에 오정렬을 초래함
- 이는 pixel 단위로 예측하는 mask에 큰 악영향을 끼침
- 이러한 단점을 해결하기 위해 extract한 feature를 input에 적절하게 정렬하는 RoIAlign layer를 제안
RoI Align
- RoIAlign layer를 simple함
- bilinear interpolation 연산을 사용하여 각 RoI bin의 샘플링된 4개의 위치에서 input feature의 정확한 value를 계산
•
검은색 실선은 RoI를 의미, RoI 안의 4개의 점들은 각 bin의 샘플링 된 4개의 point를 의미
•
RoIAlign은 feature map에서 근접한 grid point(파란색 화살표의 시작점)을 bilinear interpolation 연산을 통해 각 샘플링 point를 계산
•
Faster R-CNN의 quantization은 사용되지 않음