원본 이미지에 Object이 한개 밖에 없을 때 object의 class와 boundary box의 좌표를 구하는 것을 Object Localization with Classification이라고 한다.
과정
Image Classification | Bounding Box Regression |
원본 이미지(ex. 224 x 224)(높이, 너비) | |
Feature Extractor(VGG/Resnet 등) | |
Feature Map(ex. 7 x 7 x 512)(높이, 너비, 채널 수) | |
FC Layer(image classification 용) | FC Layer(bounding box regression 용) |
Soft max Class Confidence score car : 0.8 cat : 0.1 <====> 학습 데이터 라벨 car dog : 0.1 =>back propagation(역전파) |
Bounding Box Regression (x1,y1,x2,y2) (10,10,50,50) car (20,30,30,40) cat <====>학습 데이터 annotation (100,130,110,135)dog =>back propagation(역전파) |
Image Classification이 되면 분류된 object을 기반으로 Bounding Box Regression이 된다.
Object Localization with Classification 과정은 한 이미지에 object이 한개일 경우에 잘 작동한다.
만약 한 이미지에 object이 여러개면 feature map이 복잡해져 object의 위치를 잘 찾을 수 없다.
이는 전체 이미지를 작은 영역들로 나누어 한 영역 당 속해있는 object의 개수를 1개 이하로 만든 후, 각 영역에
Object Localization with Classification을 적용하면 해결할 수 있다. 이러한 방식을 Sliding Window 이라고 한다.
Sliding Window
Window를 왼쪽 상단에서부터 오른쪽 하단으로 이동시키면서 Object를 Detection하는 방식이다. 이때 object의 형태와 위치에 따라 window내에 object이 정확히 포함되지 않을 수 있으므로
1.다양한 형태의 window 사용
or
2.이미지의 scale을 다양하게 변형하며 적용
방식을 사용합니다.
그러나, Sliding Window 방식은 object가 없는 영역에 대해, 그리고 여러 형태의 window와 scale의 이미지에 대해 detection해야 하므로 연산량이 많아지는 문제가 발생합니다. 이는 "Object가 있을 만한 후보영역"을 찾은 후 해당 영역들에 대해서만 Object Localization with Classification을 적용하면 해결할 수 있습니다. "Object가 있을 만한 후보영역"을 찾는 기법을 Region Proposal(영역 추정) 이라고 합니다.
이 주제에 대해
https://developer-lionhong.tistory.com/35
여기에 아주 정리가 잘 되어 있습니다.
Reference
'컴퓨터비전' 카테고리의 다른 글
NMS(Non Max Supression)의 이해 (0) | 2024.02.17 |
---|---|
IoU(Intersection over Union)의 이해와 구현 실습 (0) | 2024.02.14 |
Region Proposal(영역 추정) - Selective Search 기법 (0) | 2024.02.14 |
object detection 주요 구성 요소 및 어려운 이유 (1) | 2024.02.11 |
Object Detection 개요 (0) | 2024.02.11 |