[R-CNN] Rich feature hierarchies for accurate object detection and semantic segmentation
Introduction
기존에 요약정리했었던 내용이라 업로드 하려고 보니 조금 짧네요
R-CNN 시리즈의 첫번째 논문이자 현재 인용수가 17,000번이 넘은 논문이다.
Two stage object detection 이며 전체 task는 크게 region proposal과 region classification으로 이루어진다.
abstract에서는 "we combined region proposals with CNNs" , 그러므로 R-CNN 이라고 한다.
Region Proposal
Input image에서 selective search 알고리즘을 이용해 2000여개의 물체가 존재할 만한 곳을 탐색을 한다.
selective search는 segmentation에서 주로 사용되며 유사한 픽셀값을 그룹핑하는식으로 룰베이스로 작동하기 때문에 시간소요가 크다.
CNN
2000여개의 box들의 이미지들이 crop&resize를 거쳐 CNN 아키텍쳐로 들어간다.
사전학습된 Imagenet을 거쳐서 fine-tuning 하는 과정 포함. 모든 이미지들마다 아키텍쳐를 거치게 된다. 여기서 cnn classifier로 분류하지 않고 SVM을 사용하여 클래스 분류를 하는데, 논문에서는 이 방식으로 성능이 조금 더 향상되었다고 한다.
BB Regresion
Bounding Box를 그린다 하더라도 여러개의 박스가 있을 것이고 겹치는 박스도 있다. 그 중 물체를 가장 잘 감지하는 박스를 찾아야 하기 때문에 IOU를 계산. 쉽게 말해 BB와 ground truth 박스와의 교집합을 계산하여 합집합으로 나눠 그 값이 가장 큰 박스를 사용하게 된다(Non-maximum suprresion)
이후 실제 ground truth box 크기에 맞춰서 예측한 박스를 regression을 통하여 fitting 시키는 학습이 한 번 더 이루어진다.
Conclusion
종합하면, selective search를 하는데 걸리는 시간을 제외하고도, region proposal 에 대한 CNN 학습, SVM 분류 , BB regression 까지 총 3번의 학습이 진행되어 1장의 이미지에 대한 추론시간이 Gpu에서도 13초 정도 걸린다고 하는데 그 당시로는 획기적이었다고 한다. 이후 fast R-CNN, faster R-CNN 에서 이를 해결한다.
'machine learning > Article review' 카테고리의 다른 글
YOLO v1 리뷰 (0) | 2021.12.16 |
---|---|
Fast & Faster R-CNN 리뷰 (0) | 2021.12.03 |
[GoogLeNet] Going deeper with convolutions (0) | 2021.11.29 |
[review]Similarity_Cohen Malloy Nguyen(2019)LAZY PRICES (0) | 2020.04.04 |
[review] Large-sample evidence on firm's year over year MD&A modification (0) | 2020.04.01 |
댓글
이 글 공유하기
다른 글
-
YOLO v1 리뷰
YOLO v1 리뷰
2021.12.16 -
Fast & Faster R-CNN 리뷰
Fast & Faster R-CNN 리뷰
2021.12.03 -
[GoogLeNet] Going deeper with convolutions
[GoogLeNet] Going deeper with convolutions
2021.11.29 -
[review]Similarity_Cohen Malloy Nguyen(2019)LAZY PRICES
[review]Similarity_Cohen Malloy Nguyen(2019)LAZY PRICES
2020.04.04