- 하나의 network가 bounding box와 class 확률을 전체 이미지에서 한번에 예측한다.
- object detection을 공간적으로 나눠진 bounding box들과 관련된 class 확률들의 regression problem으로 처리한다.
- 전체 detection과정이 하나의 네트워크 안에서 일어나는 end-to-end모델로써 최적화에 좋다.
- 속도 역시 YOLO는 1초에 45 frame을, Fast YOLO는 1초에 155 frames를 처리할 수 있을 정도로 빠르다.
Intro
DPM: 분류기가 전체 이미지에 걸쳐 균일한 간격으로 분류기가 실행되는 sliding window 접근 방식을 사용한다.
R-CNN:
region proposal 방법을 사용해 먼저 이미지에서 잠재적 bounding box를 생성한다음 그 안에서 분류기 실행
scene의 다른 물체를 기준으로 bounding box를 세분화하고 중복 검출을 제거하여 박스를 재평가하는데 사용된다.
YOLO(You Only Look Once):
객체 탐지를 이미지 픽셀에서 bounding box의 좌표와 class 확률로 객체 탐지를 위한 단일 회귀 문제로 재구성
단일 convolution network는 동시에 여러개의 bounding box 와 해당 box에 대한 class의 확률을 예측한다.
전체 이미지를 학습하고 탐지 성능을 직접 최적화한다.
<장점>
- 매우 빠르다.
- (base YOLO)1초에 45 frame (Fast YOLO) 150 fps
- 25ms 미만의 지연 시간으로 스트리밍 비디오를 실시간으로 처리할 수 있다.
- 다른 실시간 시스템의 평균 정밀도(precision)의 두 배 이상을 달성.
- 예측을 할 때 이미지에 대해 전반적으로(globally) 추론한다.
- 학습과 class 모양에 대한 외관 정보를 암시적으로 인코딩한다.
- 백그라운드 오류 수를 절반 이하로 줄인다.
- 객체의 일반화 가능한 표현을 학습한다.
- 매우 일반화 되기 때문에 새로운 도메인이나 예장치 못한 입력에 적용될 때 분해될 가능성이 낮다.
단점:
최첨단 탐지 방법에 비해 정확도가 떨어진다.
이미지에서 객체를 빠르게 식별할 수 있지만, 일부 객체, 작은 객체의 위치를 정확하게 파악하는 것은 어렵다.
Unified Detection
- 객체 탐지의 개별적인 요소들을 단일 신경 네트워크로 통합한다.
- 전체 이미지의 특징을 사용하여 각 bounding box를 예측한다.
- 이미지에 대한 모든 클래스의 모든 bounding box를 동시에 예측한다.
- 입력 이미지를 S*S grid로 나눈다. -> 개체의 중심이 grid 셀에 들어가면 해당 grid 셀이 해당 객체를 탐지한다. ( 해당 bounding box에 대한 B bounding box와 신뢰(confidence) 점수를 예측한다 )
- 신뢰:
그 셀에 객체가 존재하지 않으면, 신뢰 점수는 0
그렇지 않으면 신뢰 점수가 예측 box와 실제 값(ground truth) 사이의 교차점(IOU)과 같기를 원한다.
구조는 GoogLeNet에서 따왔지만 Inception module 대신 1x1 reduction layer와 3x3 conv layer를 사용했다.
'수업 > 자율이동체시스템' 카테고리의 다른 글
논문리뷰: IntentNet: Learning to Predict Intentionfrom Raw Sensor Data (0) | 2024.06.03 |
---|---|
GoogLeNet (0) | 2024.04.20 |
Object detection-AlexNet 이전 (0) | 2024.04.20 |
CNN-Alexnet (0) | 2024.04.13 |
자율주행 시스템 요약 (1) | 2024.04.03 |