YOLO

수업/자율이동체시스템

coldtruthk 2024. 4. 21. 23:39

하나의 network가 bounding box와 class 확률을 전체 이미지에서 한번에 예측한다.
object detection을 공간적으로 나눠진 bounding box들과 관련된 class 확률들의 regression problem으로 처리한다.
전체 detection과정이 하나의 네트워크 안에서 일어나는 end-to-end모델로써 최적화에 좋다.
속도 역시 YOLO는 1초에 45 frame을, Fast YOLO는 1초에 155 frames를 처리할 수 있을 정도로 빠르다.

Intro

DPM: 분류기가 전체 이미지에 걸쳐 균일한 간격으로 분류기가 실행되는 sliding window 접근 방식을 사용한다.

R-CNN:

region proposal 방법을 사용해 먼저 이미지에서 잠재적 bounding box를 생성한다음 그 안에서 분류기 실행

scene의 다른 물체를 기준으로 bounding box를 세분화하고 중복 검출을 제거하여 박스를 재평가하는데 사용된다.

YOLO(You Only Look Once):

객체 탐지를 이미지 픽셀에서 bounding box의 좌표와 class 확률로 객체 탐지를 위한 단일 회귀 문제로 재구성

단일 convolution network는 동시에 여러개의 bounding box 와 해당 box에 대한 class의 확률을 예측한다.

전체 이미지를 학습하고 탐지 성능을 직접 최적화한다.

매우 빠르다.
1. (base YOLO)1초에 45 frame (Fast YOLO) 150 fps
2. 25ms 미만의 지연 시간으로 스트리밍 비디오를 실시간으로 처리할 수 있다.
3. 다른 실시간 시스템의 평균 정밀도(precision)의 두 배 이상을 달성.
예측을 할 때 이미지에 대해 전반적으로(globally) 추론한다.
1. 학습과 class 모양에 대한 외관 정보를 암시적으로 인코딩한다.
2. 백그라운드 오류 수를 절반 이하로 줄인다.
객체의 일반화 가능한 표현을 학습한다.
1. 매우 일반화 되기 때문에 새로운 도메인이나 예장치 못한 입력에 적용될 때 분해될 가능성이 낮다.

단점:

최첨단 탐지 방법에 비해 정확도가 떨어진다.

이미지에서 객체를 빠르게 식별할 수 있지만, 일부 객체, 작은 객체의 위치를 정확하게 파악하는 것은 어렵다.

객체 탐지의 개별적인 요소들을 단일 신경 네트워크로 통합한다.
전체 이미지의 특징을 사용하여 각 bounding box를 예측한다.
이미지에 대한 모든 클래스의 모든 bounding box를 동시에 예측한다.
입력 이미지를 S*S grid로 나눈다. -> 개체의 중심이 grid 셀에 들어가면 해당 grid 셀이 해당 객체를 탐지한다. ( 해당 bounding box에 대한 B bounding box와 신뢰(confidence) 점수를 예측한다 )
신뢰:

그 셀에 객체가 존재하지 않으면, 신뢰 점수는 0

그렇지 않으면 신뢰 점수가 예측 box와 실제 값(ground truth) 사이의 교차점(IOU)과 같기를 원한다.

구조는 GoogLeNet에서 따왔지만 Inception module 대신 1x1 reduction layer와 3x3 conv layer를 사용했다.

논문리뷰: IntentNet: Learning to Predict Intentionfrom Raw Sensor Data (0)	2024.06.03
GoogLeNet (0)	2024.04.20
Object detection-AlexNet 이전 (0)	2024.04.20
CNN-Alexnet (0)	2024.04.13
자율주행 시스템 요약 (1)	2024.04.03

근사한 지구

자료구조 #IT,