논문 리뷰

YOLO v3 논문리뷰

younghlee 2024. 6. 26. 01:58

 

Main ideas

 

Bounding box Prediction

 

YOLOv3와 YOLOv2의 주요 차이점 중 하나는 바로  bounding box 예측 방식에 있습니다. YOLOv2에서는 바운딩 박스의 중심 좌표 t𝑥,t𝑦 및 너비와 높이 t𝑤,tℎ 의 변환을 통해 실제 좌표를 예측하며, 이 변환된 값을 로지스틱 회귀를 사용해 b𝑥,b𝑦,b𝑤,bℎ 로 변환합니다.

 

예측한 bounding box마다 objectness score를 회귀 함수를 적용하여 구합니다. 또한 anchor box와 ground truth box와의 IoU 값이 가장 높은 box만 매칭시킵니다. ground truth box에 할당되지 못한 bounding box는 bounding box regression loss를 유발하지 않고, 오직 objectness score에 대한 loss만 발생시킵니다. 

 

Class Prediction 

 

각각의 bounding box는 multi-label classification을 수행합니다. 여기서 softmax 함수를 사용하여 class를 예측할 경우 성능 면에서 좋지 않기 때문에 binary cross-entropy를 사용합니다.

binary cross-entropy (BCE)를 사용하는 주된 이유는 멀티 레이블 분류 적합성, 클래스 불균형 처리, sigmoid활성화를 예로 들 수 있다.이러한 이유로 YOLO v3를 예측하는데 있어 BCE가 전체 성능과 정확도를 향상시킨다.

 

Prediction across scales

YOLOv3는 3가지 다른 스케일에서 최종 결과를 예측합니다. 여기서 FPN의 유사한 개념을 사용하여 이러한 스케일에서 특징을 추출합니다.

 

1. (인코딩)기본 특징 추출기에서 여러 합성곱 계층을 추가합니다. 마지막 계층은 경계 상자, 객체성 및 클래스 예측을 인코딩하는 3차원 텐서를 예측합니다. COCO 와의 실험에서 각 스케일에서 3개의  grid cell당 예측하는 anchor box의 수를 ,4개의 bounding box offset , 1개의 objectness prediction, 80개의 class predictions 에 대해 N × N × [3 ∗ (4 + 1+ 80)]입니다.

 

2. (디코딩)다음으로 이전의 두 계층에서 특징 맵을 가져와 2배로 업샘플링합니다. 또한 네트워크 초기의 특징 맵을 가져와 업샘플링된 특징과 연결하여 결합합니다. 이 방법은 업샘플링된 특징에서 더 의미 있는 의미 정보를 얻고 초기 특징 맵에서 더 세밀한 정보를 얻을 수 있게 합니다. 그런 다음 이 결합된 특징 맵을 처리하기 위해 몇 개의 합성곱 계층을 더 추가하고, 결국 크기가 두 배가 된 유사한 텐서를 예측합니다.

 

3. 마지막 스케일은 최종 결과를 예측하기 위해 동일한 디자인을 한 번 더 수행합니다. 따라서 3번째 스케일에 대한 우리의 예측은 이전의 모든 계산뿐만 아니라 네트워크 초기에 얻은 세밀한 특징을 더욱 잘 뽑아냅니다.

Feature Extractor

 

특징 추출을 수행하기 위해 새로운 네트워크를 사용합니다. 새로운 네트워크는 YOLOv2에서 사용된 Darknet-19와  shortcut connection이 추가되어 53개의 layer를 가지는 Darknet-53을 backbone network로 사용합니다.  

 

 

Darknet-53은 ResNet-101보다 1.5배 빠르며 ResNet-152와 유사한 성능을 보이면서 2배 빠릅니다.

Darknet-53은 또한  floating point operation 속도를 보여주었으며, 이는 GPU를 효율적으로 사용함을 의미합니다. 

 

Training

전체 이미지를 사용하여 훈련합니다. 멀티 스케일 훈련, 많은 데이터 증강, 배치 정규화 등 표준적인 것을 사용합니다. 우리는 Darknet 신경망 프레임워크를 사용하여 훈련하고 테스트합니다 

How we Do

YOLOv3는 꽤 좋습니다! 표를 보시면, COCO의 평균 AP 메트릭에서는 SSD 변형들과 동등하지만 3배 더 빠릅니다. 여전히 다른 모델들에 비해 뒤처지지만 RetinaNet과 유사한 성능을 보입니다.

RetinaNet은 이미지 처리 시간이 약 3.8배 더 길다는 점을 유념하세요. YOLOv3는 SSD 변형들보다 훨씬 우수하며 AP50 메트릭에서 최첨단 모델들과 비교할만합니다.

 

IOU=0.5에서의 mAP를 보면 YOLO v3는 매우 강력합니다. RetinaNet과 거의 동등하며 SSD 변형들보다 훨씬 높습니다. 이는 YOLO v3가 객체에 대한 적절한 상자를 생성하는 데 뛰어난 탐지기라는 것을 의미합니다. 하지만 IOU 임계값이 증가함에 따라 성능이 크게 떨어지므로 YOLO v3는 객체와 상자를 완벽하게 정렬하는 데 어려움을 겪고 있음을 나타냅니다.

 

과거에는 YOLO가 작은 객체에 어려움을 겪었습니다. 그러나 새로운 멀티 스케일 예측으로 YOLO v3는 상대적으로 높은 APS 성능을 보입니다. 아직은 중간 및 큰 크기의 객체에 대한 성능은 비교적 낮기에, 이 문제를 해결하기 위해 더 많은 연구가 필요할 것으로 보입니다.

 

그림에서 보면 AP50 메트릭에서의 정확도와 속도를 비교할 때, YOLOv3는 다른 탐지 시스템에 비해 상당한 이점을 가지고 있음을 알 수 있습니다. 즉, 더 빠르고 더 좋습니다.

 

정리

지금까지 YOLO v3에 대한 논문 리뷰를 진행해 보았습니다. YOLO v3는 기존의 모델보다 빠른 객체 탐지를 한다는 면에서 다른 모델과의 차이 점을 가지고 있다는 것을 알 수 있습니다. 지금은 현재 YOLO v8까지 나왔기에 앞으로의 YOLO모델 논문 리뷰에 대해 많은 기대가 됩니다. 

 

Reference

https://herbwood.tistory.com/21

 

YOLO v3 논문(YOLOv3: An Incremental Improvement) 리뷰

이번 포스팅에서는 YOLO v3논문(YOLOv3: An Incremental Improvement)을 읽고 리뷰해보도록 하겠습니다. YOLO v3는 당시 유행하던 새로운 기법들을 도입하여 성능을 향상시켰습니다. YOLO v2 논문과 비슷하게 새

herbwood.tistory.com

YOLO v3논문(YOLOv3: An Incremental Improvement)

 

'논문 리뷰' 카테고리의 다른 글

BERT 논문 리뷰  (0) 2024.07.23
Transformer 논문 리뷰  (0) 2024.07.22
Attention 논문 리뷰  (0) 2024.07.16
Alex-Net 논문 리뷰  (0) 2024.07.16
U-Net 논문리뷰  (0) 2024.07.15