Search
📜

[Paper] YOLOv3: An Incermental Improvement

Created
2022/07/13
Last modified date
Tags
ai
paper
URL
YOLOv3- An Incremental Improvement.pdf
2398.6KB
arXiv: 1804.02767 저자 : Joseph Redmon, Ali Farhadi 논문 제목: “YOLOv3: An Incermental Improvement” Keywords: object detection 요약 [한줄 요약] ”개인 생각 요약”
저자 정보 저자의 간략한 정보

목차

2.

Abstract

업데이트된 YOLO 발표함! 기존보다 더 좋게 만들기 위해 작은 디자인을 여러개 변경하고, 훌륭한 이 새 네트워크를 훈련시켰음. 저번보다 조금 더 크지만 정확함. 그럼에도 아직 빠르니 걱정은 놉. 320x320 YOLOv3는 22ms의 속도로 28.2 mAP로 동작해서 SSD 보다 3배는 빠르고 정확도는 비슷함. 코드는 온라인에서 언제든 확인 가능함.
- Tech Report - Just a bunch of small changes that make it better - Better, Not Faster, Stronger (But, still fast!)

1. Introduction

2. Bounding Box Prediction (Regression)

Yolo v2와 동일. Anchor Box를 미리 정의해두고, regression을 이용하여 anchor box를 어느정도 이동할 것인지 정함. Sigmod function을 사용하여 이동정도 결정. Loss는 regression 문제니까 MSE(Mean Square Error) 사용.
Yolo v1과 동일하게 각 bounding box는 objectness score를 보유하고 있으며, 이 값은 logistic regression으로 0~1 사이 값을 가짐. 특이한 점은, overlap이 가장 많이 된 bounding box는 confidence score가 1이 되어야 함. 따라서, Yolo v3는 각 ground truth 별로 하나의 bounding box만 assign됨. (다른 알고리즘들과의 차이점: Fast R-CNN의 경우, ground truth와 IOU가 0.7이상인 모든 bounding box를 채택)

3. Class Prediction (Classification)

Multilabel classification이 가능하게 하기 위하여, 각 class에 sigmoid를 취해서 binary classification 문제로 변경. (통상 각 class에 대하여 softmax 함수를 취함)
Softmax는 입력받은 값을 출력으로 0~1 사이의 값으로 모두 정규화하며 출력값들의 총합은 항상 1이 되는 특성을 가짐 e.g. [0.6, 0.2, 0.1, 0.1] → 가장 높은 값을 보여주는 class ‘A’로 판단 Sigmoid는 결과값이 [0,1]로 제한되어, binary classification 문제에 사용됨 각 class에 대하여 sigmoid function을 사용할 경우, 각 class를 포함하고 있는지 여부를 판단하게 됨. e.g. [0.6, 0.2, 0.3, 0.65] → threshold를 0.5로 한다면, 이 이미지는 class ‘A’와 class ‘D’를 포함하는 것으로 판단
Yolo v5에서는 “Person & Women” 처럼 hierarchical한 class에 대한 classification을 가능하게 하기 위하여, logistic regression 함수를 사용하여 binary classification 형태로 classification 수행함
// 10:28
Reference
내용 모르는 용어 내용
모르는 용어 모르는 용어 설명
모르는 용어 보충 자료/사진

Architecture diagram of YOLOv3