본문 바로가기

자율주행/논문리뷰

Object Detection in 20 Years : A Survey

SMALL

0. Abstract

컴퓨터 비전에서 Object Detection에는 20년동안 급속도로 기술이 발전되었습니다.

오늘날은 딥러닝이 주도한 Object Detection 혁명이라면, 과거 90년대는 초기 컴퓨터 비전의 창의적 사고 및 장기적인 전망을 바탕으로 한 설계가 되었습니다.

 

본 논문은 90년대부터 22년까지 Object detection 기술을 다루는 Survey 논문입니다.

역사적으로 주요했던 detectors, detector의 데이터셋, metric (평가지표), detection system 기본 요소, 속도 향상 기술, 최근의 첨단 기술 및 관심 분야를 다루게 됩니다.

 

 

1. Introduction

Object detection은 디지털 이미지에서 특정 클래스 (사람, 동물, 사물 등) 시각적 객체 인스턴스들을 감지하는 컴퓨터 비전 작업 중 하나라고 말할 수 있습니다.

이에 Object detection의 목표는 컴퓨터 비전 응용 프로그램에서 필요한 기초적인 지식인 "어떤 객체가 어디 있는지"를 제공하는 model 그리고 그에 맞는 기술개발이 주 목적입니다.

 

object detection은 instance segmentation, image captioning, object tracking 등 많은 컴퓨터 비전 작업의 기반이 되는 작업입니다. 그만큼 인기가 있는 분야이므로 최근 출판물 수도 증가함을 볼 수 있습니다.

다른 컴퓨터 비전 작업과 마찬가지로 object의 다양한 시점, 조명, 같은 클래스 내 변화에 대해서 일반적으로 challenge를 가지게 됩니다.

==> object rotation, scale changes, accurate object localization, dense and occluded object detection (밀집되거나 가려진 객체 인식), speedup of detection 등의 추가적인 문제도 있습니다.

 

본 논문에서는 주요적으로 기술적인 면의 과거, 현재, 미래에 대해 중점을 두며 설명을 하며, 데이터셋, 측정 기준 (metric), 가속 기술과 같은 object detection의 필수 요소에 대해서 각 장마다 설명을 합니다.

 

2. Object Detection in 20 years

A. Road Map of Object Detection

위 그림으로 보시다시피 deep learning이 세상에 나오기 기준으로 Traditional Detection Metods 와 Deep Learning based Detection methods로 나뉘게 됩니다. (2012)

본 논문에서는 VJ Det., HOG Det. , DPM. 등 여러 traditional detectors에 대해서 알려주고 있지만 본 리뷰에서는 딥러닝 기반으로하는 방법부터 이야기해보도록 하겠습니다.

 

딥러닝 기반으로하는 Object Detection은 CNN을 기반으로하는 Two-stage Detectors 와 One-stage Detectors로 나눌 수 있습니다. 

  • two -stage detectors 

: object가 있을 법한 위치의 후보(proposals) 들을 뽑아내는 단계와 이후 실제로 object가 있는지를 Classification과 정확한 바운딩 박스를 구하는 Regression을 수행하는 단계가 분리되어 있습니다

 

-> 기능 추가 없이도 높은 정밀도를 가지지만 two stage의 특성상 계산 속도가 느리다보니 실제 엔지니어링에서는 덜 쓰는 경향을 보이기도 합니다.

 

  • one - stage detectors

: 한 번에 모든 object를 검출하는 것을 말합니다. (two-stage에서 한 기능을 한꺼번에 계산)

-> 모바일 기기에서 실시간 및 쉬운 배포 기능을 갖추고 있으며 속도가 빠르다는 장점이 있습니다.

단, 밀집되어 있거나 작은 objects의 검출 시에는 성능이 확연하게 저하되는 단점이 있습니다.


첫번째로 CNN 기반으로하는 two stage detector들에 대해서 말하겠습니다.

 

i) RCNN

  • object detection을 위해서 "selective search"를 사용 -> 이를 통해서 object proposals 추출을 합니다.
  • 추출된 것을 기반한 일정한 크기의 이미지로 rescale합니다.
  • ImageNet에서 사전 학습된 CNN 모델에 공급되어 추출합니다.
  • 선형 SVM 분류기를 통해서 각 영역 내에 객체 여부 존재확인합니다. -> 이를 통해 객체 카테고리를 인식합니다.

==> RCNN은 VOC07에 높은 정밀도를 보였습니다. 단, 많은 수의 겹쳐진 object proposals 에서 reductant feature computations 발생이되어 검출속도가 느려지는 단점이 있습니다. 

 

 

ii) SPPNet

  • featured map은 이미지 전체에서 한 번만 계산하는 방법을 사용합니다.
  • 그 이후 임의 영역의 고정길이 표현을 생성하며 detectors를 학습시킵니다. 

이를 통해서 convolution 중복 계산을 피할 수 있어 검출속도를 높이면서 정확도를 유지할 수 있었습니다.

단, 여전히 muti-stage, fine-tune (이전 레이어들은 무시하고 FC layer만 미세조정)을 하는 단점이 있었습니다.

 

 

iii) Fast - RCNN

  • 하나의 Network 아래에서 detector와 bounding box regressor를 동시에 학습할 수 있게 합니다.

이를 통해서 속도와 정확도를 크게 확장시킬 수 있었습니다.

단, proposal detection speed는 여전히 한계점이 명확하게 있었습니다.

 

 

iv) Faster - RCNN

  • Fast RCNN 이후에 나온 첫번째 실시간 딥러닝 detector입니다.
  • RPN(Region Proposal Network)을 도입하며 가중치에 대한 비용이 거의 없는 region proposal이 가능하게 만들었습니다.

따라서 RCNN ~ Faster RCNN 까지 개별 block들이 하나로 통합되어 End-to-End learning 학습하는 Framework 진화를 보여주게 되었습니다.

속도 개선은 되었지만, 그래도 detection stage에서 계산 중복이 발생하는 문제점이 있었습니다.

 

 

v) FPNs (Feature Pyramid Networks)

※ 이전까지는 대부분의 딥러닝 object detection model은 네트워크의 최상위 레이어의 feature map만을 사용하여서 detection을 수행하였습니다. 

=> CNN의 deeper layer에 있는 특성들은 카테고리 인식에는 유용하였지만 localization 에서는 좋지 못하였습니다.

 

따라서 Top-Down 구조와 Lateral Connection을 기반으로 모든 scale에서 고수준 sematics 구축하도록 개발하였습니다.

==> CNN 은 featured - propagation을 통해서 자연스럽게 특성 피라미드를 형성하였습니다. (FPN)

FPN은 다양한 크기의 객체를 검출하는데에 있어 큰 발전을 이룰 수 있게 되었습니다.

 


두번째로 CNN을 기반으로 하는 one-stage Detector에 대해서 설명을 하겠습니다.

 

i) YOLO (You Only Look Once)

  • 딥러닝 시대에서 최초로 나온 one - stage detector입니다.
  • 하나의 신경망을 전체 이미지에 적용시킨 기술입니다. -> 이 신경망은 이미지 영역으로 분할되고, 경계들과 확률을 동시에 예측하는 특징을 가지고 있습니다.

검출속도가 확실히 빠르다는 장점은 있지만 작은 영역에서의 검출에서는 정확도가 떨어지는 단점이 생겼습니다.

 

 

ii) SSD (Single - Shot Multibox Detector)

  • SSD의 주요 기여는 multi-reference (다중 참조) and multi-resolution detection techniques (다중 검출 기술 도입)입니다. -> 이는 작은 객체에서의 detector의 정확도를 높이는 기능을 가지게 되었습니다.

따라서, SSD가 다른 네트워크의 다른 레이어에서 다른 크기의 객체를 검출하였습니다. (이전에는 최상위 레이어에서만 검출을 하였습니다.)

 

 

iii) RetinaNet

  • dense한 object를 감지하는 detector 학습 중에서 마주치는 극단적인 전경-배경 클래스의 불균형이 주요 원인으로 정확도가 내려가는 것을 확인하여, RetinaNet은 표준 크로스 엔트로피 loss function을 재구성하였습니다.
  • detector 학습 중 잘못 분류된 어려운 예제에 더 많은 초점을 두는 "focal loss"라는 loss function을 도입하였습니다.

(※ focal loss : one-stage detector가 매우 높은 감지 속도를 유지하면서도 two - stage detector와 유사한 정확도를 달성 가능하게 합니다.)

 

 

iv) CornerNet

  • 과거의 object detection 방법은 대부분 anchor box를 이용하여서 classification & regression reference를 제공하였습니다.
  • 그러나 객체는 수, 위치, 크기, 비율 등 다양한 파라미터의 변화로 인해 많은 reference box들이 설정하여 ground truths와 최대한 일치시켜야만 했습니다.
  • 이때문에 Network가 카테고리 불균형 문제가 생기고 수많은 hyper parameter들이 생겼습니다. 또한 long convergence 문제까지 야기되었습니다.

따라서 이전 detection 패러다임을 버리고 object detection은 keypoint 예측 문제로 해결방법을 제시하였습니다.

  • 먼저 keypoint를 예측합니다.
  • 후에 추가적인 embedding information을 이용하여서 keypoint를 분리합니다.
  • 다시 group화를 하여 bounding box를 생성합니다.

 

V) CenterNet

  • CornerNet, ExtremeNet과 같이 그룹기반 keypoint 할당 및 NMS와 같은 cost가 많이 드는 후처리방식을 제거하고 End-to-End 검출 네트워크를 사용하게합니다.
  • CenterNet은 객체를 단일 point로 간주하여 중심점 기반으로 크기, 방향, 위치, 자세 등 모든 속성을 regress시킵니다.
  • 이 모델은 간결하기 때문에 3D detection, human pose 측정, optimal flow learning, depth 추정 등 작업을 하나의 framework로 통합시킬 수 있는 장점이 있습니다. 

Vi) DETR (Detection Transformer)

 

※Transformer는 Convolution 연산의 한계를 극복하고, global-scale receptive field (전역적인 수용 영역)을 얻기 위해서 Transformer는 전통적인 Convolution 연산 대신, "attention - alone 계산" 만을 이용합니다.

 

: object detection을 set prediction problem으로 인식합니다. -> Transformer로 활용한 End-to-End detection network를 제안하게 됩니다. ==> 이를 통해 anchor box나 anchor point 없이도 object detection이 가능하게 할 수 있었습니다.

(이후, Deformable DETR이 나와 수렴 시간 및 작은 물체 감지 능력을 개선시키고 정확도 성능도 개선시켰습니다.)

 


B. Object Detection Dataset and Metrics

Dataset (데이터셋)

: 적은 bias를 가진 대규모 dataset을 구축하는 것은 advanced detection algorithm 개발에 필수적입니다.

PASCAL, ILSVL(ImageNet Large Scale Visual Recognition), MS-COCO, Open-Image 등 데이터 셋이 있습니다.

(특히 MS-COCO는 object detection community에서 표준 데이터 셋으로 사용하고 있습니다.)

 

 

Metrics

object detector의 정확도 평가가 필요합니다. 이에 따라 시간에 따라 평가 기준이 달라질 수 있습니다.

(초기에는 false - positive per windows (FPPW) 기준을 적용하였지만 윈도우 단위 측정에 결함 가능성 문제가 있었습니다)

최근에는 Average - Precision (AP : 평균 정밀도)를 사용해서 모든 범주에 대해서 평균화된 mAP가 성능 지표로 사용하고 있습니다.

 

  • predicted box와 ground truth 사이의 IoU (intersection over Union)가 미리 정의된 임계값 (약 0.5)보다 큰지 판단합니다. 만약 크다면 객체는 "detected"로 간주하고 아니면 "missed"라고 판단합니다.

※ 각 Dataset의 AP가 있는데 무조건 고정적인 것은 아닙니다. MS-COCO AP일 경우에는 0.5 ~ 0.95 사이의 IoU 임계점을 평균차로 두어 정확성을 높이고 있습니다.


C. Technical Evolution in Object Detection (object detection system의 구성요소, 기술발전 소개)

1. design model에서 multiscale (다중스케일) 및 context priming

2. 학습과정에서의 sample 선택 전략 및 loss function 디자인

3. 추론 단계에서 NMS (Non - Maximum Suppression)

순서로 설명을 하겠습니다.

 


C-1 ) Technical Evolution of Multiscal Detection

object detection에서 "different size" , "different aspect ratios"를 가진 물체를 다중 스케일로 검출하는 것을 목표로 합니다.

i) Feature Pyramids + Sliding Windows

: VJ detector 이후, 더 직관적인 detection 방법을 위해서 사용되었습니다. HOG, DPM 등의 detector들과 같은 detector들이 만들어졌습니다.

 

+) 이후 feautre pyramid 방법에서는 "mixed model"이란 solution을 개발하여서 다양한 different aspect ratio를 가진 객체들에 대해서 여러 detection을 시키는 방식을 도입하였습니다.

+) exampled - based detection 방법으로 객체 instance model에 대해서 학습 시키는 것으로 다른 solution도 제시했습니다.

 

 

ii) Detection with Object proposal

object proposal 이란 어떤 객체를 포함할 가능성이 높은 클래스에 대한 reference boxes들의 그룹을 말합니다.

=> object proposal을 사용하는 detection은 이미지 전체에서 수많은 sliding window 검색을 피하는데 도움을 줍니다.

 

(초창기는 bottom-up method를 사용했지만 2014년 이후, deep-CNN 인기상승을 통해서 bottom up 방식이 이 문제에 더 유용하다는 것을 사람들이 깨닫게 되었습니다.)

따라서 현재는 proposal detection은 점차적으로 사라지고 one-stage detector가 증가됨을 볼 수 있습니다.

 

 

iii) Deep Regression and Anchor - Free Detection

=> 딥러닝을 활용한 multiscale 문제 해결이 더 쉬워지게 되었습니다. 따라서 딥러닝 기반으로 bounding box의 좌표를 직접 예측하는 기술이 나왔습니다.

 

(2018년 이후, keypoint를 이용한 object detection이 나왔다고 앞서 소개한바가 있습니다.)

keypoint를 이용한 객체검출은 2가지 방식이 있습니다.

1. keypoint (코너, 중심, 대표점 등) 을 detection and grouping [ group-based ]

2. object를 하나 혹은 여러 점으로 간주하고 object 속성 (크기, 비율)을 회귀 [Group - free ]

 

 

iv) Multireference / Multiresolution Detection

: Multireference detection은 multiscale detection에 가장 많이 사용됩니다.

-> 1. 각 이미지 위치에서 reference set (boxes와 point 포함)을 정의합니다. -> 2. reference 기반으로 detection box를 예측합니다.

 

: Multiresolution detection도 앞선 기술처럼 많이 사용합니다.

-> 네트워크의 서로 다른 레이어에서 서로 다른 scale의 object를 detection합니다.

 


C-2 ) Technical Evolution of Context Priming

우리의 뇌는 개체와 환경 간 연관성을 통해서 시각적 인식 및 인지를 용이하게 만들기 때문에 이의 특성을 이용해서 만든 context priming에 대해서 소개해드리겠습니다.

 

i) Detection with Local Context

Local Context란 detection 대상 object를 둘러싼 시각 정보를 의미합니다.

-> 객체 주변에 배경을 살짝 입히는 것이 우리가 원하는 객체의 검출이 더 쉽다는 것을 알 수 있습니다. (ex. 보행자 검출)

+) 최근 딥러닝 기반 detectors는 네트워크 수용영역과 object proposal size를 확대하여 local text를 개선하였습니다.

 

ii) Detection with Global Context

Global Context란 object detection에 대한 추가정보로 장면 구성에서 활용되고 있습니다.

(초기에는 Gist라는 장면 구성요소의 통계 요약 통합 방법을 사용하였습니다.)

 

최근에는 deep convolution , dilated convolution, deformable convolution, pooling operation 등을 이용한 큰 수용 영역을 통해서 입력이미지보다 더 크게 얻었습니다.

단, 현재 attention - based 메커지늠을 통해서 'non-local' , 'transformer'을 적용하여 전체이미지 수용 영역을 얻으려는 가능성을 탐색하고 있습니다.

 

global context를 일종의 순차적인 정보로 간주하고 recurrent neural network를 사용하기도 합니다.

 

iii) Context Iteractive

: 시각적 요소 간의 제약 및 종속성을 나타냅니다.

1. 개별 object 간의 관계를 탐색

2. object 와 scene 간의 종속성을 탐색


C-3) Technical Evolution of Hard Negative Mining

: object detecion의 detectors를 학습시키는 것은 "불균형 학습 문제"(imbalanced learning problem)이라고 할 수 있습니다.

ex) Sliding window 경우 scene : object = 10^7 : 1 경우도 있습니다. (불균형이 심각)

 

따라서 많은 negative example에 의해서 학습에 해를 끼쳐 모든 배경을 사용하는 것이 옳은 방법은 아닙니다.

=> 이때 HNM (Hard Negative Mining)을 solution으로 사용합니다

 

i) Bootstrap

: 학습을 작은 배경의 일부분으로 시작하여 새로운 잘못 분류된 샘플을 반복적으로 추가하는 학습 기술입니다.

 

ii) HNM in Deep Learning - Based Detectors

 

※Faster RCNN, YOLO 등의 detectors는 positive / negative window 간의 가중치를 단순하게 균형을 맞췄습니다.

당시는 Bootstrap을 폐기하였지만 이런 해결방법으로는 완벽하게 불균형 문제에 해결이 안된다는 것을 깨달아

2016년 이후에는 Bootstrap을 재도입하였습니다.

 

-> 다른 개선 방법은 표준 교차 엔트로피 손실을 재조정하여서 잘못 분류된 example에 더 초점을 들 수 있는 new loss function을 설계하는 것입니다.

 


C-4) Technical Evolution of Loss Function

Loss Function : 모델이 데이터와 얼마나 일치하는지를 측정합니다. -> 모델의 예측값 / 실제 라벨값 사이의 차이를 계산하여서 구합니다.

=> 모델의 가중치로 인해 Gradient를 계산하고 backpropagation을 통해서 가중치를 업데이트하는 feedback방식을 사용합니다.

Object Detection 문제에서 "classification loss" 와 "Localization loss"가 모델 학습을 supervise하는데 사용됩니다.

( L_cls : classification loss , L_loc : Localization loss)

 

여기서 Classification Loss는 Model이 객체가 이미지 내에서 '존재하는지 여부'를 정확하게 예측하는 정확도 측정입니다.

Localization Loss는 모델이 객체가 이미지 내에서 '어디 있는지 정확하게' 예측하는데 정확도 측정을 합니다.


C-5) Technical Evolution of Non - Maximum Suppression (NMS)

  • NMS는 겹치는 bounding box를 제거하고, detection 결과를 얻기 위하여 후처리로 사용하였습니다.
  • (옛날에는 object detection 시스템이 원하는 출력이 명확하게 나오지 않아서 NMS통합이 항상 된 것이 아니였습니다.)

 

i) Greedy selection

: 오래됐지만 가장 보편적인 방법입니다. (simple & intuitive하기 때문에)

-> 겹치는 detection들의 집합에서 가장 score가 높은 bounding box가 선택되고, 정의된 overlap 임계값에 따라 이웃 box를 제거하는 방법입니다.

 

단, 가장 높은 점수를 받은 box가 optimal이 아닐 가능성이 존재하였고, 주변 object를 억제하기도 하였으며, false positive를 억제할 수 없다는 단점이 존재하였습니다.

 

 

ii) Bounding Box aggregation [VJ Detector, ILSVRC-3 등 사용]

여러개의 bounding box가 겹치면 하나의 최종 detection으로 결합 및 클러스팅을 합니다.

따라서 object 간의 관계나 공간 레이아웃을 고려하는 방법입니다.

 

 

iii) Learning Based NMS

NMS를 raw detections을 다시 rescore하는 필터로 생각하고, NMS 네트워크의 일부로 학습하거나 NMS 동작을 모방하는 net 훈련을 합니다.

(이는 밀집되거나 가려진 object를 detection하는데 용이했습니다.)

 

iv) NMS - Free Detector

-> NMS를 넘어 End-to-End object Detection training network를 달성하기 위해서 개발된 일련의 방법입니다.

(하나의 preict box에 하나의 object만 사용하여서 고퀄리티 box-train을 시키는 것을 목표로 합니다.)

이는 인간 시각 체계와 가장 유사한 방법입니다.

 

 


 

3. SPEED UP OF DETECTION

: "detection pipline", "detector backbone", "numerical computation" 3가지를 그룹으로 Detection 속도 향상 기술이라고 말할 수 있습니다.

A. Feature Map Shared Computation

feature extraction은 단계들 중에서 계산량이 가장 많습니다.

따라서 계산 중복을 줄이기 위해서 전체 이미지의 feature Map을 한 번만 계산하였습니다.

 

 

B. Cascade Detection

coarse-to-fine detection을 사용하여서, 가장 간단한 background window를 필터링합니다.

-> 복잡한 계산을 통해서 더 어려운 윈도우를 처리합니다. (ex. 얼굴 검출, 보행자 검출)

 

 

C. Network Pruning and Quantification

: CNN 속도를 높이기 위해서 사용되는 방법 2가지가 있습니다.

  •  Network Pruning : 직역하자면 네트워크 가지치기로 학습단계 후에 중요하지 않은 작은 그룹의 가중치를 제거 후 이를 반복하는 과정을 가집니다.
  • Network Quantification : 네트워크 이진화로 가중치를 이진 변수 ( 0 or 1)로 양자화하여 부동 소수점 연산을 논리 연산으로 변환하는 것을 목표로 속도를 높입니다.

 

 

D. Lightweight Network Design (network 경량화)

: Channel 을 줄이고 더 많은 layer를 사용하는 것 외에도 몇가지 방법으로 네트워크를 경량화 시킬 수 있습니다.

 

i) Factorizing Convolution (인자분해)

  • big convolution filter를 small filter 로 factorize시킵니다. 
  • Channel dimension에서 convolution을 factorize 시킵니다.

 

ii) Group Convolution

: 특정 channel을 서로 다른 그룹으로 나누어 각 그룹에 대해 독립적으로 convolution 수행합니다.

(convolution 매개변수를 줄이는 걸 목표로 합니다)

 

 

iii) Depthwise Separable Convolution (깊이별 분기 convolution)

: Group 수를 Channel 수와 같게 설정 시 group convolution의 특수한 경우로 볼 수 있습니다.

원래 1x1 Filter의 개수 사용으로 dimension transform을 진행하여 O(dk^2c) 복잡도를 나타냈습니다.

-> depthwise separable convolution 사용시 O(ck^2) + O(dc)로 계산량을 감소시킬 수 있습니다.

 

 

iv) Bottle - Neck Design 

: 애초에 노드를 적게 포함하여 detector의 input layer를 얇게 만들어 계산량을 감소하는 방법입니다. 

+ feature map 두께를 얇게 만들어 검출 속도를 높게 만듭니다.

 

 

V) Detection with NAS (Neural Architecture Search)

NAS란 후보 네트워크의 적절한 공간을 정의하고 빠르고 정확하게 검색하는 전략을 개선한 것으로 낮은 비용으로 검색 결과를 검증하는 것에 초점을 둔 기술입니다.

(anchor box나 work backbone에서 사람의 개입이 적게 들어간다는 특징이 있습니다.)

 

 


 

4. RECNT ADVANCES IN OBJECT DETECTION

A. Beyond Sliding Window Detection

:object detection을 짝 지은 keypoint 위치 추정 문제로 대체되는 것을 설명합니다.

객체의 상단 왼쪽 모서리와 하단 오른쪽 모서리를 keypoint로 간주합니다. (객체를 하나하나 그룹화할 필요는 없습니다.)

-> 이 방법을 적용한 Model은 DETR가 있습니다.

 

 

B. Robust Detection of Rotation and Scale Changes

object의 회전 or 스케일 변화에 강력하게 대응하는 기술을 개발하였습니다.

=> object의 회전 불변성을 유지하는 loss function을 사용하거나,  객체 후보들의 기하학적인 변화를 학습 , 또는 ROI pooling을 극좌표계로 사용하는 기술입니다.

 

C. Detection with Better Backbone

object detection에서 정확도 및 속도는 feature extraction 즉, backbone의 영향력이 큽니다.

(ResNet, CSPNet, Swim Transformer 등 backbone 사용을 많이 하고 영향이 그만큼 큽니다)

 

Transformer로 더욱 강력한 feature extraction 능력을 가졌습니다 => 이에 따라 transformer - based detection 기법도 많이 사용하게 됐습니다.

 

 

D. Improvements of Localization

Localization 정확도를 향상시키기 위한 2가지 그룹의 방법이 있습니다.

  • Bounding Box Refinement

: 검출결과를 반복 후 Bounding Box에 저장하고, regressor에 입력하여 예측이 올바른 위치에, 크기로 되는지 반복합니다.

  • New Loss Function for Accurate Localization

: Localization 손실로 직접 IoU를 사용하고 확률 추론 framework에서 개선 방안을 만듭니다. 

(bounding box 위치의 확률 분포를 예측합니다)

 

 

E. Adversarial Training

: GAN (generative adversarial network)를 사용하여 객체의 특성을 향상시켜 작은 객체와 큰 객체간의 표현을 줄이는 방법이 있습니다.

 

 

F. Weakly Supervised Object Detection (WSOD)

bounding box 대신 image-level annotatins을 사용하여서 detectors 학습 -> 데이터 주석에 대한 의존성 줄이는 기술입니다.

 

 

G. Detection with Domain Adaption

원본 domain과 대상 domain의 격차를 줄이기 위해서 사용하는 기술입니다.

불변적인 특징을 얻기 위해서 이미지, 카테고리 혹은 객체 수준에서 특징 규제 및 GAN 기반 학습 방법 연구가 필요합니다.

 


 

5. CONCLUSION

본 논문에서 기술의 역사, 중요기술, 속도 향상 방법, 데이터 셋 측정 항목에 대해서 설명하였습니다.

추가적으로 유망한 연구방향 몇가지를 설명하자면 다음과 같습니다.

 

  • Lightweight Object Detection
  • End-to-End Object Detection
  • Small Object Detection
  • 3D Object Detection
  • Detection in Videos
  • Cross - Modality Detection
  • Toward Open-World Detection
LIST