본문 바로가기
AI Paper Review

[논문 리뷰] Computer Vision - YOLOv9: 물체 감지 기술의 도약

by coding-choonsik 2024. 3. 6.
728x90
반응형
SMALL

📃 논문 

 

YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information

Today's deep learning methods focus on how to design the most appropriate objective functions so that the prediction results of the model can be closest to the ground truth. Meanwhile, an appropriate architecture that can facilitate acquisition of enough i

arxiv.org

🔮 Github

 

GitHub - WongKinYiu/yolov9: Implementation of paper - YOLOv9: Learning What You Want to Learn Using Programmable Gradient Inform

Implementation of paper - YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information - WongKinYiu/yolov9

github.com

📌 YOLOv1 논문 바로가기

 

[논문 리뷰] Computer Vision - YOLO(You Only Look Once:Unified, Real-Time Object Detection)

📃 논문 https://arxiv.org/pdf/1506.02640.pdf 2-stage detector는 localization과 classification을 수행하는 network 혹은 컴포넌트가 분리되어 있음(ex. Fast R-CNN) 각 task가 순차적으로 진행되는 것을 의미하며, 이러한

coding-yesung.tistory.com


Preview

YOLOv9: 프로그래밍 가능한 그라데이션 정보를 사용하여 원하는 내용 학습

  • 기존 딥러닝 아키텍쳐는 입력 데이터가 레이어별로 특징 추출 및 공간 변환을 거치면 많은 양의 정보가 손실된다는 사실을 무시함
  • 본 논문에서는 딥 네트워크를 통해 데이터를 전송할 때 발생하는 데이터 손실의 중요한 문제, 즉 정보 병목 현상과 가역 기능에 대해 소개
  • PGI(Programmable Gradient Information), GELAN(Generalized Efficient Layer Aggregation Network) 아키텍처

Problems

 

1. Information 병목 현상

  • 데이터가 통과하는 각 레이어에서 정보 손실 가능성이 증가하고 예측 대상에 대한 불완전한 정보로 인해 잠재적으로 신뢰할 수 없는 기울기네트워크 수렴이 저하될 수 있음
  • 이 문제를 완화하기 위해 제안된 솔루션 중 하나는 더 많은 매개변수로 모델을 확대하여 보다 포괄적인 데이터 변환을 허용하고 정확한 대상 매핑을 위한 충분한 정보를 유지할 가능성을 높이는 것
  • 그러나 이 접근 방식은 매우 깊은 네트워크에서 신뢰할 수 없는 기울기의 근본적인 문제를 해결하지 못함.
  • 저자는 네트워크 계층을 통해 필수 데이터를 보존하여 더 나은 수렴을 달성하는 것을 목표로 네트워크 전체에서 정보 무결성을 유지하기 위한 잠재적인 솔루션으로 가역 기능(Reversible Functions)을 탐색할 것을 제안

2. Reversible Functions(가역적 기능)

  • 가역 함수의 개념은 함수와 그 역함수가 정보 손실 없이 데이터를 변환할 수 있음을 의미
  • PreAct ResNet과 같은 아키텍처에 적용되어 데이터가 손실 없이 레이어를 통과하도록 보장하여 심층 네트워크 수렴을 지원하지만, 복잡한 문제를 해결하는 데 있어 깊이의 장점을 손상시킬 수 있음
  • 목표는 모델 업데이트를 위해 신뢰할 수 있는 기울기를 생성하고 얕은 신경망과 경량 신경망 모두에서 실행 가능한 새로운 훈련 방법을 개발하여 데이터 변환 중 상당한 정보 손실이라는 핵심 문제를 해결하는 것

Approach

1. PGI(Programmable Gradient Information)

 

PGI의 구성요소 3가지

1. 추가 비용 없이 추론을 위한 기본 분기(main branch)

2. 네트워크 깊이의 영향에 대응하기 위한 보조 가역 분기(auxiliary reversible branch)

3. Deep supervision에서 오류 누적을 완화하기 위한 multi-level 보조 정보 및 여러 예측 분기가 있는 경량 모델

 

Auxiliary Reversible Branch

  • 데이터에서 대상까지 완전한 정보 흐름을 유지하여 불완전한 기능으로 인한 잘못된 상관 관계의 위험을 완화하는 데 도움이 됨
  • 그러나 가역적 아키텍처를 메인 브랜치와 통합하면 추론 비용이 크게 증가
  • 이에 대응하기 위해 PGI는 가역 브랜치(reversible branch)를 Deep supervision의 확장으로 간주하여 완전한 원본 데이터를 유지할 필요 없이 관련 정보를 캡처할 수 있는 메인 브랜치의 능력을 향상
효과적인 매개변수 학습과 더 얕은 네트워크에 적용할 수 있음.
✅ 추론 중에 보조 가역 분기를 생략하여 네트워크의 원래 추론 효율성을 보존할 수 있다는 것

 

Multi-level Auxiliary Information

  • 다양한 크기의 객체를 감지하기 위해 여러 예측 분기와 feature pyramid 를 사용하는 객체 감지 작업에서 Deep supervision 아키텍처의 정보 손실을 해결하는 것을 목표 
  • feature pyramid  레이어와 기본 분기 사이의 네트워크를 통합하여 다양한 예측 헤드의 그래디언트 정보를 병합
  • 이러한 통합을 통해 각 feature pyramid 는 포괄적인 대상 개체 정보를 전달받아 기본 분기가 다양한 대상에 대한 예측 학습을 위한 완전한 정보를 유지할 수 있도록 함
  • 모든 대상 객체에 대한 데이터가 포함된 그래디언트 정보를 집계함으로써 메인 브랜치의 학습이 특정 객체 정보로 치우치지 않아 Deep supervision 시 정보가 단편화되는 문제를 완화

 

2. GELAN(Generalized Efficient Layer Aggregation Network )

  • GELAN은 전략적으로 아키텍처를 발전시켜 YOLOv9이 뛰어난 파라미터 활용도와 계산 효율성을 달성할 수 있게함.
  • 다양한 계산 블록을 유연하게 통합할 수 있도록 설계되어 속도나 정확도를 저하시키지 않으면서도 다양한 애플리케이션에 적용 가능

 


Experiments

  • YOLOv9는 다양한 모델 크기에서 기존 실시간 객체 감지기보다 성능이 뛰어나며 더 적은 매개변수와 감소된 계산 요구 사항으로 더 높은 정확도를 달성
  • 구체적으로 YOLOv9는 매개변수 효율성과 정확성 측면에서 YOLO MS와 같은 경량 및 중형 모델을 능가하고 훨씬 적은 매개변수와 계산으로 YOLOv7 AF와 같은 일반 모델의 성능과 일치하며 효율성과 정확성 모두에서 대형 모델 YOLOv8-X를 능가

  • 깊이별 Convolution이나 ImageNet 사전 훈련을 사용하는 모델과 비교할 때 YOLOv9는 뛰어난 매개변수 활용도와 계산 효율성을 보여줌
  • 특히 심층 모델에서 YOLOv9의 성공은 PGI임 
  • PGI는 데이터 대상 매핑을 위한 중요한 정보를 유지 및 추출하는 기능을 향상시켜 더 낮은 매개변수 및 계산 요구 사항을 유지하면서 성능을 향상시키기 때문

  • CSP 블록은 특히 효과적인 것으로 나타나는데, 매개변수를 줄이고 정확도를 향상시켜 성능을 향상시켜 YOLOv9에서 GELAN을 선택하게 됨
  • GELAN의 성능은 블록 깊이에 크게 민감하지 않으므로 안정성을 저하시키지 않으면서 유연한 아키텍처 설계가 가능
  • PGI의 보조 supervision을 Deep supervision 개념에 적용하면 특히 심층 모델에서 상당한 개선이 나타남

 

 

728x90
반응형
LIST