DINOv2: Learning Robust Visual Features without Supervision - Apprentissage de modèles visuels à partir de données massives Accéder directement au contenu
Pré-Publication, Document De Travail Année : 2023

DINOv2: Learning Robust Visual Features without Supervision

Maxime Oquab
  • Fonction : Auteur
Huy Vo
  • Fonction : Auteur
Marc Szafraniec
  • Fonction : Auteur
Vasil Khalidov
  • Fonction : Auteur
Daniel Haziza
  • Fonction : Auteur
Francisco Massa
  • Fonction : Auteur
Alaaeldin El-Nouby
  • Fonction : Auteur
Mahmoud Assran
  • Fonction : Auteur
Nicolas Ballas
  • Fonction : Auteur
Wojciech Galuba
  • Fonction : Auteur
Russell Howes
  • Fonction : Auteur
Po-Yao Huang
  • Fonction : Auteur
Shang-Wen Li
  • Fonction : Auteur
Ishan Misra
  • Fonction : Auteur
Michael Rabbat
  • Fonction : Auteur
Vasu Sharma
  • Fonction : Auteur
Gabriel Synnaeve
  • Fonction : Auteur
Hu Xu
  • Fonction : Auteur
Hervé Jegou
  • Fonction : Auteur
Patrick Labatut
  • Fonction : Auteur
Armand Joulin
  • Fonction : Auteur
Piotr Bojanowski
  • Fonction : Auteur

Résumé

The recent breakthroughs in natural language processing for model pretraining on large quantities of data have opened the way for similar foundation models in computer vision. These models could greatly simplify the use of images in any system by producing all-purpose visual features, i.e., features that work across image distributions and tasks without finetuning. This work shows that existing pretraining methods, especially self-supervised methods, can produce such features if trained on enough curated data from diverse sources. We revisit existing approaches and combine different techniques to scale our pretraining in terms of data and model size. Most of the technical contributions aim at accelerating and stabilizing the training at scale. In terms of data, we propose an automatic pipeline to build a dedicated, diverse, and curated image dataset instead of uncurated data, as typically done in the self-supervised literature. In terms of models, we train a ViT model (Dosovitskiy et al., 2020) with 1B parameters and distill it into a series of smaller models that surpass the best available all-purpose features, OpenCLIP (Ilharco et al., 2021) on most of the benchmarks at image and pixel levels.
Fichier principal
Vignette du fichier
CVPR_2023_dinov2 (4).pdf (7.31 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

hal-04376640 , version 1 (06-01-2024)
hal-04376640 , version 2 (02-02-2024)

Licence

Paternité

Identifiants

Citer

Maxime Oquab, Timothée Darcet, Théo Moutakanni, Huy Vo, Marc Szafraniec, et al.. DINOv2: Learning Robust Visual Features without Supervision. 2024. ⟨hal-04376640v2⟩
66 Consultations
33 Téléchargements

Altmetric

Partager

Gmail Facebook X LinkedIn More