DINOv2: Learning Robust Visual Features without Supervision

Maxime Oquab; Timothée Darcet; Théo Moutakanni; Huy Vo; Marc Szafraniec; Vasil Khalidov; Pierre Fernandez; Daniel Haziza; Francisco Massa; Alaaeldin El-Nouby; Mahmoud Assran; Nicolas Ballas; Wojciech Galuba; Russell Howes; Po-Yao Huang; Shang-Wen Li; Ishan Misra; Michael Rabbat; Vasu Sharma; Gabriel Synnaeve; Hu Xu; Hervé Jegou; Julien Mairal; Patrick Labatut; Armand Joulin; Piotr Bojanowski

doi:10.48550/arxiv.2304.07193

Pré-Publication, Document De Travail Année : 2023

DINOv2: Learning Robust Visual Features without Supervision

(1) , (2, 1) , (3, 4, 1) , (1) , (1) , (1) , (5, 1) , (1) , (1) , (1) , (1) , (1) , (1) , (1) , (1) , (1) , (1) , (1) , (1) , (1) , (1) , (1) , (2) , (1) , (1) , (1)

1
2
3
4
5

Maxime Oquab

Fonction : Auteur

Meta AI

Timothée Darcet

Fonction : Auteur

Apprentissage de modèles à partir de données massives

Meta AI

Théo Moutakanni

Fonction : Auteur
PersonId : 1331045
IdHAL : theo-moutakanni

CentraleSupélec

Université Paris-Saclay

Meta AI

Huy Vo

Fonction : Auteur

Meta AI

Marc Szafraniec

Fonction : Auteur

Meta AI

Vasil Khalidov

Fonction : Auteur

Meta AI

Pierre Fernandez

Fonction : Auteur

Creating and exploiting explicit links between multimedia fragments

Meta AI

Daniel Haziza

Fonction : Auteur

Meta AI

Francisco Massa

Fonction : Auteur

Meta AI

Alaaeldin El-Nouby

Fonction : Auteur

Meta AI

Mahmoud Assran

Fonction : Auteur

Meta AI

Nicolas Ballas

Fonction : Auteur

Meta AI

Wojciech Galuba

Fonction : Auteur

Meta AI

Russell Howes

Fonction : Auteur

Meta AI

Po-Yao Huang

Fonction : Auteur

Meta AI

Shang-Wen Li

Fonction : Auteur

Meta AI

Ishan Misra

Fonction : Auteur

Meta AI

Michael Rabbat

Fonction : Auteur

Meta AI

Vasu Sharma

Fonction : Auteur

Meta AI

Gabriel Synnaeve

Fonction : Auteur

Meta AI

Hu Xu

Fonction : Auteur

Meta AI

Hervé Jegou

Fonction : Auteur

Meta AI

Julien Mairal

Fonction : Auteur

Apprentissage de modèles à partir de données massives

Patrick Labatut

Fonction : Auteur

Meta AI

Armand Joulin

Fonction : Auteur

Meta AI

Piotr Bojanowski

Fonction : Auteur

Meta AI

Résumé

The recent breakthroughs in natural language processing for model pretraining on large quantities of data have opened the way for similar foundation models in computer vision. These models could greatly simplify the use of images in any system by producing all-purpose visual features, i.e., features that work across image distributions and tasks without finetuning. This work shows that existing pretraining methods, especially self-supervised methods, can produce such features if trained on enough curated data from diverse sources. We revisit existing approaches and combine different techniques to scale our pretraining in terms of data and model size. Most of the technical contributions aim at accelerating and stabilizing the training at scale. In terms of data, we propose an automatic pipeline to build a dedicated, diverse, and curated image dataset instead of uncurated data, as typically done in the self-supervised literature. In terms of models, we train a ViT model (Dosovitskiy et al., 2020) with 1B parameters and distill it into a series of smaller models that surpass the best available all-purpose features, OpenCLIP (Ilharco et al., 2021) on most of the benchmarks at image and pixel levels.

Mots clés

Computer Vision and Pattern Recognition (cs.CV) FOS: Computer and information sciences

Domaines

Vision par ordinateur et reconnaissance de formes [cs.CV] Intelligence artificielle [cs.AI]

Fichier principal

CVPR_2023_dinov2 (4).pdf (7.31 Mo)

Origine : Fichiers produits par l'(les) auteur(s)

Timothée Darcet : Connectez-vous pour contacter le contributeur

https://hal.science/hal-04376640

Soumis le : vendredi 2 février 2024-15:01:56

Dernière modification le : vendredi 26 avril 2024-16:36:59

Dates et versions

hal-04376640 , version 1 (06-01-2024)

hal-04376640 , version 2 (02-02-2024)

Licence

Paternité

Identifiants

HAL Id : hal-04376640 , version 2
ARXIV : 2304.07193
DOI : 10.48550/arxiv.2304.07193

Citer

Maxime Oquab, Timothée Darcet, Théo Moutakanni, Huy Vo, Marc Szafraniec, et al.. DINOv2: Learning Robust Visual Features without Supervision. 2024. ⟨hal-04376640v2⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UNIV-RENNES1 UGA CNRS INRIA INSA-RENNES IRISA INSMI LJK LJK_GI CENTRALESUPELEC INRIA2 LJK-GI-THOTH UR1-MATH-STIC UNIV-PARIS-SACLAY UR1-UFR-ISTIC UNIV-RENNES UR1-MATH-NUM

66 Consultations

33 Téléchargements

DINOv2: Learning Robust Visual Features without Supervision

Résumé

Mots clés

Domaines

Dates et versions

Licence

Identifiants

Citer

Exporter

Collections

Altmetric

Partager