A Complex Wavelet Approach for Shift-Invariant Convolutional Neural Networks - Apprentissage de modèles visuels à partir de données massives Accéder directement au contenu
Thèse Année : 2023

A Complex Wavelet Approach for Shift-Invariant Convolutional Neural Networks

Ondelettes Complexes pour des Réseaux de Neurones Convolutifs Invariants par Translation

Hubert Leterme

Résumé

Despite significant advancements in computer vision over the past decade, convolutional neural networks (CNNs) still suffer from a lack of mathematical understanding. In particular, stability properties with respect to small transformations such as translations, rotations, scaling or deformations are only partially understood. While there is a broad literature on this topic, some gaps remain, specifically with regards to the combined effect of convolution and max pooling layers in producing near shift-invariant feature representations. This property is of utmost importance for classification, since two shifted versions of a single input image are expected to receive the same label.It is well-known that subsampled convolutions with band-pass filters are prone to producing unstable image representations when inputs are shifted by a few pixels. The first contribution of this thesis consists in proving that a nonlinear max pooling operator can partially restore shift invariance. By applying results from the wavelet theory, and adopting a probabilistic point of view, we reveal a similarity between the max pooling of real-valued convolutions, as implemented in conventional architectures, and the modulus of complex-valued convolutions, for which a measure of shift invariance is established.However, for specific filter frequencies, this similarity is lost, and CNNs become unstable to translations. This phenomenon, known as aliasing, can be avoided by employing additional low-pass filters in strategic locations of the network architecture, as several authors have done in recent years. While their methods effectively increase both shift invariance and prediction accuracy, they come at the cost of significant loss of high-frequency information. As a second contribution, we present a novel antialiasing method which, unlike previous methods, preserves this information. Relying on our theoretical study, the key idea is to exploit the properties of complex convolutions to guarantee near-shift invariance for any filter frequency.By adding an imaginary part to high-frequency kernels and replacing the max pooling layer with a simple modulus operator, we empirically evidence an increase in the network's stability and a lower error rate compared to previous approaches based on low-pass filtering.In conclusion, the aim of this thesis is twofold: improving the mathematical understanding of CNNs from the perspective of shift invariance, and improving the tradeoff between stability and information preserving, based on our theoretical contribution which is grounded in wavelet theory. Our findings thus have the potential to positively impact various applications of computer vision, especially in fields that require theoretical guarantees.
Malgré des progrès spectaculaires en vision par ordinateur au cours de la dernière décennie, les réseaux de neurones convolutifs (CNN) souffrent toujours d'un faible niveau de compréhension mathématique. En particulier, les propriétés de stabilité vis-à-vis de petites transformations (translations, rotations, mises à l'échelle, déformations) ne sont que partiellement comprises. Bien qu'il existe une vaste littérature sur ce sujet, certaines lacunes subsistent, notamment concernant l'effet combiné des couches de convolution et de max pooling dans la génération de représentations quasi-invariantes. Cette propriété est primordiale pour la classification, puisqu'il est attendu que deux versions translatées d'une même image soient classifiées de manière identique.Les convolutions sous-échantillonnées avec des filtres passe-bande sont connues pour produire des représentations instables lorsque les images en entrée sont translatées de quelques pixels. La première contribution de cette thèse consiste à prouver qu'un opérateur non linéaire de max pooling est susceptible de partiellement restaurer l'invariance par translation. En appliquant des résultats issus de la théorie des ondelettes, et en adoptant un point de vue probabiliste, nous révélons une similitude entre le max pooling de convolutions à valeurs réelles, tel qu'implémenté dans les architectures conventionnelles, et le module de convolutions à valeurs complexes, pour lequel une mesure d'invariance par translation est établie.Cependant, pour certaines fréquences de filtre, une telle similitude ne se vérifie pas et les CNN deviennent instables face aux petites translations. Ce phénomène, connu sous le nom d'aliasing, peut être évité en appliquant des filtres passe-bas supplémentaires à des endroits stratégiques du réseau, comme plusieurs auteurs l'ont proposé au cours des dernières années. Ces méthodes, bien qu'elles améliorent sensiblement l'invariance par translation et la qualité des prédictions, impliquent une perte importante d'informations de haute fréquence. Comme seconde contribution, nous présentons une nouvelle méthode d'antialiasing qui, contrairement aux précédentes, préserve cette information. En s'appuyant sur notre étude théorique, l'idée clé est d'exploiter les propriétés des convolutions complexes pour garantir une quasi-invariance par translation quelle que soit la fréquence du filtre. En ajoutant une partie imaginaire aux filtres de haute fréquence et en remplaçant l'opérateur de max pooling par un simple module, nous mettons empiriquement en évidence une augmentation de la stabilité du réseau et un taux d'erreur plus faible par rapport aux approches précédentes basées sur des filtres passe-bas.En conclusion, l'objectif de cette thèse est double: améliorer la compréhension mathématique des CNN en termes d'invariance par translation, et améliorer le compromis entre stabilité et préservation de l'information, sur la base de notre contribution théorique fondée sur la théorie des ondelettes. Ces travaux ont donc le potentiel d'impacter positivement diverses applications de la vision par ordinateur, en particulier dans les domaines nécessitant des garanties théoriques.
Fichier principal
Vignette du fichier
LETERME_2023_archivage.pdf (5.9 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-04262423 , version 1 (27-10-2023)

Identifiants

  • HAL Id : tel-04262423 , version 1

Citer

Hubert Leterme. A Complex Wavelet Approach for Shift-Invariant Convolutional Neural Networks. Other [cs.OH]. Université Grenoble Alpes [2020-..], 2023. English. ⟨NNT : 2023GRALM030⟩. ⟨tel-04262423⟩
108 Consultations
71 Téléchargements

Partager

Gmail Facebook X LinkedIn More