GTMNet: un trasformatore di visione con mappa di trasmissione guidata per il dehazing di singole immagini telerilevate
Rapporti scientifici volume 13, numero articolo: 9222 (2023) Citare questo articolo
Dettagli sulle metriche
Gli algoritmi di dehazing esistenti non sono efficaci per le immagini di telerilevamento (RSI) con foschia densa e i risultati di dehazing sono soggetti a miglioramento eccessivo, distorsione del colore e artefatti. Per affrontare questi problemi, proponiamo un modello GTMNet basato su reti neurali convoluzionali (CNN) e trasformatori di visione (ViT), combinati con il canale oscuro precedente (DCP) per ottenere buone prestazioni. Nello specifico, uno strato di trasformazione delle caratteristiche spaziali (SFT) viene prima utilizzato per introdurre agevolmente la mappa di trasmissione guidata (GTM) nel modello, migliorando la capacità della rete di stimare lo spessore della foschia. Viene quindi aggiunto un modulo potenziato di rafforzamento-operatività-sottrazione (SOS) per perfezionare le caratteristiche locali dell'immagine ripristinata. La struttura di GTMNet è determinata regolando l'ingresso del modulo potenziato SOS e la posizione del livello SFT. Sul set di dati SateHaze1k, confrontiamo GTMNet con diversi algoritmi classici di dehazing. I risultati mostrano che sui sotto-dataset di Nebbia moderata e Nebbia spessa, il PSNR e l’SSIM di GTMNet-B sono paragonabili a quelli del modello all’avanguardia Dehazeformer-L, con solo 0,1 volte la quantità di parametri. Inoltre, il nostro metodo è intuitivamente efficace nel migliorare la chiarezza e i dettagli delle immagini dehazing, il che dimostra l'utilità e il significato dell'utilizzo del precedente GTM e del modulo potenziato SOS in un singolo dehazing RSI.
I satelliti per il telerilevamento e i sensori dei veicoli aerei senza equipaggio (UAV) sono sensibili ai fenomeni atmosferici che possono compromettere il contrasto e la fedeltà dei colori delle immagini raccolte, con conseguente indebolimento dei dettagli dell'immagine e rendendo difficile il riconoscimento delle informazioni nell'immagine. Foschia, nebbia e fumo sono fenomeni atmosferici molto comuni generati dall'assorbimento e dalla dispersione atmosferica. Con l'applicazione della tecnologia di telerilevamento nei settori della sicurezza della polizia, della protezione delle piante agricole e forestali, dell'ispezione delle pattuglie di energia elettrica, del rilevamento delle risorse territoriali e di applicazioni simili, è di grande importanza rimuovere accuratamente foschia, nebbia e fumo dalle immagini di telerilevamento (RSI) per il rilevamento del bersaglio, il tracciamento del bersaglio e il rilevamento degli UAV. Per semplicità, il termine dehazing è usato uniformemente per denotare la rimozione di foschia, nebbia e fumo.
Nell'attività di rimozione delle immagini, la seguente espressione è ampiamente utilizzata per descrivere l'immagine sfocata come 1,2,3:
dove \(I(x)\), \(J(x)\), A e t indicano rispettivamente l'immagine sfocata, l'immagine priva di foschia, la luce atmosferica globale e la mappa di trasmissione. Il dehazing di una singola immagine è un problema impegnativo, poco limitato a causa delle informazioni sconosciute sulla profondità. Attualmente sono stati proposti numerosi algoritmi di dehazing provenienti da diverse direzioni.
I primi approcci basati sui precedenti si sono dimostrati efficaci. Utilizzando l'eq. (1), \(A\) e \(t\) devono essere stimati accuratamente per ripristinare immagini nitide. Uno dei più rappresentativi è il metodo Dark Channel Prior (DCP)4 per determinare la relazione di mappatura tra immagini chiare e modelli fisici atmosferici, che è un algoritmo di dehazing relativamente stabile. Tuttavia, l'effetto antiappannamento nelle grandi aree bianche tende a produrre grandi deviazioni. Pertanto, diversi ricercatori utilizzano approcci di deep learning basati sui dati5,6 per stimare i parametri intermedi del modello di diffusione atmosferica e costruire una relazione di mappatura dall'immagine sfocata ai parametri intermedi. Questi algoritmi di deep learning si basano sul modello di dispersione atmosferica. Sebbene siano notevolmente migliorati nella regione del cielo e siano visivamente più efficaci rispetto ai metodi tradizionali, i modelli sono estremamente complessi e vulnerabili alle limitazioni dell'illuminazione atmosferica e dei cambiamenti di scena, con conseguenti scarse prestazioni in tempo reale e luminosità oscura dell'immagine ripristinata. Per risolvere questi problemi, diversi algoritmi prevedono direttamente le immagini latenti prive di foschia in modo end-to-end. Huang et al.7 hanno proposto una rete avversaria generativa condizionale che utilizza immagini RGB e SAR per il dehazing. Mehta et al.8 hanno sviluppato SkyGAN appositamente per rimuovere la foschia nelle immagini aeree, affrontando la sfida dei set di dati limitati di immagini aeree iperspettrali nebulose.