本研究旨在提升低品質影像中的交通號誌辨識準確率,通過圖像處理和深度學習模型優化來達成此目標。首先,針對霧霾、雨天等低可見度情境,我們使用去霧、去雨調整等圖像處理方法,改善影像質量,期望此種方法能夠為後續的辨識過程提供更高質量的輸入資料。接著,通過調整訓練數據集比例、數據增強技術以及改變模型參數等多種實驗設置,我們將測試不同組合對模型性能的影響,進而找出在低品質影像條件下最優的訓練方案和模型結構。
最終,本研究期望構建一個高效的交通號誌辨識系統,並建立可參考的技術框架,以應對各種天氣、光線和損毀情況下的辨識任務。通過實現這些目標,我們期望顯著提升智能交通系統和自動駕駛技術在低品質影像環境中的辨識準確率與穩定性。
在現代智能交通系統中,交通號誌的準確辨識扮演著⾄關重要的⾓⾊。號誌辨識系統通過⾃動化的⽅式來解讀道路上的各類標誌,從⽽提⾼道路交通的安全性與流暢性。然⽽, 現有的交通號誌影像辨識技術在⾯對外在天氣因素或通訊上的⼲擾影像時,常會出現不精確的辨識結果,導致系統效能⼤幅下降。因此,如何在低品質影像條件下提升交通號誌影像辨 識系統的準確性和效率,成為了⼀個待解決的重要課題。
⼈⼯智慧(AI)和機器學習(ML)在各個領域的應⽤迅速發展,尤其是在智能交通 系統(ITS)和⾃動駕駛技術中。⾼效且準確的交通標誌識別(TSR)是先進駕駛輔助系統 (ADAS)的關鍵功能,有助於提⾼駕駛安全性。然⽽,低品質影像對於需要時刻關注的路況來說無疑具有重⼤的安全疑慮,但這些低品質影像通常由多種因素造成,如攝像頭解析度低、光線不⾜、天氣影響(如雨、霧)、影像模糊以及交通號誌被遮擋等,在處理⼿段上會 需要更多元的結合應⽤,以傳統的影像處理和機器學習⽅法處理往往效果有限,難以滿⾜實際應⽤需求。因此,探索和開發更加先進的技術⼿段來提升辨識系統的效能,是具有迫切性的重要理論價值與實際意義。
1、關於除雨模型
單⼀影像去除雨痕的問題中,Lin 等⼈ (2020) [1] 提出了⼀個名為 SSDRNet (Sequential dual attention-based Single image DeRaining deep Network) 的新穎架構,採⽤了⼀種基於注意⼒機制的兩階段學習策略,以更好地捕捉雨痕在影像中的分佈。這個架構主要由三 10 個模組組成:殘差密集塊 (Residual Dense Blocks, RDBs)、序列雙注意⼒塊 (Sequential Dual Attention Blocks, SDABs) 和多尺度特徵聚合模組 (Multi-scale Feature Aggregation Modules, MAMs)。雖然該⽅法在合成數據集上取得了出⾊的表現,但在真實世界的雨天影像上的表現還有待進⼀步驗證。
2、關於除霧模型
在現有的圖像去霧⽅法中,Ho 等⼈(2020)[2] 提出了⼀種⾼品質的圖像⽣成框架—— Denoising Diffusion Probabilistic Models(DDPM)。該模型結構簡單,利⽤擴散過程的 閉式解進⾏了快速的採樣,並在無監督的CIFAR-10和LSUN數據集上取得了優秀的結果。然 ⽽,儘管DDPM框架表現優異,但仍存在⼀些問題,在⽣成樣本⽅⾯,DDPM需要較⾼的品 質,同時⽣成速度較慢。為了解決這些問題,Nichol 和 Dhariwal(2021)[3] 提出了改進的DDPM模型—— Improved Denoising Diffusion Probabilistic Models ( IDDPM)。通過學習逆向過程的⽅差項,IDDPM⼤幅提升了DDPM的⽣成速度,但在處理極⾼複雜性的數據集時,表現仍有待進⼀步加強。
另⼀⽅⾯,受⽣成對抗網絡(GAN)在其他圖像處理任務中成功應⽤的啟發,Wang 等 ⼈(2022)[4] 提出了⼀個無監督的圖像去霧框架—Cycle-SNSPGAN。該框架結合循環⼀ 致性和空間注意⼒機制,各類基準測試中都展⽰出優於傳統GAN的表現。Cycle-SNSPGAN 通過引入循環⼀致性損失確保⽣成的圖像與原始圖像在內容上的⼀致性,同時通過空間注意 ⼒機制增強模型對圖像細節的處理能⼒,從⽽實現了⾼效且⾼品質的圖像去霧效果。
3、關於除炫光模型
在眩光去除領域中,Shiting Ye等⼈(2019) [8] 提出了⼀種針對單張圖像的眩光去除⽅法,該⽅法基於深度卷積神經網絡,並提出了⼀個解構-精細網絡。這⼀創新的網絡結構由兩個主要部分組成:眩光檢測⼦網絡和眩光去除⼦網絡,分別負責眩光的檢測和去除。
眩光檢測⼦網絡⾸先利⽤預訓練的ResNet-34作為編碼器,因其在多尺度感受野上具有⾼度辨別特徵。然後,設計了兩個解碼路徑來⽣成遮擋圖像和背景圖像。為⽣成遮擋圖像的路徑,解碼器使⽤了四層反卷積層交替四層卷積層,並與編碼器形成跳躍連接。⽽為⽣成背景圖像的路徑,設計了⼀個基於膨脹卷積的解碼器,以擴展上下⽂感知能⼒。這⼀設計確保了在不同尺度上充分利⽤潛在信息,從⽽減輕了學習內容特徵的計算負擔。
在眩光去除⼦網絡中,作者構建了⼀個類似U-Net的網絡結構,進⼀步去除圖像中的眩光以提⾼感知質量。這些塊的結構與眩光檢測⼦網絡中的相似,但主要⽤於學習殘差,以改進粗略的無眩光圖像。因此,該⼦網絡的輸出為模型的最終無眩光圖像。此外,該⼦網絡中還包含了⼀個類似於“PatchGAN”的判別器,⽤於區分圖像的真實性。
為了訓練這個網絡,作者使⽤了Adam優化器,並凍結了編碼器中的參數以進⾏微調。實驗結果表明,所提出的⽅法在測試數據集上的性能優於現有的基線⽅法,顯⽰了其在眩光去除任務中的優越性。定量結果顯⽰,該⽅法在PSNR和SSIM指標上均表現出⾊,提供了更⾼的圖像質量。
此外由於缺乏⼤規模的相關數據集和成熟的評估指標, Shoshin, A. V.等⼈(2021) [6] ⾸先提出了⼀種簡單且快速的算法,⽤於⽣成合成的視覺眩光圖像,以便⽤於訓練深度學習模型。該算法通過隨機化光源位置並計算光源到每個像素的距離來⽣成逼真的眩光效果。此 外,研究還分析了在相關圖像增強任務(如去霧和⽔下圖像增強)中使⽤的三個無參考圖像
質量指標:UCIQE、UIQM和CCF,並展⽰了它們的改進表明了更好的眩光去除效果。同時在訓練過程中,作者使⽤了⼀個結構相似性指標(SSIM)作為損失函數的⼀部分。SSIM是⼀種衡量兩幅圖像之間相似性的指標,能夠更好的評估去除前後的相似性。
4、關於除反射模型
Yakun Chang等⼈(2019) [7] 在他們的研究中提出了⼀種名為「單張圖像反射去除卷積神經網絡」(Single Image Reflection Removal Using Convolutional Neural Networks), 簡稱 SIRR-CNN,基於卷積神經網絡的單張圖像反射去除⽅法。當⼈們通過玻璃拍攝照片 時,玻璃背後的場景經常會受到反射的⼲擾。過去的⼤多數研究嘗試從多張圖片中恢復傳輸場景,⽽不是單張圖片。然⽽,使⽤多張圖片對於普通⽤⼾在實際情況下並不實⽤,因為需要特定的拍攝條件。在本⽂中,他們提出了⼀種基於卷積神經網絡的單張圖像反射去除⽅法。他們提供了⼀個導致捕獲圖像中反射效果的重影模型。⾸先,基於重影模型和相對強 度,從輸入的單張圖像合成多個反射圖像。然後,構建了⼀個端到端的網絡,由編碼器和解碼器組成。為了優化網絡參數,他們使⽤了⼀種聯合訓練策略,從合成的反射圖像中學習層分離知識。在損失函數⽅⾯,他們在優化中利⽤了內部和外部損失。實驗結果表明,與先前的⼯作相比,該⽅法不需要⼿⼯設計的特徵和反射過濾器,就能成功去除合成圖像和真實像中的反射,並在峰值信噪比(PSNR)、結構相似性(SSIM)和特徵相似性(FSIM)⽅⾯取得最⾼分數。
5、關於分類器模型
Liu等人 (2022) [8] 提出了「ConvNeXt」,一種專為2020年代視覺辨識設計的卷積神經網絡 (ConvNet) 模型。在 Vision Transformer (ViT) 技術使 Transformer 模型在圖像分類上取得卓越成果的情況下,傳統的卷積網絡開始失去優勢。為此,Liu等人通過對 ResNet模型進行一系列改進,引入了多階段結構、Patchify層、大卷積核以及倒置瓶頸設計,來模仿Transformer的一些設計特點,以提升模型表現。實驗顯示,ConvNeXt在ImageNet分類、COCO物體檢測和ADE20K語義分割等任務中表現優異,甚至超越了同等複雜度的Transformer模型。ConvNeXt保持了卷積網絡的簡單性和效率,不需要複雜的自注意力模組,為卷積網絡在電腦視覺領域的持續發展提供了新的方向。
6、關於研究對標成效
Batool等人(2023) [9] 在他們的研究中提出了一種名為「TwigNet」的輕量卷積神經網絡 (CNN) 模型,專門用於交通標誌識別,並結合線性判別分析 (LDA) 分類器以提升效率和準確性。他們的研究主要針對先進駕駛輔助系統 (ADAS) 中的交通標誌識別問題,認為在自動駕駛系統中準確且快速地識別交通標誌是確保行車安全的重要環節。傳統的交通標誌識別方法依賴於手工設計的特徵(如 HOG 和 SIFT ),這些特徵在真實環境下不一定能穩定工作。為解決這一問題,Batool等人設計了一個具有30層的 TwigNet CNN 模型,該模型不僅能夠自動從圖像中提取深層特徵,且在沒有GPU支援的情況下依然能有效地進行訓練。
表 1 : 作者論⽂中依據損毀類型的正確率下降表(引⽤⾃ [9] Liu等⼈ (2022))
在實驗中,研究團隊選用了 CURE-TSR 數據集來測試 TwigNet 的性能。CURE-TSR 數據集是一個具有挑戰性的交通標誌數據集,涵蓋了12種真實環境挑戰情境(如編碼錯誤、暗化、去色、髒鏡頭、曝光、模糊、陰影、雨雪等),並根據嚴重程度進一步分為五個等級。這些挑戰模擬了各種可能影響自動駕駛的環境條件,以檢測模型的穩定性和適應性。TwigNet在這些挑戰條件下展現了優異的識別能力,具體測試結果如圖1。
圖 1:作者論⽂中依據號誌類型的正確率(引⽤⾃ [9] Liu等⼈ (2022))
從以上數據可以看出,TwigNet 在不同環境挑戰下的性能隨著挑戰等級的增加逐漸下降,但對於光線變暗和去色的影響仍能保持較佳的準確率。TwigNet 在 CURE-TSR 數據集的多項挑戰中展現了穩定的識別能力。此研究展示了 TwigNet 在自動駕駛輔助系統中應用的潛力,並且為交通標誌識別系統提供了一種高效、穩定的解決方案。
1、實驗模型
(1) SSDRNet
在Lin 等⼈ (2020) [1] 提出了⼀種名為SSDRNet(Sequential dual attention based Single image DeRaining deep Network)的深度學習框架,⽤於單張圖像中去除雨痕。SSDRNet的設計⾰新性地引入了基於⾃注意⼒機制的結構,旨在更好地去除圖像中的雨痕。該框架採⽤了⼀種兩階段學習策略,以有效地捕捉圖像中雨痕的分佈情況。
SSDRNet的設計受到幾種先進注意機制的啟發,包括Squeeze-and-Excitation Network(SENet)、Non-local Neural Network和Dual Attention Network (DANet)。SENet 旨在通過調節通道特徵來提⾼網絡的表⽰能⼒,DANet 則在場景 分割中使⽤雙重注意機制來集成局部特徵與全局依賴性。卷積塊注意模塊(CBAM) 也是相關技術之⼀,能在前饋卷積神經網絡(CNN)中有效調整通道和空間注意⼒。 在雨紋消除的框架中,SSDRNet 強調雨條紋之間的內在相關性⼤於雨條紋和背景之 間的相關性。為此,引入了⾃注意⼒機制來建立雨條紋結構的內部依賴性。⾸先, SSDRNet 通過輸入預測的雨條(R1)和原始圖像(O),確定可能的雨像素並抑制非雨像素。⾃注意機制在這⼀過程中起到了⾄關重要的作⽤,使模型⾃動關注並學習數據中的不同部分。接下來,模型通過⾃注意機制對雨條進⾏建模,然後利⽤ SSDRNet 進⾏圖像特徵提取,最終重構去除雨條的圖像(B)。
圖 2:作者提出的SSDRNet架構圖(引⽤⾃ [1] Lin 等⼈, 2020)
在SSDRNet框架中的關鍵組件中,殘差密集塊(RDB)是⽤於基本特徵提取的。 RDB 結合了 ResNet 和 DenseNet 的優點,前者通過快速連接解決梯度消失問題,後者則提⾼了信息傳遞效率。RDB 僅採⽤加法運算進⾏特徵學習,同時借鑒 DenseNet 的特徵重⽤來避免梯度消失並提⾼網絡的學習性。 序列雙重注意塊(SDAB)是 SSDRNet 的核⼼模塊,負責學習和定位雨條。它由組件注意⼒模塊(Component Attention Module, CA)和輔助注意⼒模塊 (Supplementary Attention Module, SA)組成。CA 模塊利⽤通道注意機制學習雨條的主要組成部分,⽽ SA 模塊則通過空間注意機制⽣成空間注意圖來學習局部空間細節。SA 模塊包含稀釋卷積層,可以在不增加參數數量的情況下擴⼤感受野,從⽽增強某⼀空間位置與其周圍空間位置之間的相關性。CA 的輸出可以直接傳到 SA,同時排除非雨區域,這種結合使模型能夠更精準地識別和去除雨條。
圖 3:殘差密集塊(RDB)
(引⽤⾃ [1] Lin 等⼈, 2020)
圖 4 : 序列雙重注意塊(SDAB)
(引⽤⾃ [1] Lin 等⼈, 2020)
SSDRNet 通過多尺度特徵聚合模塊(MAM)進⾏輸出。MAM 利⽤擴張卷積層的⽅法在不增加參數量的情況下擴⼤感受野,並捕捉不同尺度的雨滴信息。這⼀過程包括將前⾯ RDB 或 SDAB 得到的特徵圖輸入到四個擴張卷積層,然後將所有特徵圖聚合起來,以提供更豐富的特徵和更⼤的感受野。
圖 5:多尺度特徵聚合模塊(MAM)引⽤⾃ [1] Lin 等⼈, 2020)
在結果⽅⾯,所⽤資料集包括 Rain100L、Rain100H、Rain12、DDN、DID 和真實世界資料集。基於 SSDRNet 的⾼效學習能⼒和不同場景的資料集,該⽅法在真實的雨天影像中也能很好地⼯作。SSDRNet 在多個衡量指標上(如峰值信噪比PSNR和結構相似性SSIM)都展⽰了優越的性能。
SSDRNet 的創新之處在於:⾸先,提出了⼀種兩階段深度神經網絡來解決去雨問題,第⼀階段預測的雨痕組件與原始輸入的雨天圖像⼀起成為第⼆階段的輸入,進⼀步定位可能的雨像素,同時壓制圖像中的非雨像素;其次,引入了雙⾃注意⼒深度網絡,利⽤組件注意⼒和輔助注意⼒來建模雨痕,以更好地進⾏單張圖像去雨;最後,通過順序堆疊殘差密集塊、雙注意⼒塊和多尺度特徵聚合模塊,成功地從雨天圖像中提取出雨痕,並重建去雨圖像。
依據作者經過廣泛的實驗結果驗證,SSDRNet 在質量和量化指標上均表現出⾊,優於現有⽅法。這個深度學習框架為單張圖像去雨問題帶來了新的解決⽅案,為相關領域的研究和應⽤提供了有價值的參考。總體⽽⾔,SSDRNet 結合了⾃注意機制和多尺度特徵聚合策略,顯著提⾼了雨條去除的效果和精度。這⼀⽅法在不同場景的資料集中均表現出⾊,為單張圖片的雨痕去除提供了⼀個⾼效且可靠的解決⽅案。雖然該⽅ 法在合成數據集上取得了出⾊的表現,但在真實世界的雨天影像上的表現還有待進⼀步驗證。
(2) Cycle-SNSPGAN
Wang 等⼈(2022)[4] 提出 Cycle-SNSPGAN(Cycle Spectral Normalized Soft Likelihood Estimation Patch GAN)是⼀種⽤於圖像去霧的無監督學習框架,其⽬的 是提⾼模型在真實場景中去霧的泛化能⼒。該⽅法特別針對無配對的真實霧霾圖像進 ⾏訓練,從⽽克服現有模型在處理真實霧霾圖像時常遇到的域偏移問題。 Cycle-SNSPGAN包括兩個⽣成器(G_A和G_B)和兩個判別器(D_A和D_B),其 中⽣成器G_A將霧霾圖像轉換為無霧圖像,⽽⽣成器G_B則將無霧圖像轉換為霧霾圖像。這些⽣成器和判別器在⼀個循環⼀致的框架內協同⼯作,以確保輸出圖像的質量 和真實性。具體來說,作者設計了⼀種光譜正規化的GAN(Spectral Normalized GAN)和⼀個新的軟似然估計⽅案,⽤於提⾼網絡的訓練穩定性和⽣成圖像的品質。
圖 6:作者提出的Cycle-SNSPGAN識別器架構圖(引⽤⾃ [4] Wang等⼈, 2022)
Cycle-SNSPGAN的⽣成器架構受U-Net和ResNet的啟發,採⽤了編碼器-解碼器網 路架構,並引入了跳躍連接(skip connections),以避免梯度消失問題。具體⽽ ⾔,⽣成器包括編碼模塊、特徵提取模塊和解碼模塊。編碼模塊由初始層和兩個下採樣層組成,⽤於將輸入的霧霾圖像編碼為特徵圖。特徵提取模塊由九個殘差塊 (residual blocks)組成,這些殘差塊能夠進⼀步提取複雜特徵並同時去除霧霾。在解碼模塊中,通過兩個上采樣操作和Tanh激活函數,最終輸出去霧後的圖像。
在判別器⽅⾯,Cycle-SNSPGAN提出了⼀種新的SN-Soft-Patch判別器,該判別器 在傳統的補丁GAN基礎上進⾏了改進。⾸先,我們在判別器的設計中引入了光譜正規化卷積層,以提⾼訓練過程的穩定性。其次,通過使⽤非線性ReLU層、實例正規化層和Sigmoid激活函數,最終輸出⼀個64×64的補丁。這些補丁的值將⽤於判斷輸入圖像 是來⾃⽣成器的假圖像還是真實圖像。此外,我們還提出了⼀種軟似然估計⽅案,通過計算補丁的加權似然值,增強了判別器的判別能⼒,從⽽促使⽣成器⽣成更⾼質量的圖像。
為進⼀步提⾼模型的去霧能⼒,作者在⽣成器的設計中引入了⼀種最新的注意⼒機制 (Frequency Channel Attention Network,FCANet)。FCANet將通道注意⼒機制與離散餘弦變換(DCT)巧妙結合,從⽽在殘差塊中學習不同特徵圖的權重,增強了網絡的去霧效果。 在訓練過程中,Cycle-SNSPGAN引入了多種損失函數,包括對抗損失、循環⼀致性損失、⾝份損失、顏⾊損失、總變分損失以及新提出的循環⾃感知損失。其中,對抗損失⽤於匹配⽣成圖像與⽬標域圖像的分佈,循環⼀致性損失則確保⽣成圖像與原始輸入圖像之間的⼀致性,從⽽⽀持無配對數據的訓練。⾝份損失進⼀步確保⽣成圖像在結構上與輸入圖像⼀致,⽽顏⾊損失通過測量去霧圖像與無霧圖像之間的顏⾊差異,使⽣成圖像更符合⼈眼預期。總變分損失有助於減少⽣成圖像中的噪聲,增強圖像的清晰度。最為關鍵的是,循環⾃感知損失在無需真實圖像的情況下,直接測量去霧結果與對應霧霾輸入圖像之間的感知相似性,保留⼤尺度結構和⼩尺度細節。
圖 7:作者提出的Cycle-SNSPGAN 架構圖(引⽤⾃ [4] Wang等⼈, 2022)
(3) DRNet
Shiting Ye等⼈(2019) [8] 提出的解構-精細網絡(decompose-refine network), 稱為DRNet(Decompose-Refine Network),專⾨針對單張圖像的眩光去除問題。 該網絡主要包括兩個⼦網絡:眩光檢測⼦網絡和眩光去除⼦網絡。
⾸先,DRNet的眩光檢測⼦網絡旨在將輸入的眩光圖像分解為遮擋圖像和背景圖像。 這⼀過程從使⽤預訓練的ResNet-34作為編碼器開始,因為該編碼器在多尺度感受野上具有⾼度辨別特徵,能夠提取圖像中的細節和全局信息。接著,該網絡設計了兩個解碼路徑來分別⽣成遮擋圖像(GM)和背景圖像(JM)。遮擋圖像⽣成路徑使⽤四層反卷積層交替四層卷積層,並與編碼器形成跳躍連接(skip connections),以確保在解碼過程中不丟失重要的特徵信息。背景圖像⽣成路徑則設計了⼀個基於膨脹卷積的解碼器,通過四層不同膨脹率的卷積層來擴展上下⽂感知能⼒,從⽽更好地恢復被遮擋的背景信息。這種設計確保了在不同尺度上充分利⽤潛在信息,從⽽⽣成粗略的無眩光圖像(J’)。
圖 8:作者提出的眩光檢測⼦網絡圖像(引⽤⾃ [10] Shiting Ye等⼈, 2019)
在⽣成粗略的無眩光圖像後,DRNet的眩光去除⼦網絡進⼀步精細化圖像,以提⾼感知質量。這⼀過程利⽤了⼀個類似U-Net的網絡結構,包括⼀個編碼器塊和⼀個解碼器塊。這些塊的結構與眩光檢測⼦網絡中的相似,但主要⽤於學習殘差(J_residual),以改進粗略的無眩光圖像(J’)。最終的無眩光圖像(J)通過以下 公式計算得出: J = J′ +Jresidual 這⼀過程的⽬的是通過學習殘差來進⼀步改進無眩光圖像,使其更接近真實的無眩光圖像。 此外,該⼦網絡還包含了⼀個類似於“PatchGAN”的判別器,⽤於區分圖像的真實性。判別器的主要架構與卷積“PatchGAN”分類器類似,但包含四個輸入層,以確保在訓練過程中能夠有效地區分真實和⽣成的無眩光圖像。 訓練過程中,損失函數由⽣成損失(LG)和對抗損失(LD)組成。⽣成損失是⽣成 無眩光圖像的主要指標,⽽對抗損失則⽤於強迫解決⽅案接近⾃然流形。具體的損失函數如下:
圖 9:作者提出的DRNet架構圖(引⽤⾃ [10] Shiting Ye等⼈, 2019)
(4) SIRR-CNN
Yakun Chang等⼈(2019) [7] 提出名為「單張圖像反射去除卷積神經網絡」(Single Image Reflection Removal Using Convolutional Neural Networks),簡稱 SIRR CNN的模型,利⽤合成的多張反射影像來訓練網路,並且將其應⽤於單幅反射影像的去除。⽅法如下圖所⽰:
圖 10:作者提出的SSDRNet架構圖
先將⼀張有反射狀況的圖片,⽤偏振光線追蹤的⽅法合成四張具有不同反射層的圖像。偏振光線追蹤是⼀種利⽤物理模型來計算光在材料表⾯反射和折射時的偏振特性和光學厚度的⽅法。它的⽬的是分析光在不同情況下(比如:不同的入射⾓、偏振⾓、折射率等)的狀態變化,並利⽤這些資訊來模擬反射層的⾏為,如此可以產⽣更多樣化的訓練數據。
論⽂中使⽤PASCAL VOC資料集⽣成訓練和測試的數據,從PASCAL VOC 2012中 70%的彩⾊圖片作為真實數據。訓練集部分總共11990組(每組有四張合成反射層的圖 片)、測試集有5135張(每張都⼀定有反射的情況)。 為了有效處理這些合成的反射層圖片,論⽂中採⽤了CNN編碼器與解碼器結構(如圖22所⽰)。
圖 11:作者提出的SSDRNet架構圖(引⽤⾃ [7] Yakun Chang 等⼈, 2019)
利⽤編碼器與解碼器的結構能夠更好地捕捉和分離圖片中的細節和特徵。在此模型中,編碼器負責將輸入的影像(經過偏振光線追蹤合成的四張圖I1~I4)映射到⾼維特徵空間,⽽解碼器則會從特徵空間中分離出反射層(R’),最終得到四張圖片分別的真實場景特徵(O1~O4)。為了進⼀步提⾼模型的性能,論⽂中設計了三個Skip連接19於編碼器和解碼器之間。這些Skip連接可以讓編碼器提取出來的低層特徵在編碼器和解碼器之間共享,防⽌低層特徵的流失,避免⽣成的圖像模糊或不⾃然。
此模型的損失函數 L =αLe+βLi+γLtv ,⽤來計算訓練誤差。其中, Li為 Oi ∼ Oj 之間產生的內部損失; Le 為 Oi∼Oj 和真實圖像B之間的外部損失; Ltv為正則化項,⽤於平滑邊緣。α、β、γ為每部分損失的權重。上⽅圖22的公式 為損失的部分,通常會趨近於0,表⽰輸出愈接近真實圖片。 Ii = Oi +Ri'+Δi,Δi 即為損失的部分。
基於物理特性的反射影像合成⽅法,能夠產⽣更多樣化、⾃然的訓練數據。同時,所採⽤有效的訓練策略,不需⼈⼯去標註特徵,比如邊緣和梯度,這⼤⼤降低了數據標註的成本。所提⽅法能夠在較少的時間內成功去除合成和真實影像的反射層,並且在量化評估時表現比其他⽅法更好。此外,此⽅法還能有效去除噪聲,諸如圖片亮度或顏⾊的隨機變化等對圖片造成影響的因素。然⽽,該⽅法也存在⼀些缺點,例如,仍然無法完全消除主要反射。⼀些圖片中的反射場景過於明亮,導致背景被破壞,即使Δi已經最⼩化,也無法收斂到0,這可能導致⽣成圖片有較⼤的誤差,細節的部分被丟失等。
(5) Two-branched neural network
由Shoshin,A.V.等⼈(2021) [6]等⼈提出了有關去除炫光的雙分⽀神經網絡(Two branched neural network),這個架構設計是基於UNet的CNN神經網路,且特別針 對影像處理中的眩光移除問題進⾏了優化。這個雙分⽀神經網絡架構包括兩個主要分 ⽀:⼀個⽤於處理圖像的低頻信息,另⼀個⽤於處理⾼頻信息。這樣的設計⽬的是分別處理圖像中的不同層次的信息,從⽽更全⾯地去除眩光。
⾸先,輸入圖像被傳遞到⼀個初步的特徵提取層,該層使⽤卷積神經網絡(CNN) 來提取基本的圖像特徵。這些初步特徵隨後被分成兩個分⽀,分別進⾏低頻和⾼頻信息的處理。
低頻分⽀(Br1):主要處理圖像中的⼤尺度和光滑區域。這部分網絡包含數個卷積層和池化層,這些層的作⽤是逐步降低圖像的空間分辨率,同時提取出圖像的低頻成分。 通過這種⽅式,網絡可以更好地理解整體光照和⼤⾯積的光暈效果。
⾼頻分⽀(Br2):⾼頻分⽀則專注於處理圖像中的細節和邊緣信息。這部分網絡包含 更多的卷積層,但使⽤較少的或不使⽤池化層,保持圖像的空間分辨率。這樣的設計 允許網絡捕捉到更多的細節信息,如邊緣、紋理和⼩尺度的眩光效應。
分⽀融合:在兩個分⽀分別處理完圖像的低頻和⾼頻信息後,網絡會將這兩部分信息進⾏融合。融合的⽅式通常是將兩個分⽀的特徵圖在通道維度上進⾏拼接,或進⾏加權相加。這⼀融合步驟能夠綜合兩個分⽀的優勢,使得最終輸出的特徵圖既包含整體光照信息,⼜保留了細節和邊緣信息。
最終重建:經過融合的特徵圖被傳遞到後續的卷積層,這些層負責進⾏最終的圖像重建。重建過程中,網絡學習如何去除視覺眩光並恢復圖像的對比度和細節。最後,網絡輸出去除眩光後的圖像。
兩分⽀神經網絡將輸入的有眩光的影像進⾏處理,⽣成兩個影像輸出分⽀:Br1和 Br2。這兩個分⽀各有特定的功能:Br1負責移除眩光,Br2則負責恢復原始影像的像素強度。最後,這兩個分⽀的輸出會被合成,形成最終的去除眩光的影像,計算公式為:Out =V−Br1+Br2。其中,V是輸入影像,Out是最終輸出的去除眩光的影像。
每個卷積塊包含兩個3x3的卷積核,並且在每⼀層中過濾器的數量會從32線性增加到 256(在深度為7的模型中)或192(在深度為5的模型中),然後在反卷積部分中再線 性減少到32。每個卷積塊還包含⼀個批量正規化層和⼀個dropout層,其中dropout率從接近輸入的0.03線性增加到瓶頸處的0.25,再在反卷積部分中對稱地減少。激活函 數使⽤ReLU,所有的最⼤池化和上採樣使⽤2x2的卷積核。
圖 12:作者提出的雙分⽀神經網絡架構圖 (引⽤⾃ [6] Shoshin,A.V.等⼈, 2021)
這個兩分⽀網絡架構在訓練過程中使⽤Adam優化器,初始學習率設定為0.0001,當訓練損失在當前學習率下連續兩個時期減少不⾜1%時,學習率會減半。整個網絡訓練 了40個epochs,最終學習率通常為1.25e-5。
作者透過實驗發現,其模型有時會導致圖像過度暗化,使其失去細節和⾊彩。為解決此問題,他們在訓練⽬標函數中加入了結構相似性(SSIM)的項,以強制模型保留原 始圖像更多細節。通過調整SSIM權重,找到了最佳參數組合,並在⼀些測試圖像上展⽰了明顯的改進。這⼀策略有望提⾼模型在圖像處理任務中的表現,增強圖像質量和細節保留能⼒。
(6) ConvNeXt
Liu等人 (2022) [8] 於研究中提出了名為「ConvNeXt」的卷積神經網絡模型,專為2020年代的視覺辨識需求而設計。隨著Vision Transformer (ViT) 的迅速發展,基於Transformer的模型在圖像分類上取得了顯著成果。然而,Transformer在物體檢測、語義分割等電腦視覺任務中仍存在挑戰。為此,Liu等人重新審視了卷積神經網絡的設計,以探索其性能極限,希望在保持ConvNet簡單性與計算效率的同時提升其精度和擴展性。
在此研究中,Liu等人基於ResNet模型與Transformer的設計原則一同「現代化」改造,巧妙地融合了源自於 Vision Transformer (ViT) 的巨觀與微觀層級的設計策略,其主要的結構特徵包括:
-
Patchify stem:初始層使用類似 ViT 的「Patchify」,與ResNeXt的7*7卷積不同此處為4*4的卷基層,使用較小的卷積核將需要處理的數據量縮小,達到不需要設計 layer 來簡化計算並提高特徵的學習效率的功用。
-
Depthwise Convolution and Width Expansion:使每個層的計算更具效率,並增加了模型的寬度,將寬度拓寬增加到與 Swin-T 相同通道數(64 增加到 96)來提升計算能力,明顯減少算量和參數量。
-
Inverted Bottleneck:該結構源自於 MobileNetV2的設計,一種為行動裝置設計的高效卷積神經網路架構,將每層的特徵維度擴展至輸入維度的四倍,以提升網絡的表達能力,擴展特徵維度並且降低整體網路的FLOPs,讓網路學習到更豐富的特徵表示,從而提高模型的性能。
-
Large Kernel Sizes:使用7*7卷基核,以更大範圍的去理解像素之間的關係遠超傳統3*3所學習的範圍,並且同時能夠提取更加豐富的特徵,提升整體模型的性能。
圖 13:ConvNeXt 架構圖 (引⽤⾃ [8] Liu等⼈ , 2022)
-
Gaussian Error Linear Unit (GELU) and Layer Normalization:以 GELU激活函數與Batch Normalization代替成ReLU與Layer Normalization,GELU 激勵函數相較於以往的 ReLU 更加平滑,主要使模型的學習更加穩定加快效率
-
Separate Downsampling Layer:引入Swin Transformer的多階段架構,使每個階段的特徵圖解析度不同,以捕捉多層次的視覺特徵,並且在獨立的下採樣層可以更有效地降低特徵圖層的解析度,相比在殘差中進行下採樣,以減少整體模型計算量並提高模型效率,與此同時,獨立下採樣的設計也讓整體模型簡化,使架構更加清晰。
實驗結果顯示,ConvNeXt在多個電腦視覺基準上取得了與Transformer相當甚至更佳的表現。在ImageNet-1K分類、COCO物體檢測和 ADE20K語義分割等任務中,ConvNeXt的性能優於或接近於Swin Transformer。
除了性能的提升,ConvNeXt保持了純卷積架構的簡單性和推理速度優勢,在架構上它不使用Transformer那樣複雜的自注意力模組或相對位置編碼。該研究結果顯示,通過適當的設計,卷積神經網絡能在計算效率不受損的情況下達到與視覺Transformer相當的性能,重新引發對卷積在視覺任務中潛力的思考。
2、實驗資料集
在本研究中,我們使用了兩個主要的圖像數據集來進行模型訓練和測試,分別是現實圖像數據集RESIDE和交通號誌圖像數據集CURE-TSR。現實圖像數據集RESIDE從網絡和公共數據庫中收集,涵蓋了各種環境和情景的現實世界圖像,如城市景觀、自然風光等。這些圖像提供了豐富的場景多樣性,能夠有效幫助模型學習在不同環境條件下的影像復原能力。另外,我們使用了由交通號誌圖像數據集CURE-TSR。該數據集內含各種交通號誌和道路標誌的圖像,資料來自於49個影片定序。這些影片定序被分為大約70%的訓練集和30%的測試集。在作者的測試中,從每個挑戰類別和等級中選取3,334幅圖像,總計200,040幅圖像(3,334幅圖像乘以12種挑戰類型再乘以5個等級),這些圖像涵蓋了多種典型的損壞情況,有助於我們全面評估模型在不同損壞條件下的性能表現。
(1) 圖像修復
在本研究中,我們使用 CURE-TSR 資料集來進行交通號誌辨識模型的訓練。此外,為了得到最好的去霧效果,我們同時採用了混合資料集和純CURE-TSR資料集進行訓練,以比較不同模型的效果,從而找出最合適的去霧模型。隨後,我們將最佳去霧模型的結果應用於交通號誌辨識模型訓練中,期望能夠提高辨識的準確性和效能。
a. RESIDE-Standard
RESIDE-Standard是⽤於單圖像去霧的研究,包含了合成的和真實世界的霧化圖像,以確保算法在各種情況下的性能和泛化能⼒。此資料集強調了多元的數據來源和圖像內容,並被劃分為三個⼦集,每個⼦集都有不同的訓練或評估⽬的。⽽本次實驗,我們團隊主要以SOTS⼦集中室外的hazy圖片作為訓練資料:
(1.1) 室內訓練集(Indoor Training Set,ITS):包含13,990張合成的室內模糊圖像
(1.2) 合成客觀測試集(Synthetic Objective Testing Set,SOTS):包含500張合成的室內外模糊圖像
(1.3) 混合主觀測試集(Hybrid Subjective Testing Set,HSTS):包含20張真實的室外模糊圖像
b. CURE-TSR
此資料集由Temel 等⼈(2017)[5] 旨在評估交通標誌識別算法在各種挑戰性條件下的穩健性。傳統的資料集通常在規模和環境挑戰的多樣性⽅⾯有限,促使了CURE TSR的創建。該資料集包含超過兩百萬張來⾃真實世界和模擬環境的交通標誌圖片。 ⽬的是在現實場景下評估和改進識別系統的性能,特別是在會影響空間信息條件下。
資料集構成⽅⾯包含來⾃真實世界場景和使⽤ Unreal Engine 4 創建的模擬場景的交通標誌圖片。真實世界的圖片來源於比利時,⽽模擬圖片則旨在模仿這些環境。資料集中包含14種類型的城市常⾒交通標誌,包括限速、禁⽌停⾞、停⽌、讓路等。這些 標誌在12種不同的挑戰條件下展⽰,如去⾊、鏡頭模糊、編碼錯誤、變暗、鏡頭髒污、 曝光、⾼斯模糊、噪聲、雨、陰影、雪、霧,每種條件有五個不同的嚴重程度,並且在原論⽂中的敘述中在多⽅⾯超越了其他知名資料集如 BelgiumTSC 和 GTSRB它提供了更⼤量的圖片、更豐富的挑戰條件,以及這些條件的元數據,這使得可以在特定挑戰下進⾏控制實驗來評估算法性能。
(a)
(b)
圖 14:上圖(a) 為CURE-TSR 中以 bicycle 為範例,展示各等級和損毀類別 ,
下圖 (b) 為12 種清晰號誌圖的展示。 (圖片取自 [5] Temel 等⼈, 2017)
c. 混合圖像數據集
結合上述兩類圖像,我們創建一個混合數據集,以模擬更接近實際應用場景的情況,並依照比例的混合不同,適用不同訓練以及測試場景。
(2) 分類實驗
在分類的實驗裡,所有圖像皆出自CURE-TSR,主要以多種方式組合訓練集,其主要控制項目基於以下幾點。
表2:分類實驗總表
a. 全部測試:
圖像未經預處理,內含challenge-free(無損影像)和其他損毀狀況,一同訓練。
b. HSV處理:
由於CURE-TSR數據集中包含變暗、過度曝光、陰影等一系列與亮度相關的問題,我們使用OpenCV中的直方圖均衡化(Histogram Equalization)功能進行亮度調整,使圖像效果更加清晰。
c. CYCLE(除霧處理):
以前面我們所做的修復模型對圖像做修復。
d. 訓練數量:
CURE-TSR的整體圖片張數龐大,為了讓訓練進度加快,我們以python 中的 random函數去按照號誌比例去取得整體的5%、10%、20%做訓練的基準。
e. 填補黑/白:
對於尺寸小於20與56的圖做補邊處裡,把以上兩種狀況的圖片缺少的部分以白色/黑色填補到56,其餘尺寸的圖片以拉縮來處理大小。
f. ChallengeFree:
我們的比較對象Aisha Batool等人(2023)的測試結果中,評比對象的訓練和測試皆基於challengefree圖像。為了進行有效的比較,我們亦採用了相同的實驗設計。
表 3:CURE-TSR dataset 中 Challenge Free 詳細資訊
在實驗的前期,以圖片修復為目標,並使用三種資料集作為主要訓練集:現實圖像、交通號誌圖像以及混合圖像(此為內含前兩者的混和圖片集),資料集的具體內容請參考上述的實驗資料集-圖像修復。在資料集的使用上主要希望可以更全面地模擬實際應用場景,旨在提升並判斷模型在各種影像損毀情況下的復原能力。
在圖片修復的實驗上,我們採用了 Cycle-SNSPGAN模型,這是一種使用非監督式的學習方法,特別適合處理無配對數據的問題。Cycle-SNSPGAN模型通過生成對抗網絡(GAN)結構,能夠在無需成對圖片的情況下,學習並提升圖像的復原能力。我們也設計了不同的訓練集和實驗條件下進行了各式實驗,以驗證該模型的有效性和適用性。具體而言,實驗條件包括,不同的天氣影響、光線變化和影像模糊程度,以全方位評估模型的性能。
實驗後期以圖片分類為主,採用ConvNeXt作為主要模型,其訓練集的詳細資料請參考上述實驗資料集-分類實驗。
此模型是一種純卷積架構,並以 Transformer為參考和對標對象。我們針對不同的輸入數據組合和訓練 epochs數進行了多組實驗比較。在參考數據上,主要對比 Aisha Batool等人(2023)的測試結果,我們同樣以CURE-TSR做為訓練集與測試集且同為純卷積模型,我們期望在保持簡單架構的同時,能夠在號誌分類任務上展現出更高的性能,以達到比傳統方法更優的效果。
1、實驗環境
實驗環境主要分為兩種,Google Colab 及本機:
(1) Google Colab是⼀個免費的雲端服務,提供在瀏覽器中編寫和執⾏Python程式碼的環境,結合了Jupyter Notebook的優點。其主要特⾊是免費提供NVIDIA GPU和Google TPU資源,加速深度學習模型的訓練和推理。我們主要使⽤Colab進⾏本機環境的前期測試,因為它輕量、⽅便且易於設置,可快速檢查程式碼兼容性。最終,我們會在本機建 立更完善的GPU環境進⾏深入訓練。
(2) 我們利⽤Visual Studio Code 編輯器和Anaconda 構建了⼀個易於使⽤的環境來管理 和部署包及環境,以進⾏實驗環境的架設。⾸先,我們在Google 上進⾏前期測試,確定 程式碼可以在CUDA 12.2和cuDNN 8.9.7環境下執⾏,並且確認所使⽤GPU與此配置版本相匹配。接著,我們使⽤Anaconda建立⼀個乾淨的虛擬環境,以確保在⼀台電腦上可以運⾏不同環境需求的模型。再安裝相應版本的CUDA 、 cuDNN 與對應的TensorFlow 版。最後,我們驗證了TensorFlow 的安裝是否成功以及是否能夠偵測到GPU,確保整個 環境配置正確無誤。這樣⼀來,我們便可以將後續的程式碼部署在本機上,進⾏更深入的實驗和測試。
2、實驗設計
本研究旨在通過訓練模型來改善圖像恢復的效果以應用於最終的號誌分類,特別針對兩個主要損毀類別:除霧和除雨。我們採用了多種室外場景的影像資料及不同程度的交通號誌損毀圖像,並選擇合適的模型架構進行一系列參數調整和優化,以達到最佳效果,以其利用於最後的分類訓練。
在這次除霧實驗中,我們的目標是探索深度學習模型在不同訓練集和實驗條件下的圖像復原效果。我們選用了具有優秀去霧和復原能力的Cycle-SNSPGAN模型,並將訓練集分為三類(此處詳情參考上述實驗資料集-修復圖像),來自RESIDE數據集的現實場景圖像、來自CURE-TSR數據集的Haze5損毀圖像,以及混合圖像訓練集,以提升模型在多樣影像損毀情況下的復原能力。
在模型訓練過程中,我們針對不同的訓練集進行多次迭代訓練,並調整如epoch數量等訓練參數,觀察其對模型性能的影響。訓練完成後,我們使用多種測試集進行全面性能評估,包含來自RESIDE數據集的現實損毀圖像及CURE-TSR數據集中多種損壞情況的圖像,如Haze5、Darkening5、Exposure5等。此外,我們還使用CURE-TSR數據集中的清晰圖像進行測試,以評估模型在無損壞情況下的表現。通過這些測試,我們能夠全方位地分析模型在不同損壞條件下的修復效果。
在除雨實驗部分,我們選擇了DDN模型,該模型來自SDAN-for-rain-remove,專為去除雨滴效果而設計。此部分的實驗目標是通過調整測試次數,找到最佳除雨效果的方法。觀察重複次數對圖片呈現的影響,測試圖片含有雨滴與雪的干擾圖進行評估,通過比較不同去除次數下的模型性能,找出最佳去除效果以提升除雨效果。
在實驗後半段主要以ConvNeXt的分類模型為主,此模型結合傳統卷基與transformer為基礎架構,以純卷基的架構在多數資料集的測試結果更勝transformer,實現輕便與高效的結合,並搭配利用,霧、雨的修復模型處理CURE-TSR數據集、搭配各式修復組合以及設定epoch等模型參數的調整,去做訓練集的訓練組合。
3、實驗架構
(1) 除霧模型
在探討不同訓練集對除霧模型性能的影響,並分析各種測試集在模型評估中的作⽤。 我們將使⽤兩組不同的訓練集進⾏模型訓練,並在多種測試集上進⾏性能評估,以驗證模型在不同場景下的有效性。
⾸先,我們選擇了兩組訓練集進⾏模型訓練。訓練集Train A包含來⾃RESIDE數據集 的現實損毀圖片和CURE-TSR數據集中的Haze5損毀圖像。這些圖像涵蓋了各種真實場景下的霧霾情況,有助於模型學習在多樣化的霧霾條件下進⾏去霧處理。訓練集 Train B則包含來⾃RESIDE數據集的現實清晰圖片和CURE-TSR數據集中的 Challengefree清楚圖像,⽤於訓練模型識別和⽣成清晰無霧的圖像。
在模型訓練階段,分別使⽤Train A和Train B進⾏訓練,這兩組訓練集中的圖像不成對,因此我們採⽤Cycle-SNSPGAN的無監督學習⽅法,這種⽅法能夠有效處理未配 對數據,提升模型在真實世界中的泛化能⼒。
完成模型訓練後,我們使⽤兩組測試集進⾏性能評估。測試集Test A包括CURE TSR數據集中多種損壞情況的圖像,如Haze5、Darkening5、Exposure5、Noise5、 Decolorization5、Snow5、GaussianBlur5、Rain5、Shadow5、LensBlur5、 DirtyLens5和CodecError5。這些圖像涵蓋了多種典型的損壞狀況,⽤於全⾯評估模型在不同損壞條件下的性能。⽽測試集Test B則包括CURE-TSR數據集中的 Challengefree清楚圖像,這些圖像⽤於評估模型在處理清晰場景下的表現。
在模型測試過程中,我們將使⽤Test A和Test B對訓練後的模型進⾏評估。由於 Test A和Test B中的圖像是成對的,這使得我們可以檢測模型在匹配圖像上的性能表現。具體的評估標準包括圖像的清晰度、對比度、細節恢復程度以及去霧效果等。
(2) 除雨模型
在除雨模型上,基於我們所使⽤的論⽂無法訓練,為此我們的主要討論會著重於重複 的去除步驟是否增加圖篇清晰度,在實驗上我們使⽤了來⾃CURE-TSR數據集的 Snow5和Rain5圖片進⾏測試,並針對論⽂中提供的不同模型(如DDN、DID、Rain12、Rain110H、Rain100L、RainHeavy、RainLight和Real)進⾏比較。根據圖像結果,我們認為DDN模型的表現最佳,後續的相關測試也只使⽤DDN去做圖像測試。
圖 15:各模型實驗輸出結果
(3)分類器模型
旨在評比何種修復搭配效果可以對分類有最好的表現,並評估不同圖像修復處理對分類準確度的影響。透過多次測試,我們希望找出最佳的圖像修復和數據增強組合,以提升模型在多種圖像損毀狀況下的分類效果。
首先,我們對 CURE-TSR數據集的圖像進行一系列預處理,根據不同配置對影像進行修復或增強,包括亮度調整、除霧、尺寸調整等。為確保不同損毀狀況的圖像不會影響模型判斷,處理後的圖像經過隨機抽樣並分配至訓練集和測試集中。
完成對模型的訓練後,我們使用測試集進行測試,以確認模型的實際訓練結果,並且針對輸出結果做了多項的統計分析(混淆矩陣、尺寸錯誤分類、錯誤號誌比例、損毀等級比例...等),基於以上多種分析方法,確認目前的實驗問題,像是圖像太小、損毀太嚴重、混淆分類...等情況,再去調整實驗的流程,例如優化數據增強、提高小圖像的分辨率或重新配置圖像修復策略,以進一步提升模型表現。
4、實驗結果
本研究的主要的是探討不同損壞狀況下,除霧模型的訓練法及交通號誌的分類效能,並 分析各種變因(如損壞類型、修復法、數據集配置等)對模型性能的影響。以下為詳細描述:
圖像修復的部分
(1) 除霧模型訓練與不同損壞圖對其識別測試
在此實驗中,我們使用CURE-TSR資料集中Haze5損壞狀況的400張圖像作為訓練 集,訓練除霧模型,其目的是解決傳統圖像去霧方法在真實世界應用中的局限性。模 型訓練完成後,利 用 包含多種損壞狀況的測試集進 行 評估,包括Haze5、 Darkening5、Exposure5、Noise5、Decolorization5、Snow5、GaussianBlur5、 Rain5、Shadow5、LensBlur5、DirtyLens5及CodeError5。實驗中調整訓練的epoch 次數為100、200及300,藉此觀察不同訓練次數對模型性能的影響,並驗證模型在不 同損壞圖像上的修復效果。
圖 16:實驗(1) 結果
(2) 除霧模型改變訓練次數對不同損壞圖效果之影響
為進一步探討訓練次數對模型性能的影響,本實驗繼續使用Haze5的400張圖像進行訓 練,但增加了訓練的epoch次數,分別為50、400、500、600及1000次。於前項實驗 結果可看出,本實驗所用除霧模型對於Haze5、Darkening5及Noise5三種損壞類型的 圖像較有效果,因此選擇這三種損壞狀況的圖像作為測試集進行測試。此實驗通過不 同的訓練次數,分析模型在不同測試集上的修復效果,旨在確認訓練次數對模型性能 的影響。
圖 17:實驗(2) 結果
(3) 除霧模型結合現實圖片訓練對除霧效果之影響
最後,我們研究了結合RESIDE資料集的現實圖片與Haze5的號誌圖片進行訓練對模型 性能的影響。實驗中使用了不同比例的現實圖片與號誌圖片進行訓練,分別為200張 現實圖片加上200張號誌圖片,及300張現實圖片加上100張號誌圖片。訓練過程中固 定epoch次數為400次,通過比較這些不同訓練條件下的模型性能,分析現實圖片的加 入對於模型除霧效果的影響。
圖 18:實驗(3) 結果
(4) SSDRNet除雨模型之多次去除單一圖像雨點
在使用DDN模型的過程中,我們嘗試了不同的除雨次數(1次、5次、10次、20次、30 次、40次、50次),以期望找到能夠普遍適用的最佳清晰畫面。最終我們認為重複除雨10次左右的效果最佳。
圖 19:實驗(4) 結果
號誌分類的部分
(1) 訓練圖像之大小:
圖像的大小直接影響模型的學習效率和特徵提取效果,過小的圖像可能導致號誌細節缺失,降低分類準確性。且CURE-TSR內含大量低於20*20的圖片,在多次以不同的尺寸進行實驗後(128、96、56、32...等),最終確定以56為訓練的最佳尺寸。
(2) Epoch 次數:
較多的 epoch 次數通常有助於模型更深入地學習數據特徵,從而提升準確性,但過多的 epoch 可能導致過擬合。在實驗過程中,以 python 畫出準確度的曲線以確認最佳的訓練深度,經多次測試後發現,當 epoch 達到500次時,模型的準確度趨於穩定,且能保持良好的泛化效果。
(3)訓練集的圖片數目差異:
訓練集的圖片數量通常會直接影響模型的學習效果與泛化能力。為了測試數據集規模對分類性能的影響,我們設置了不同的訓練集規模(如5%、10%、20%等),並觀察在不同訓練集大小下模型的表現。實驗結果顯示,即使訓練集的數量有所不同,仍未明顯影響最終的分類性能,因此,訓練集的數量差異對分類準確率的影響相對較小,模型在較小的訓練集下仍能保持良好的識別能力,從而達到了訓練效率與分類準確度之間的平衡。
(4)HSV處理:
在分類號誌的訓練圖像集中,因原圖的損毀問題(如曝光過度、變暗等),這些損毀特性會直接改變圖像在 HSV 色彩空間中的分布,例如降低色相的穩定性或飽和度的均勻性。我們透過 HSV 分析,嘗試檢視損毀情況與分類表現之間的相關性,確認是否存在由色相、飽和度或亮度變化引起的分類障礙。同時,也探索亮度與對比度增強技術在修復損毀特徵、提升號誌圖像辨識效果方面的可能性,最終目標是改善模型對於損毀號誌的分類準確性。
之後我們利用 OpenCV 提供的圖像處理技術進行亮度和對比度的增強。具體來說,我們調整圖像的像素強度分布,使暗部細節更加清晰、亮部不至於過曝,從而平衡光照影響並提升圖像細節的可視性。我們希望在處理包含多種損毀條件的資料集時,提高訓練與測試的一致性與效果。
(5)CYCLE處理:
使用 Cycle-SNSPGAN進行圖像去霧處理,專注於消除霧霾對圖像的影響,以改善模型在低能見度情況下的識別效果。此對照組有助於了解不同損毀修復方法對模型分類效果的提升。
5、實驗分析
分為前期實驗結果分析和後期 :
在前期除霧實驗的結果分析中,我們利用HSI(色相、飽和度、亮度)作為輔助工具,來詳細檢視模型在不同訓練條件下的影像修復效果。無損毀的原始圖像(Challenge free)提供了標準參數,結果顯示其色相、飽和度和亮度均維持在正常水準,未受到雜訊或其他損毀影響。而霧霾條件下的受損圖像(Haze5)則呈現出顯著變化,色相分布不均、飽和度較低、亮度偏左,反映出霧霾造成的影響,並可在亮度直方圖中觀察到整體亮度分布的偏移。
在訓練參數方面,增加Epoch數量的確在一定程度上改善了圖像修復效果,尤其對色相和亮度的回復有所幫助。然而,這一改善在單一資料集(如純CURE-TSR號誌資料集)中效果有限,隨著Epoch數量的增加,色相、飽和度和亮度的恢復表現並未顯著提升,說明訓練週期的增長對單一資料集的模型提升較為有限,可能需要更豐富的資料集組合來發揮其效益。
後期我們專注於分類圖片的準確度與損毀等級表格的比較,對於全損毀圖片(no_Challenge)的表現來看,訓練與測試皆無處理的模型(編號:0928-2228)表現最佳。此外,訓練與測試皆進行HSV處理的模型(編號:1015-2231)也表現出色,兩者的分類結果均遠超我們的參考對象 Aisha Batool等人(2023)的測試結果。我們認為,這一成效主要得益於 ConvNeXt模型架構的成功應用,同時也認為HSV處理在修復過程中起到了顯著的幫助作用,尤其是在改善圖像亮度和對比度方面。另外在測試全部都是無毀損的Challenge Free類型,測試11544張數,準確率達到95.21%。
總結來說,前期HSI分析為我們提供了精確評估模型在不同訓練條件下表現的有效工具,通過對比不同的圖像條件、資料集比例和Epoch數量,我們更深入地了解了模型在影像修復中的效果及其改進潛力。而後期我們進一步分析分類準確度和損毀等級的表現發現,全損毀圖片(no_ChallengeFree)訓練且無處理的模型(1102_0242)在損毀圖像分類中表現最佳,而進行 HSV處理的模型(1015-2231)則在亮度和對比度上顯示出顯著改善。綜上所述,ConvNeXt架構的成功應用以及HSV處理對亮度和對比度的改善都對模型的影像修復能力有顯著貢獻。未來,需進一步的實驗來驗證並優化這些配置策略。
表 4:全損毀圖片(no_ChallengeFree)訓練且無處理的模型(1102_0242)在損毀 圖像分類中實驗結果
表 5:各種損毀圖像分類中實驗結果像分類中實驗結果
本研究旨在提升低品質交通號誌影像的分類效能並輔以多種修復手段,在過程中,通過一系列實驗和測試,確立不同訓練條件下模型的表現,以期達到最佳效果。
在影像修復方面,我們首先採用了 HSI(色調、飽和度、強度)解析方法,這種方法相比傳統的 RGB色彩模式能夠提供更為豐富的圖像信息。HSI分析讓我們能夠更精確地評估圖像修復的效果,並觀察模型在不同條件下的修復能力。經過多輪實驗後,我們發現,儘管較高的epoch數量有助於損失率的下降,但僅依賴損失率來評估模型表現並不能完全反映其修復效果。這一發現促使我們進一步調整評估標準,除了考慮損失率外,還加入了對圖像視覺質量和結構相似度的評估,從而全面了解模型在影像修復中的表現。
進一步的實驗顯示,模型的修復能力受訓練資料集和參數設定的影響。例如,以無干擾的原始圖像(Challenge free)作為基準,這些圖像提供了理想的參照標準,顯示出色相、飽和度和亮度的正常狀態。然而,在霧霾最為嚴重的圖像(Haze5)中,色相分布不均,飽和度較低,亮度偏暗,這顯示霧霾對圖像的干擾影響,並驗證了模型在低能見度條件下的恢復能力。當使用混合資料集(包括交通號誌和其他現實圖像)的訓練時,修復效果顯著改善,色相、飽和度和亮度的恢復都有明顯提升。儘管如此,我們也發現,僅僅增加訓練資料的數量並未必能顯著提高模型在霧霾條件下的除霧效果。
在分類方面,我們發現ConvNeXt模型架構在處理低品質影像分類問題時,表現出顯著的優勢。尤其是在使用HSV處理技術後,圖像的亮度和對比度得到了顯著修復,這對於分類準確度的提升起到了關鍵作用。模型對於無損圖像(Challenge free)仍能表現出優異的分類效果,顯示出模型具有良好的泛化能力。這一點在不同條件下進行的測試中得到了充分驗證,表明該模型在處理無損圖像時的表現未受到過多影響。然而,這些實驗結果主要基於靜態影像,對於動態影像的分類能力仍需進一步的研究和測試。
總體而言,本研究表明,無論是在影像修復還是分類方面,HSI(HSV)分析方法都為評估圖像狀態提供了一個有效的工具。通過比較不同圖像條件、資料集比例和Epoch數量的影響,我們能夠更精確地理解模型在修復和分類方面的效果以及潛在的改進方向。綜合來看,本研究不僅在影像修復和分類提供了有價值的數據支持,還對未來的研究方向提供了具體建議,將繼續關注在現實環境中的應用測試和動態影像處理,這將成為進一步提升模型性能的重點領域。
[1] Huang, L.-Y., Yin, J.-L., Chen, B.-H., & Ye, S.-Z. (2019). Towards Unsupervised Single Image Dehazing With Deep Learning. IEEE International Conference on Image Processing (pp. 76-80). IEEE. https://doi.org/10.1109/ICIP.2019.8803316
[2] Ho, J., Jain, A., & Abbeel, P. (2020). Denoising Diffusion Probabilistic Models. arXiv preprint arXiv:2006.11239v2. https://doi.org/10.48550/arXiv.2006.11239
[3] Nichol, A., & Dhariwal, P. (2021). Improved denoising diffusion probabilistic models. arXiv. https://doi.org/10.48550/arXiv.2102.09672
[4] Wang, Y., Yan, X., Guan, D., Wei, M., Chen, Y., Zhang, X.-P., & Li, J. (2022). Cycle-SNSPGAN: Towards Real-World Image Dehazing via Cycle Spectral Normalized Soft Likelihood Estimation Patch GAN. IEEE Transactions on Intelligent Transportation Systems, PP(99), 1-15. https://doi.org/10.1109/TITS.2022.3170328
[5] Temel, D., Kwon, G., Prabhushankar, M., & AlRegib, G. (2017). CURE-TSR: Challenging unreal and real environments for traffic sign recognition. In 31st Conference on Neural Information Processing Systems (NIPS), Machine Learning for Intelligent Transportation Systems Workshop. Long Beach, CA, USA. https://doi.org/10.48550/arXiv.1712.02463
[6] Shoshin, A. V., & Shvets, E. A. (2021). Veiling glare removal: synthetic dataset generation, metrics and neural network architecture. Computer Optics, 45(4), 615-626. https://doi.org/10.18287/2412-6179-CO-883
[7] Yakun Chang, & Cheolkon Jung (2019). Single Image Reflection Removal Using Convolutional Neural Networks. IEEE Transactions on Image Processing, 28(4), 1954-1966. https://doi.org/10.1109/TIP.2018.2880088
[8] Liu, Z., Mao, H., Wu, C.-Y., Feichtenhofer, C., Darrell, T., & Xie, S. (2022). A ConvNet for the 2020s. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). arXiv. https://doi.org/10.48550/arXiv.2201.03545
[9] Batool, A., Nisar, M. W., Khan, M. A., Shah, J. H., Tariq, U., & Damaševičius, R. (2023). Traffic sign recognition using proposed lightweight twig-net with linear discriminant classifier for biometric application. Image and Vision Computing, 135, 104711. https://doi.org/10.1016/j.imavis.2023.104711
[10] Shiting Ye, Bo-Hao Chen, Jia-Li Yin, Hsiang-Yin Cheng, & Dewang Chen (2022). Deep Trident Decomposition Network for Single License Plate Image Glare Removal. IEEE Transactions on Intelligent Transportation Systems, 23(7), 6596-6607. https://doi.org/10.1109/TITS.2021.3058530