
잔차 게이팅 어텐션 스킵 연결 기반 이미지 디노이징 알고리즘
초록
U-Net 구조의 이미지 디노이징 네트워크는 skip connection을 통해 고해상도 정보를 전달하지만, 노이즈가 포함된 특징까지 무조건적으로 전달하는 한계가 있다. 본 논문에서는 이러한 문제를 해결하기 위해 잔차 게이팅 어텐션 메커니즘 기반의 skip connection을 제안한다. 제안 기법은 채널 어텐션과 공간 어텐션을 결합하여 각 채널의 중요도와 공간 위치별 신뢰도를 학습하고, 이를 기반으로 노이즈는 억제하고 유용한 구조 정보를 전달한다. 이미지 디노이징 분야의 주요 8개 벤치마크 데이터셋에서 실험한 결과, 제안 모델은 5개 데이터셋에서 비교 모델 중 최고 성능을 달성하였다. 특히 베이스 모델과 동일한 학습 파라미터 및 유사한 추론 속도를 유지하면서도 PSNR 기준 평균 0.41%, SSIM 기준 평균 0.33% 향상되어 효율적인 디노이징 성능을 입증하였다.
Abstract
While U-Net-based image denoising networks utilize skip connections to transfer high-resolution information, they suffer from the limitation of unconditionally transmitting noise-contaminated features. To address this issue, this paper proposes a novel skip connection scheme based on a Residual Gated Attention mechanism. The proposed method integrates channel and spatial attention to learn channel-wise importance and spatial confidence, thereby effectively suppressing noise while selectively transferring useful structural information. Experiments on eight major benchmark datasets in image denoising demonstrate that the proposed model achieves the best performance among the compared models on five datasets. Furthermore, while maintaining the same number of training parameters and comparable inference speed as the baseline model, the proposed method achieves an average improvement of 0.41% in PSNR and 0.33% in SSIM, demonstrating efficient denoising performance.
Keywords:
image denoising, skip connection, gating attention, channel attention, spatial attentionⅠ. 서 론
디지털 이미지는 센서 특성, 전송 과정, 디지털 풍화 등 여러 요인으로 인해 불가피하게 노이즈(Salt and Pepper Noise, Gaussian Noise, Uniform Noise 등)가 발생한다. 이러한 노이즈는 이미지의 시각적 품질을 저하시킬 뿐만 아니라, 객체 탐지, 이미지 분할, 다중 객체 추적 등 다른 컴퓨터 비전 작업의 성능에도 부정적인 영향을 미친다. 따라서 이미지 디노이징은 컴퓨터 비전 분야에서 핵심적인 연구 주제로 다루어져 왔다. 전통적인 이미지 디노이징 방식으로는 가우시안 필터링, 중간값 필터링과 같은 공간 영역 기반 방법과 웨이블릿 변환을 활용한 주파수 영역 기반 방법이 있다[1]. BM3D(Block-Matching and 3D Filtering)[2]는 비지역적 자기 유사성(Non-local self-similarity)을 활용하여 우수한 디노이징 성능을 보였으나, 계산 복잡도가 높고 복잡한 노이즈 패턴에 대한 적응력이 제한적이라는 한계가 있다.
딥러닝 기술의 발전으로 합성곱 신경망(CNN, Convolutional Neural Network) 기반의 이미지 디노이징 연구가 활발히 진행되고 있다. DnCNN은 잔차 학습과 배치 정규화를 활용하여 가우시안 노이즈 제거에서 높은 성능 개선을 이루었다[3]. 또한 다중 스케일 특징을 효과적으로 추출하고 융합할 수 있는 U-Net 기반 인코더-디코더 구조의 네트워크가 이미지 디노이징 분야에서 활용된다[4]. 그러나 기존의 인코더-디코더 구조의 네트워크는 skip connection을 통해 인코더의 특징을 디코더로 전달하는 과정에서 한계가 존재한다. skip connection은 공간적 세부 정보를 보존하여 복원 성능을 향상시키지만, 인코더 단계에서 완전히 제거되지 않은 노이즈까지 디코더로 전달되는 문제가 발생한다. 이로 인해 노이즈가 남은 상태로 복원 이미지가 생성되어 디노이징 성능이 저하될 수 있다.
이러한 문제를 해결하기 위해 본 논문에서는 잔차 게이팅 어텐션 메커니즘을 적용한 skip connection을 제안한다. 제안하는 방법은 채널 어텐션(Channel attention)과 공간 어텐션(Spatial attention)을 순차적으로 적용한 후 skip connection을 통해 특징 맵의 유용한 구조 정보와 노이즈를 구분하여 디코더로 전달한다. 채널 어텐션을 통해 특징 맵의 채널 간 중요도를 파악한다. 공간 어텐션은 신뢰도 맵(Confidence map)을 생성하여 특징 맵에서의 공간적 위치별로 전달 비율을 조절한다. 이를 통해 특징 맵에서 노이즈가 있는 불필요한 정보는 억제하고 유용한 구조적 정보는 디코더로 전달함으로써 이미지 디노이징의 성능을 개선한다.
본 논문의 주요 기여는 다음과 같다. 첫째, 기존 인코더-디코더 기반 디노이징 네트워크의 skip connection이 노이즈까지 전달하는 구조적 한계를 분석하고, 이를 해결하기 위해 skip connection 경로에 학습 가능한 게이팅 메커니즘을 도입한 네트워크 구조를 제안한다. 둘째, 채널 어텐션과 공간 어텐션을 순차적으로 결합한 잔차 게이팅 어텐션 모듈을 설계하여, 채널별 중요도와 공간 위치별 신뢰도를 평가한다. 이를 통해 노이즈는 억제하고 유용한 구조 정보는 선택적으로 전달하는 이중 게이트 구조를 구현한다. 마지막으로 제안하는 모듈은 전역 풀링과 소규모 컨볼루션 연산으로 구성되어 베이스라인 모델 대비 파라미터 증가 없이 적용 가능하며, 8개의 벤치마크 데이터셋에서의 실험을 통해 제안 방법의 효과성을 정량적, 정성적으로 검증한다.
본 논문의 구성은 다음과 같다. 2장에서는 이미지 디노이징과 관련된 선행 연구에 대해 서술한다. 또한 CNN 기반의 SOTA 성능을 선보인 ConvIR에 대해 소개한다[5]. 3장에서는 본 논문에서 제안하는 잔차 게이팅 어텐션 skip connection의 구조와 동작 원리를 자세히 기술한다. 4장에서는 제안하는 잔차 게이팅 어텐션 skip connection의 성능 실험에 대해 서술한다. 제안 방법과 BM3D 그리고 기존 CNN 기반 이미지 디노이징 알고리즘인 DnCNN, SCUNet, ConvIR의 성능 비교를 위한 실험 환경 및 결과를 서술한다. 마지막으로 5장에서는 제안한 기법에 대해 결과를 서술하고 본 연구의 한계점 및 향후 연구 방향을 서술한다.
Ⅱ. 관련 연구
2.1 전통 이미지 디노이징 기법
전통적인 공간 영역 기반 이미지 디노이징 기법으로는 이미지의 픽셀 값에 대해 특정 크기의 필터를 통해 중앙값을 취하여 노이즈를 제거하는 중간값 필터가 있다[6]. 산술 평균을 통해 날카로운 엣지는 무뎌지고 이미지 내 노이즈를 감소시켰다. 가우시안 필터[7]는 픽셀 간의 거리에 따른 가중치를 설정하여 부드러운 노이즈 제거가 가능하다. 공간 영역 기반의 방식 외에도 푸리에 변환과 같은 주파수 영역 기반의 노이즈 제거 방식도 있다. 이미지 내 신호를 분해하는 푸리에 변환 방식은 주파수의 위치 정보가 손실된다는 문제가 있으며, 이를 보완한 방식이 웨이블릿 변환이다[8]. 웨이블릿 변환은 이미지의 주파수 정보와 위치 정보를 모두 유지하며 신호를 분해한다. 이를 통해 압축하는 과정에서 이미지의 노이즈를 제거한다. 공간 영역, 주파수 영역 방식 외에도 노이즈 제거 기법으로 딥러닝이 개발되기 이전까지 높은 성능을 보인 BM3D[2]도 있다. BM3D는 2D 이미지를 3D 블록으로 변환 후 노이즈를 제거한다.
2.2 딥러닝 기반 이미지 디노이징
딥러닝의 발전으로 이미지 디노이징 분야에서 뛰어난 성능이 달성되고 있다. 기존 필터 기반 방법이나 변환 도메인 기법과 다르게 딥러닝 기반 방법은 데이터로부터 노이즈 패턴을 자동으로 학습하여 우수한 노이즈 제거 성능을 보여준다. DnCNN[9]은 딥러닝 기반 이미지 디노이징의 대표적인 연구이다. DnCNN의 아키텍처는 VGG 네트워크 구조를 기반으로 설계되었으며, 잔차 학습, 배치 정규화를 활용하여 학습 속도와 디노이징 성능을 높였다. 이 DnCNN과 웨이블릿 변환 기법을 결합하여 디노이징 성능을 높인 연구도 있다[10]. 웨이블릿 변환을 통해 노이즈가 주로 존재하는 고주파 성분과 영상 구조 정보가 있는 저주파 성분을 분리하여 디노이징의 성능을 높였다. U-Net 아키텍처와 CBAM 모듈을 결합하여 CT 영상에서의 노이즈를 제거하는 연구가 있다[11]. CT 영상에서 3가지 어텐션 모듈을 통해 다양한 특징 정보를 추출하여 디노이징에 중요한 영역에 집중하도록 하여 성능을 높였다. 이러한 지도학습 말고도 강화학습 기반으로 DT(Digital Tomosynthesis) 의료 영상에서 디노이징을 진행한 연구도 있다[12]. 다중 에이전트 강화학습과 CNN 방식을 결합하여 DT 영상의 노이즈 특성에 특화된 성능을 보였다. U-Net과 ResNet을 융합하여 Plug-and-Play 영상 복원을 위해 설계된 DRUNet 연구도 있다[13]. DRUNet은 다양한 노이즈 레벨에도 대응 가능한 아키텍처로 단일 모델로도 높은 성능을 보였다. Swin-Transformer의 비지역적 모델링 능력을 응용한 이미지 디노이징 연구도 있다[14]. SC(Swin-Conv)는 잔차 컨볼루션 레이어의 지역적 모델링 능력에 비지역적 모델링 능력을 통합하여 이미지 디노이징의 성능을 높였다. 단순 신경망 방식 기반 연구뿐만 아니라 생성형 모델인 GAN 기반의 디노이징 연구도 있다[15][16]. 인코더-디코더 구조와 GAN을 활용하여 노이즈가 제거된 이미지를 생성한다.
2.3 어텐션 메커니즘
어텐션 메커니즘은 입력된 특징 중에서 중요 부분에 선택적으로 집중할 수 있도록 하는 이미지 처리 분야에서 활용되는 기법이다. SE-Net(Squeeze-and-Excitation Networks)[17]은 채널 어텐션을 통해 중요 채널의 특징 정보를 강화하고 불필요한 채널의 특징은 억제한다. 한편, 채널 중요도뿐 아니라 공간적 위치에 따른 중요도를 함께 반영하기 위해 채널 어텐션과 공간 어텐션을 결합한 모듈도 제안되었으며, 대표적으로 CBAM(Convolutional Block Attention Module)[18]은 채널 어텐션과 공간 어텐션을 순차적으로 적용한다. CBAM에서 채널 어텐션은 전역 평균 풀링과 최대 풀링을 병렬로 처리하고 공간 어텐션은 평균 및 최대 풀링을 수행한 후 공간적 중요도 맵을 생성한다. CBAM은 기존 네트워크에 적용 시 파라미터 증가가 적어 이미지 분류, 객체 탐지, 이미지 디노이징 등 다양한 컴퓨터 비전 분야에서 활용 가능하다. 본 연구에서는 CBAM을 통한 skip connection으로 노이즈 전달 문제를 해결하고자 한다.
2.4 베이스 모델: ConvIR
Transformer 기반 이미지 디노이징 모델은 CNN 기반 방법 대비 향상된 성능을 보고한 연구들이 있으나, 높은 계산 복잡도와 메모리 사용량이라는 한계가 지적됐다. 이러한 한계를 완화하면서도 Transformer 계열과 경쟁력 있는 성능을 달성하기 위해 CNN 기반으로 설계된 ConvIR[5]이 제안되었다. ConvIR은 U-Net 스타일의 인코더-디코더 구조로 설계되었으며, 인코더에서 다중 스케일 특징을 추출하고 디코더에서의 업샘플링을 통해 이미지를 복원한다. 인코더로 이미지가 입력되기 전에 원본 이미지를 기존 해상도의 1/2과 1/4로 다운샘플링한 후 인코더로 입력된다. 그 후 인코더에서 잔차 블록을 활용하여 이미지 특징을 학습하며, 배치 정규화 없이도 안정적인 학습이 가능하도록 설계되었다.
이러한 다중 스케일 특징 추출로 저수준의 세부 정보(엣지, 텍스처)부터 고수준의 의미적 정보(전역 구조)까지 정보를 얻을 수 있다. 또한, 각 스케일마다 독립적인 손실 함수를 적용하여 다중 스케일 지도 학습을 통해 네트워크의 학습 안정성을 효과적으로 향상한다.
ConvIR은 skip connection을 통해 인코더 과정에서 손실될 수 있는 고해상도 정보를 디코더로 바로 전달한다. 이러한 skip connection은 세부 텍스처 복원에 필수적인 정보 전달을 통해 정보 소실 문제를 해결하고, 깊은 네트워크의 학습을 돕는다. 그러나 기존 skip connection은 인코더의 특징 정보를 무조건적으로 디코더로 전달하여 노이즈가 포함된 특징 정보도 디코더로 전달되는 문제가 발생한다. 특히 얕은 레이어의 특징 정보에서는 노이즈가 많이 내재되어 있기에 그대로 전달할 경우 최종 복원 결과에 노이즈가 남아 있을 수 있다. 따라서 본 연구에서는 이러한 한계를 극복하고자 skip connection에 게이팅 어텐션 메커니즘을 도입하여 유용한 정보만 선택적으로 전달한다.
Ⅲ. 제안하는 알고리즘
3.1 전체 아키텍처 구조
그림 1은 본 논문에서 제안하는 이미지 디노이징 알고리즘의 전체 아키텍처 구조를 나타낸다. 전반적인 아키텍처 구조는 베이스로 삼은 ConvIR처럼 U-Net 스타일의 인코더-디코더 구조를 따른다. 입력 이미지를 h/2*w/2 사이즈와 h/4*w/4 사이즈로 다운샘플링하여 다중 스케일 특징을 계층적으로 추출하고 이를 점진적으로 업스케일링하며 이미지 복원을 진행한다.
다만 기존 ConvIR과 핵심적인 차이점은 skip connection의 설계 방식에 존재한다. 제안 모델은 인코더에서 추출된 특징을 무조건적으로 디코더로 전달하지 않고 잔차 게이팅 어텐션으로 중요 정보와 노이즈를 구별하면서 정보를 전달한다. 이를 통해 노이즈가 억제된 특징이 skip connection을 통해 디코더로 전달된다. 각 디코더에서는 h/4*w/4 사이즈의 이미지와 h/2*w/2 사이즈의 이미지 그리고 h*w 사이즈의 이미지까지 총 3개의 결과 이미지를 생성한다. 3개의 결과 이미지에 대한 손실(loss)을 합산하여 모델 학습을 진행한다.
3.2 잔차 게이팅 어텐션 메커니즘
제안 모델은 skip connection을 통해 전달되는 인코더 특징에서 노이즈 성분을 효과적으로 억제하고 유용한 정보만을 선택적으로 전달하기 위해 신뢰도 기반 잔차 게이팅 어텐션(Residual-gated attention) 메커니즘을 제안한다. 잔차 게이팅 어텐션은 채널 어텐션과 공간 어텐션을 순차적으로 적용하여 “어떤 채널의 특징이 중요한가”와 “어느 위치가 중요한가”를 동시에 학습한다. 채널 어텐션 모듈은 입력 특징맵의 각 채널이 디노이징 작업에 얼마나 기여하는지를 학습한다. 디노이징 과정에서 모든 채널이 동등하게 중요한 것이 아니며, 노이즈에 민감한 채널과 구조 정보를 담고 있는 채널을 구분하여 가중치를 부여할 필요가 있다. 입력 특징맵 가 주어졌을 때, 먼저 전역 평균 풀링(Global average pooling)과 전역 최대 풀링(Global max pooling)을 통해 채널별 통계량을 추출한다. 식 (1)은 전역 평균 풀링을 통해 각 채널의 평균 활성화 값을 계산하는 과정을 나타내며, 식 (2)는 전역 최대 풀링을 통해 각 채널에서 가장 두드러진 활성화 값을 추출하는 과정을 나타낸다.
| (1) |
| (2) |
여기서 이다. 전역 평균 풀링은 채널의 전반적인 특징을 포착하고, 전역 최대 풀링은 채널 내 가장 두드러진 특징을 포착한다. 두 통계량을 상호 보완적으로 활용하여 채널 중요도를 정확하게 추정할 수 있다. 식 (3)은 두 통계량을 공유 MLP에 통과시킨 후 합산하는 과정을 나타내며, 식 (4)는 시그모이드 함수를 적용하여 최종 채널 가중치를 산출하는 과정을 나타낸다.
| (3) |
| (4) |
여기서 W0와 W1은 학습 가능한 파라미터이며, σ는 시그모이드 함수로서 출력값을 [0, 1] 범위로 정규화하여 각 채널의 중요도를 나타낸다. 공간 어텐션 모듈은 특징 맵의 각 공간적 위치가 얼마나 신뢰할 수 있는 정보를 담고 있는지를 평가하는 신뢰도 맵(Confidence map)을 생성한다. 노이즈가 포함된 이미지에서 추출된 인코더 특징은 위치에 따라 노이즈의 정도가 다르며, 이를 구별하여 노이즈가 집중된 영역의 정보 전달을 억제하는 것이 핵심 아이디어이다. 채널 어텐션이 적용된 특징맵 로부터 채널 축을 따라 평균과 최대값을 계산하여 2채널의 공간 기술자를 생성한다. 식 (5)는 채널 방향 평균 풀링을 통해 해당 위치의 전반적인 활성화 수준을 계산하는 과정을 나타내며, 식 (6)은 채널 방향 최대 풀링을 통해 가장 강하게 반응하는 특징의 존재 여부를 확인하는 과정을 나타낸다.
| (5) |
| (6) |
채널 방향 평균은 해당 위치의 전반적인 활성화 수준을 나타내고 채널 방향 최대값은 가장 강하게 반응하는 특징의 존재 여부를 확인한다. 식 (7)은 두 공간 기술자를 연결(Concatenation)한 후 7*7 컨볼루션 연산을 통해 신뢰도 맵을 나타낸다.
| (7) |
여기서 7*7 커널 크기의 컨볼루션 연산을 의미하며 넓은 수용 영역(receptive field)을 통해 주변 맥락 정보를 고려한 신뢰도 평가가 가능하다. 시그모이드 함수를 통해 출력된 Ms는 각 공간 위치의 신뢰도를 [0, 1] 범위로 나타낸다. 일반적으로 이미지의 평탄한 영역은 노이즈의 영향이 상대적으로 적고 구조 정보가 명확하여 높은 신뢰도를 갖는 반면에 엣지나 텍스처 영역은 노이즈와 유사한 고주파 특성을 가지므로 신뢰도 평가가 복잡하게 이루어진다. 본 모듈을 통해 학습하면서 노이즈와 중요한 고주파 정보를 구분하는 능력을 얻는다. 채널 어텐션과 공간 어텐션을 순차적으로 결합하여 최종적인 잔차 게이팅 어텐션 메커니즘을 구성한다. 이 메커니즘은 skip connection을 통해 전달되는 인코더 특징을 선택적으로 필터링하며 디코더가 노이즈가 억제된 중요 특징만을 받을 수 있다. 식 (8)은 입력 특징 맵 F에 대해 잔차 게이팅 어텐션의 최종 출력은 다음과 같이 나타낸다.
| (8) |
여기서 첫 번째 항 F는 인코더 특징의 원본 정보를 보존하는 항등 경로이며, 두 번째 항 은 채널 및 공간 어텐션에 의해 학습된 잔차 보정 신호이다. Mc는 채널 가중치, Ms는 공간 신뢰도 맵이며, 브로드캐스팅을 통해 원본 특징 맵과 동일한 차원에서 요소별 곱셈이 수행된다. 시그모이드 함수의 출력으로 [0, 1] 범위를 가지므로 잔차 항 은 [-1, 0] 범위의 값을 갖는다. 이는 잔차 보정이 원본 특징에서 노이즈 성분을 선택적으로 억제하는 방향으로만 작동함을 의미한다. 어텐션 값이 1에 가까운 위치에서는 원본 특징이 그대로 전달되고, 0에 가까운 위치에서는 해당 정보가 강하게 억제되어 노이즈 전달이 차단된다. 잔차 게이팅 어텐션 메커니즘은 Mc와 Ms를 통해 선택적으로 특징을 전달하는 이중 게이트 구조로 작동된다. 먼저 Mc는 채널 게이트의 역할로 노이즈에 민감한 채널의 정보를 억제하고 구조 정보를 담고 있는 채널을 강화한다. Ms는 공간 게이트의 역할로 노이즈가 집중된 공간 위치의 정보를 억제하고 신뢰할 수 있는 위치 정보는 통과시킨다. 이로한 이중 게이트를 통해 기존 skip connection의 한계점인 노이즈 전달 문제를 방지할 수 있다. 기존의 skip connection은 인코더 특징을 여과 없이 디코더로 전달하는 반면, 제안하는 잔차 게이팅 어텐션 메커니즘은 학습된 신뢰도에 기반하여 정보의 품질을 평가하고 선택적으로 전달한다.
Ⅳ. 실험 및 결과
4.1 실험 환경
4.1절에서는 제안하는 잔차 게이팅 어텐션 메커니즘의 성능을 검증하기 위해 사용한 벤치마크 데이터셋과 실험을 진행한 하드웨어 및 소프트웨어 환경, 그리고 실험 환경 세팅에 관해 서술한다.
본 연구에서 이미지 디노이징 성능 비교를 위해 학습 데이터셋과 벤치마크 데이터셋을 분리하여 사용하였다. 학습 데이터셋은 고해상도 이미지 복원 연구에서 활용되는 DIV2K 데이터셋을 사용하였다. DIV2K는 다양한 장면과 텍스처를 포함하는 고품질 이미지들로 구성되어 있으며, 이를 기반으로 노이즈가 포함된 이미지를 생성하여 학습에 활용하였다. 벤치마크 데이터셋은 표준 자연 이미지(Set5, Set14)와 고품질의 범용적 데이터셋(BSD100, CBSD68, Kodak24, McMaster)을 통해 전반적인 노이즈 제거 능력을 확인하며, 세밀한 텍스처(MANGA109)와 복잡한 기하학적 인공 패턴(Urban100)을 지닌 데이터셋 총 8개 벤치마크 데이터셋을 사용하여 모델의 일반화 성능을 검증하였다. 노이즈 입력 이미지를 만들기 위해, 원본 DIV2K 데이터셋에 가우시안 노이즈(Gaussian noise, σ=15, 25, 50)를 추가하여 노이즈 입력 이미지를 생성하였다. 이를 통해 실제 환경에서 발생 가능한 센서 노이즈 상황을 모사하였다. 모든 실험의 학습 및 추론 과정에서는 동일한 NVIDIA RTX 5090 GPU를 사용하였다. 딥러닝 프레임워크로는 PyTorch 2.9.0 버전을 사용했으며, 안정적인 학습과 실험 재현성을 위해 고정 랜덤 시드(Seed)를 사용하였다. Ubuntu 24.04 기반 운영체제 환경에서 실험을 진행했으며, CUDA 13.0 및 cuDNN 9.13.0 버전의 라이브러리를 사용해 GPU 가속을 적용하였다. 모든 비교 모델과 제안한 모델의 학습 시 배치 사이즈는 공정한 실험을 위해 동일한 설정 원칙을 적용하였으며, GPU 메모리 사용량을 고려해 각 모델이 안정적으로 학습 가능한 범위에서 설정하였다. 모델의 효율적인 학습을 위해 고해상도 이미지인 DIV2K 데이터셋의 이미지를 128*128의 패치로 무작위로 추출하여 학습에 활용하였다. 모델 학습의 최적화 기법으로는 AdamW 옵티마이저를 사용했으며, 이는 가중치 감쇠를 효과적으로 반영해 일반화 성능을 향상하기 위해 활용하였다. 초기 학습률(lr)은 일정 값(lr=0.001)으로 설정한 후, 학습이 진행됨에 따라 점진적으로 감소시키는 학습률 스케줄러를 적용하였다. 모든 모델의 학습은 동일하게 200 에폭 동안 진행되었으며, 학습 과정에서 손실 함수의 수렴 여부를 모니터링하였다. 이러한 실험 환경 세팅을 통해 비교 실험에서의 모델 간 공정한 비교가 가능하도록 실험 조건을 통제하였다.
4.2 평가 지표
본 연구에서는 제안하는 잔차 게이팅 어텐션 메커니즘의 성능을 정량적으로 평가하기 위해 이미지 복원 분야에서 사용되는 두 가지 화질 평가 지표를 사용하였다. 또한 모델의 학습 효율성을 평가하기 위해 파라미터 수를 지표로 사용하였다. PSNR은 원본 이미지와 복원 이미지 간의 픽셀 간 오차를 측정하는 기본적인 화질 평가 지표이다.
이 지표는 두 이미지 간의 평균 제곱 오차(MSE, Mean Squared Error)를 기반으로 계산되며, 지표의 단위는 데시벨(dB)이다. PSNR 값이 높을수록 복원 이미지가 원본 이미지와 유사하다는 것을 의미한다. PSNR은 계산이 간단하고 직관적인 해석이 가능하여 이미지 및 영상 복원 분야에서 기본적인 화질 평가 지표로 사용되고 있다. 다만 PSNR은 픽셀 단위의 수치적인 오차만을 측정하기에 사람이 시각적으로 느끼는 복원 성능과 항상 일치하지 않을 수 있다는 한계가 있다. SSIM[19]은 사람 시각의 특성을 고려하여 설계된 화질 평가 지표로, 두 이미지 간의 구조적 유사도를 측정한다. PSNR이 픽셀 단위의 절대적 오차에 초점을 맞추는 반면에 SSIM은 세 가지 요소인 휘도, 대비, 구조를 종합적으로 측정하여 평가한다. SSIM 값은 0과 1 사이의 값을 가지게 되며, 1에 가까울수록 두 이미지가 구조적으로 유사함을 의미한다. 따라서 SSIM은 이미지의 구조적 정보가 얼마나 잘 보존되었는지를 평가하는 데 활용된다. 디노이징 작업에서 노이즈 제거와 구조 보존은 연관성이 높은 경우가 많기에, SSIM을 성능 평가 지표로 사용하였다.
4.3 성능 비교 실험
표 1은 가우시안 노이즈(σ=15, 25, 50) 환경에서 8개의 벤치마크 데이터셋에 대한 각 알고리즘별 성능 비교 결과를 나타낸다. 수학적 기법 기반인 BM3D를 제외한 DnCNN, DRUNet, SCUNet[20], ConvIR 모두 CNN 기반 이미지 디노이징 알고리즘이다. 표에서 굵은 글씨로 표기한 결과는 비교한 방법 중 최고의 성능을 나타내며, 밑줄로 표기한 결과는 두 번째로 좋은 성능을 의미한다. σ=15인 경우 논문에서 제안한 잔차 게이팅 어텐션 메커니즘이 포함된 모델이 8개의 데이터셋 모두 최고 성능을 달성하였다. σ=25인 경우 8개의 데이터셋 중 6개에서 최고 성능을 달성하였으며, 나머지 2개에서는 차상위 성능을 보였다. 마지막으로 σ=50인 경우는 8개의 데이터셋 중 5개에서 최고 성능을 달성하였으며, 나머지 3개에서는 차상위 성능을 보였다. 비록 Set5, MANGA109, McMaster 데이터셋에서는 기존 알고리즘의 성능이 가장 높은 성능으로 나왔지만 제안한 모델의 성능도 두 번째로 높은 성능으로 전반적으로 우수함을 입증하였다. 특히 베이스모델인 ConvIR 대비 σ=15일 때는 PSNR은 평균 약 0.30%, SSIM은 평균 약 0.19% 향상되었다. σ=25일 때는 ConvIR 대비 PSNR은 평균 약 0.34%, SSIM은 평균 약 0.22% 향상되었다. 마지막으로 σ=50일 때는 ConvIR 대비 PSNR은 평균 약 0.58%, SSIM은 평균 약 0.59% 향상되었다. 노이즈가 클수록 향상 폭이 커지는 경향이 보이며, 제안한 skip connection에서의 잔차 게이팅 어텐션이 효과적임을 확인하였다. 제안 모델은 복잡한 텍스처를 포함한 Urban100과 McMaster에서 두드러진 성능 향상을 보였으며, 이는 잔차 게이팅 어텐션이 노이즈 억제와 유용한 구조 정보 보존에 기여했음을 보여준다.
표 2는 각 모델 별 학습 파라미터 수와 8개 벤치마크 데이터셋 별 1장당 평균 추론 시간을 나타낸다. BM3D는 수학적 최적화 기반의 비학습 기법으로 학습 파라미터가 없고 반복적인 수학적 연산과 필터링 연산으로 인해 1~7초대의 비교적 긴 추론 시간을 보인다. 딥러닝 기반 방법 중에서 가장 적은 파라미터와 빠른 추론 속도를 보이는 DnCNN은 표 1에서 확인할 수 있듯이 다른 딥러닝 모델에 비해 상대적으로 낮은 디노이징 성능을 보여준다. 본 논문에서 제안하는 모델은 베이스 모델인 ConvIR과 동일한 8.63M의 학습 파라미터 수를 유지하였다. 이는 잔차 게이팅 어텐션 메커니즘을 적용할 때 많은 학습 파라미터가 추가되지 않음을 나타낸다. 그리고 ConvIR과 유사한 수준의 추론 시간을 유지하며, 표 1에서 보이는 것처럼 ConvIR의 기존 성능을 능가하였다. 또한 제안 모델은 DRUNet의 약 1/4 정도의 학습 파라미터 수로 높은 성능을 보이거나 유사한 성능을 달성하면서, 실시간 처리 측면에서 효율적임을 보여주었다.
그림 2는 McMaster 데이터셋의 직물 이미지에 대한 각 모델별 디노이징 결과를 시각적으로 나타낸다. 녹색 박스로 표시된 영역의 천을 확대하여 보여준 부분이 빨간색 박스에 보이며 세부적인 디노이징 성능을 비교하였다. 입력 이미지는 σ=25의 가우시안 노이즈를 추가하였으며, 확대한 빨간색 박스 영역에서 파란색 천의 미세한 주름과 질감이 노이즈로 인해 손상된 것을 GT를 통해 확인할 수 있다. 모든 모델이 노이즈를 효과적으로 제거하였지만 제거하는 과정에서 파란색 천의 미세한 주름과 세부적인 질감까지 제거한 것으로 확인하였다. 실제로 확대한 빨간색 박스에서 천의 주름과 음영이 과도하게 평활화되어 밋밋한 결과를 보인다. 베이스 모델인 ConvIR은 전반적으로 우수한 디노이징 결과를 보이지만, 확대한 빨간색 박스 영역에서 파란색 천의 미세한 주름도 제거된 것을 확인할 수 있다. 하지만 본 연구에서 제안하는 잔차 게이팅 어텐션 메커니즘을 적용한 모델(Our)의 경우 확대한 빨간색 박스 영역에서 GT와 가장 유사하게 천의 미세한 주름과 음영을 보존하였다. 다른 모델이 노이즈를 제거하는 과정에서 함께 손실시킨 표면의 미세한 굴곡과 명암 변화가 잘 보존되어 있으며, 주변 직물들의 질감 또한 선명하게 유지되었다. 이는 제안하는 잔차 게이팅 어텐션 메커니즘으로 평탄한 영역에서의 노이즈를 효과적으로 억제하고 미세한 구조 정보는 선택적으로 보존하여 과평활화 문제를 해결했음을 보여준다.
Ⅴ. 결론 및 향후 과제
본 논문에서는 이미지 디노이징을 위한 잔차 게이팅 어텐션 메커니즘 기반의 skip connection을 제안하였다. 기존 인코더-디코더 구조의 skip connection에서 발생하는 노이즈 전달 문제를 해결하고자 채널 어텐션과 공간 어텐션을 순차적으로 결합한 잔차 게이팅 어텐션 메커니즘을 설계하였다. 제안 방법의 성능을 비교 및 평가하기 위해 8개의 벤치마크 데이터셋으로 일반화 성능 실험을 진행하였다. 제안 모델은 베이스 모델과 거의 유사한 학습 파라미터 수를 유지하면서 8개 데이터셋 중 5개에서 최고 성능을 보였으며, 나머지 3개 데이터셋에서도 우수한 성능을 보였다. 또한 기존 베이스 모델 성능 대비 σ=15, 25, 50 전체 평균 PSNR은 0.41%, SSIM은 0.33% 향상되었다. 이를 통해 제안 기법이 skip connection에서의 노이즈 전달 문제를 완화하고, 구조 관련 특징을 선택적으로 전달하는 데 기여했음을 확인하였다. 제안 방법은 기존 인코더-디코더 구조에 최소한의 파라미터 증가만으로도 적용할 수 있기에 U-Net 기반의 네트워크에 다양하게 활용될 수 있을 것으로 기대된다.
본 연구는 다음과 같은 확장 연구가 필요하다. 가우시안 노이즈에 대해서만 성능 확인을 하였기에 블러, 압축 아티팩트 등 노이즈 외의 다른 열화 유형에 대한 디노이징 성능은 확장 연구가 필요하다. 향후 확장 연구에서는 다양한 노이즈에서 동시에 학습하는 블라인드 디노이징 모델로의 확장을 계획하고 있다. 마지막으로 제안한 잔차 게이팅 어텐션 메커니즘을 Transformer 기반 네트워크에 적용하여 연구의 확장성을 확보할 계획이다.
Acknowledgments
본 연구는 2026학년도 경기대학교 대학원 연구원장학생 장학금 지원에 의하여 수행되었음
본 연구는 정부(과학기술정보통신부)의 재원으로 한국연구재단의 지원을 받아 수행된 연구임(MSIT)(RS-2025-23524365)
References
-
Z. Jun, S. W. Wee, and J. C. Jeong, "WDENet: Wavelet-based Detail Enhanced Image Denoising Network", Journal of Broadcast Engineering, Vol. 26, No. 6, pp. 725-737, Nov. 2021.
[https://doi.org/10.5909/JBE.2021.26.6.725]
-
K. Dabov, A Foi, V. Katkovnik, and K. Egiazarian, "Image Denoising by Sparse 3-D Transform-Domain Collaborative Filtering", IEEE Transactions on Image Processing, Vol. 16, No. 8, pp. 2080-2095, Aug. 2007.
[https://doi.org/10.1109/TIP.2007.901238]
-
K. Zhang, W. Zuo, Y. Chen, D. Meng, and L. Zhang, "Beyond a Gaussian denoiser: Residual learning of deep CNN for image denoising", IEEE Transactions on Image Processing, Vol. 26, No. 7, pp. 3142-3155, Feb. 2017.
[https://doi.org/10.1109/TIP.2017.2662206]
-
Q. H. Nguyen and B. S. Kang, "An End-to-End Single Image Dehazing Method Using U-Net Architecture", Journal of Korean Institute of Information Technology, Vol. 19, No. 5, pp. 93-100, May 2021.
[https://doi.org/10.14801/jkiit.2021.19.5.93]
-
Y. Cui, W. Ren, X. Cao, and A. Knoll, "Revitalizing Convolutional Network for Image Restoration", IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 46, No. 12, pp. 9423-9438, Dec. 2024.
[https://doi.org/10.1109/TPAMI.2024.3419007]
-
T. Sun and Y. Neuvo, "Detail-preserving median based filters in image processing", Pattern Recognition Letters, Vol. 15, No. 4, pp. 341-347, Apr. 1994.
[https://doi.org/10.1016/0167-8655(94)90082-5]
-
J. P. F. D`Haeyer, "Gaussian filtering of images: A regularization approach", Signal processing, Vol. 18, No. 2, pp. 169-181, Oct. 1989.
[https://doi.org/10.1016/0165-1684(89)90048-0]
-
N. Kingsbury, "Image processing with complex wavelets", Philosophical Transactions of the Royal Society of London. Series A: Mathematical, Physical and Engineering Sciences, Vol. 357, No. 1760, pp. 2543-2560, Sep. 1999.
[https://doi.org/10.1098/rsta.1999.0447]
-
K. Zhang, W. Zuo, Y. Chen, D. Meng, and L. Zhang, "Beyond a Gaussian Denoiser: Residual Learning of Deep CNN for Image Denoising", IEEE Transactions on Image Processing, Vol. 26, No. 7, pp. 3142-3155, Jul. 2017.
[https://doi.org/10.1109/TIP.2017.2662206]
-
S. Y. Jang and D. H. Lim, "Medical Image Denoising using Wavelet Transform-Based CNN Model", Korean Society of Computer Information, Vol. 29, No. 10, pp. 21-34, Oct. 2024.
[https://doi.org/10.9708/jksci.2024.29.10.021]
-
C. Y. Park, M. S. Kwak, Y. S. Yoon, and B. D. Jo, "Denoising of CT Images Using U-Net Integrated with Convolutional Block Attention Module", Journal of Radiological Science and Technology, Vol. 48, No. 5, pp. 451-461, Oct. 2025.
[https://doi.org/10.17946/JRST.2025.48.5.451]
-
K. B. Nam and S. W. Lee, "Effect of network architectures in multi-agent reinforcement learning for denoising digital tomosynthesis images", Journal of the Korean Physical Society, Vol. 84, No. 6, pp. 479-487, Feb. 2024.
[https://doi.org/10.1007/s40042-024-01009-7]
-
K. Zhang, Y. Li, W. Zuo, L. Zhang, L. V. Gool, and R. Timofte, "Plug-and-Play Image Restoration with Deep Denoiser Prior", IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 44, No. 10, pp. 6360-6376, Oct. 2022.
[https://doi.org/10.1109/TPAMI.2021.3088914]
-
K. Zhang, Y. Li, J. Liang, J. Cao, Y. Zhang, H. Tang, D. P. Fan, R. Timofte, and L. V. Gool, "Practical Blind Image Denoising via Swin-Conv-UNet and Data Synthesis", Machine Intelligence Research, Vol. 20, No. 6, pp. 822-836, Sep. 2023.
[https://doi.org/10.1007/s11633-023-1466-0]
-
J. H. Heo and D. H. Lim, "An efficient dRED-TL-GAN model for image denoising", Journal of the Korean Data & Information Science Society, Vol. 35. No. 3, pp. 379-396, May 2024.
[https://doi.org/10.7465/jkdi.2024.35.3.379]
-
D. H. Ma, J. W. Park, and D. H. Lim, "Wavelet transform-based U-Net GAN for CT image denoising", Journal of the Korean Data & Information Science Society, Vol. 36, No. 2, pp. 229-248, Mar. 2025.
[https://doi.org/10.7465/jkdi.2025.36.2.229]
-
J. Hu, L. Shen, S. Albanie, G. Sun, and E. Wu, "Squeeze-and-Excitation Networks", IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 42, No. 8, pp. 2011-2023, Aug. 2020.
[https://doi.org/10.1109/TPAMI.2019.2913372]
-
S. H. Woo, J. C. Park, J. Y. Lee, and I. S. Kweon, "CBAM: Convolutional Block Attention Module", Proc. of the European Conference on Computer Vision (ECCV), Munich, Germany, Vol. 11211, pp. 3-19, Oct. 2018.
[https://doi.org/10.1007/978-3-030-01234-2_1]
-
Z. Wang, A. C. Bovik, H. R. Sheikh, and E. P. Simoncelli, "Image quality assessment: from error visibility to structural similarity", IEEE Transaction on Image Processing, Vol. 13, No. 4, pp. 600-612, Apr. 2004.
[https://doi.org/10.1109/TIP.2003.819861]
-
K. Zhang, et al., "Practical Blind Image Denoising via Swin-Conv-UNet and Data Synthesis", Machine Intelligence Research, Vol. 20, No. 6, pp. 822-836, Sep. 2023.
[https://doi.org/10.1007/s11633-023-1466-0]
2025년 2월 : 경기대학교 인공지능(학사)
2025년 3월 ~ 현재 : 경기대학교 컴퓨터과학과 석사과정
관심분야 : 컴퓨터 비전, 이상 탐지, 인공지능
1985년 2월 : 경기대학교 전자계산학과(이학사)
1987년 8월 : 중앙대학교 전자계산학과(이학석사)
1991년 2월 : 중앙대학교 전자계산학과(공학박사)
1999년 9월 ~ 2000년 8월 : 미국 Carnegie Mellon University 전산학과 방문교수
2006년 1월 ~ 2007년 2월 : 미국 Carnegie Mellon University 전산학과 방문교수
2014년 4월 ~ 2016년 2월 : 한국정보과학회 소프트웨어공학소사이어티 회장
1991년 2월 ~ 현재 : 경기대학교 AI컴퓨터공학부 교수
2021년 4월 ~ 현재 : 경기대학교 SW중심대학 총괄책임자
2006년 2월 : 이화여자대학교 서양화과(학사)
2013년 5월 : Colorado Boulder University MFA(석사)
2023년 9월 ~ 현재 : 이화여자대학교 융합콘텐츠학과 박사과정
관심분야 : 공간 인공지능, AI 기반 데이터 분석, 컴퓨터 비전 및 인식, 딥러닝 알고리즘, 패턴 분석, 경험 지표 개발 및 검증



