Korean Institute of Information Technology
[ Article ]
The Journal of Korean Institute of Information Technology - Vol. 20, No. 4, pp.107-122
ISSN: 1598-8619 (Print) 2093-7571 (Online)
Print publication date 30 Apr 2022
Received 03 Feb 2022 Revised 23 Mar 2022 Accepted 26 Mar 2022
DOI: https://doi.org/10.14801/jkiit.2022.20.4.107

영상의 구조적 왜곡억제를 위한 희소 그라디언트 가이드 주의집중 및 웨이블릿 손실을 활용한 초해상화

송건학* ; 이휘종** ; 손창환*** ; 추현승****
*성균관대학교 인공지능학과
**국립식량과학원 생산기술개발과
***군산대학교 소프트웨어학과 교수(교신저자)
****성균관대학교 소프트웨어학과 교수(교신저자)
Super Resolution with Sparse Gradient-Guided Attention and Wavelet Loss for Suppressing Image Structural Distortion
Geonhak Song* ; Hwijong Yi** ; Chang-Hwan Son*** ; Hyunseung Choo****

Correspondence to: ***Chang-Hwan Son Dept. of Software Science and Engineering, Kunsan National Unversity, 558 Daehak-ro, Gunsan-si, Jeollabuk-do, 54150, Republic of Korea Tel.: +82-063-469-8915, Email: cson@kunsan.ac.kr Correspondence to: ****Hyunseung Choo Dept. of Computer Science and Engineering, Sungkyunkwan University, 2066, Seobu-ro, Jangan-gu, Suwon-si, Gyeonggi-do, Republic of Korea Tel.: +82-031-290-7145, Email: choo@skku.edu

초록

적대적 생성망 기반의 초해상화 모델은 인지적 측면에서 만족할만한 우수한 영상 화질을 제공할 수 있지만 텍스처 영역에서 구조적인 왜곡 문제를 일으킨다. 이를 개선하기 위해, 생성자에 그라디언트 부신경망과 그라디언트 손실함수를 통합함으로써 텍스처 왜곡을 완화할 수 있지만, 여전히 텍스처 왜곡 문제는 현안으로 남아있다. 따라서 본 논문에서는 텍스처 왜곡이 보정된 초해상화 영상 복원을 위해 희소 그라디언트 가이드 주의집중 및 웨이블릿 손실함수 기반 초해상화 딥러닝 모델을 제시하고자 한다. 특히, 특징 간의 전역적 상호의존성을 모델링할 수 있는 희소 그라디언트 가이드 주의집중 모듈을 고안하여 텍스처 복원력을 제고하고자 한다. 또한, 텍스처 왜곡을 억제하기 위한 웨이블릿 기반 손실 모델을 제안하고자 한다. 실험 결과를 통해 제안된 초해상화 모델이 기존의 최신식 초해상화 모델에 비해, 텍스처 복원력을 개선하고 더 선명한 초해상화 영상을 생성할 수 있음을 보이고자 한다.

Abstract

Even though SR(Super-Resolution) models based on Generative Adversarial Networks(GANs) can recover perceptually pleasant image quality, they cause structural distortions in the texture area. To address this problem, gradient subnetwork and gradient-based loss model are incorporated into the generator to alleviate the image structure distortion, however textural distortions still remain a pending issue. Therefore, this paper proposes the SR deep learning model based on the sparse gradient-guided attention and wavelet loss that corrects the texture distortions for better SR image restoration. In particularly, a sparse gradient-guided self-attention to model global interdependency between features is designed, thereby increasing the power of structural reconstruction. In addition, a wavelet-based loss model that more strongly suppresses the textural distortions is presented. Through the experimental results, it is confirmed that the proposed SR model improves the power of texture reconstruction and generates much clearer SR images, compared to the state-of-the-art conventional SR methods.

Keywords:

super resolution, generative adversarial network, self attention, gradient, wavelet transform

Ⅰ. 서 론

단일 이미지 초해상화(SISR, Single Image Super Resolution)란 저해상도 이미지로부터 고해상도의 이미지를 복원하는 과정을 말한다. 초해상화 기술은 보간법(Interpolation)[1]과 같은 적응적 필터링 기반의 고전적인 접근 방식을 시작으로 얇은 학습인 사전학습(Dictionary learning)[2][3]을 사용하다가 최근에는 딥러닝이 대세를 이루고 있다. 초기 딥러닝 기반의 초해상화 모델은 픽셀의 정확한 복원력을 위해 픽셀 간 평균 제곱 오차(MSE, Mean Square Error)를 신경망의 손실로 사용했다.

이러한 픽셀 주도(Pixel-driven) 초해상화 딥러닝 모델[4]-[8]은 고전적인 초해상화 기법들과 비교했을 때 화질 측면에서 상당한 성능 개선을 이루었지만, 미세한 텍스처와 에지의 정확한 복원은 여전히 현안으로 남아있다. 이를 개선하기 위해 적대적 생성망(GAN, Generative Adversarial Network)[9] 구조를 가지는 인지 주도(Perceptual-driven) 방법이 제안되었다.

인지 주도 방법[5][10]-[14]은 더 선명한 이미지를 얻기 위해 특징 공간(Feature space)에서의 오차를 최소화하는 인지 손실(Perceptual loss)[15]을 사용한다. 하지만 초기 인지 주도 방법은 복원 영상의 텍스처 왜곡 현상이 발생하는 경향이 있다. 이를 해결하기 위해, 최근에는 생성자에 그라디언트 부신경망(Gradient subnetwork)을 붙이는 SPSR(Structure Preserving Super Resolution) 모델[14]이 제안되었다.

그림 1(a)-(d)에서 보듯이, SPSR은 다른 인지 주도 방법인 SRGAN(Super Resolution Generative Adversarial Network)[5], ESRGAN(Enhanced Super Resolution GAN)[11]과 비교했을 때 복원 영상의 텍스처 이미지 복원력을 개선하고 구조적 왜곡을 완화할 수 있지만, 여전히 원본 이미지 화질 수준에는 미치지 못함을 알 수 있다.

Fig. 1.

Deep learning based super resolution images with textural distortions, (a) HR, (b) SRGAN, (c) ESRGAN, (d) SPSR, (e) SPSR+SA, (f) SPSR+GSA, (g) SGAGAN (Ours), (h) SGAGAN-W (Ours)

한편, 종래의 합성곱 신경망(CNN, Convolutional Neural Network)은 국부 수용 영역(Local receptive field) 내의 노드들만 연결해서 커널을 학습하기 때문에 국부 영역의 특징만을 추출하고 활용한다[4]. 따라서 전체 노드를 대상으로 채널과 공간의 중요도에 따라 특징을 추출하기 위해서는 주의집중(Attention) 모듈을 활용할 필요성이 있다. 특히, 적대적 생성망에서 사용하는 자가주의집중(Self-Attention) 모듈[16]은 특징 벡터 간의 전역적인 상호의존성을 고려함으로써, 합성곱 신경망의 특징 구별력을 제고할 수 있다.

더불어, 자가주의집중 모듈을 사용함으로써 초해상화 분야에서 발생하는 텍스처 왜곡 문제를 개선할 수 있다. 그림 1(d)1(e)는 기존의 SPSR 기법과 자가주의집중 모듈을 추가한 SPSR-SA(Structure Preserving Super Resolution with Self-Attention) 기법의 결과영상을 보여주고 있다. 그림 1의 파란색 박스에서 볼 수 있듯이, 자가주의집중 모듈을 반영한 SPSR-SA 기법이 기존의 SPSR 기법보다 텍스처 왜곡 현상을 완화한 것을 볼 수 있다. 하지만 자가주의집중 모듈만으로는 텍스처 왜곡 문제를 말끔히 해소할 수 없음을 알 수 있다.

따라서 본 논문에서 초해상화 분야의 텍스처 왜곡 문제를 해결하기 위해 웨이블릿 손실과 희소 그라디언트 가이드 주의집중 기반의 적대적 생성망(SGAGAN-W, Sparse Gradient-guided Attention GAN with Wavelet loss)을 제안하고자 한다. 특히, 제시하는 모델은 생성기에 그라디언트 부신경망이 붙인 기존의 SPSR[14]을 기저 모델로 3가지 간단한 적용을 통해 텍스처 왜곡 문제를 개선한다. 첫째, 그라디언트의 부신경망의 기본 블록을 RRDB(Residual-in-Residual Dense Block)에서 MRRSB(Modified Residual-in-Residual Sparse Block)로 대체함으로써 중복되는 그라디언트 특징맵의 반복학습을 회피하고 계산량을 감소시킨다. 이때, 제안한 MRRSB는 기존의 RRDB의 밀집 연결(Dense connection)을 부분적으로 끊어낸 업데이트된 버전에 해당한다.

둘째, 텍스처 왜곡을 감소하기 위한 일차적 대안으로 전역적 상호의존성을 고려할 수 있는 GSA(Gradient-Guided Self-Attention) 모듈을 새롭게 제시하고자 한다. 기존의 자가주의집중 모듈은 픽셀들간의 전역적인 상호관계, 즉 공간과 채널에 따른 픽셀의 중요도를 전역적으로 반영하기 때문에 텍스처 왜곡을 완화할 수 있다. 제안한 GSA 모듈은 기존의 자가주의집중 모듈의 특징 구별성을 강화하기 위해 그라디언트 부신경망에서 추출된 그라이디언트 특징을 추가적으로 활용한 수정 버전이다. 제안한 자가주의집중 모듈을 적용함으로써 텍스처 왜곡 감소와 선명도 개선 효과를 유도하고자 한다.

셋째, 텍스처 왜곡을 완화하기 위한 이차적 대안으로 웨이블릿 변환 기반의 손실함수를 새롭게 도입하고자 한다. 웨이블릿 변환 기반의 손실함수는 웨이블릿 변환을 적용해서 획득한 입력영상과 복원영상의 서브밴드(Subband)간의 오차를 모델링한다. 제안한 웨이블릿 변환 기반의 손실함수를 적용함으로써, 텍스처 왜곡을 억제하고 더 선명한 영상을 복원하고자 한다. 그림 1(h)는 최종 제안한 초해상화 기법의 결과로써, 기존 초해상화 모델들과 비교했을 때 텍스처 복원력이 상당히 개선됨을 볼 수 있다.

이 논문의 구성은 다음과 같다. 먼저, 제 2장에서 본 연구와 관련된 관련 연구들을 소개한 후, 제 3장에서 제안한 SGAGAN-W에 대해 자세히 설명하고자 한다. 제 4장과 제 5장에서는 다양한 데이터 셋에서 진행한 실험을 토대로 정량적, 정성적 평가를 진행하고 마지막으로 제 6장에서 결론을 맺고자 한다.


Ⅱ. 관련 연구

2.1 인지 주도 초해상화 방법

인지 주도 초해상화 방법은 픽셀 주도 초해상화 방법과 비교했을 때 더 선명한 텍스처 영상을 복원할 수 있다. 이것이 가능하게 된 주된 이유는 크게 2가지이다. 하나는 적대적 생성망때문이고 또 다른 하나는 인지 손실함수[15] 때문이다. 최초의 인지 주도 초해상화 방법인 SRGAN[5]은 적대적 생성망에서 인지 손실와 적대적 손실을 신경망의 손실로 활용한다. EnhanceNet[10]는 원본 이미지의 텍스처 정보를 복원하기 위해 텍스처 정합 손실(Texture matching loss)함수를 인지손실과 함께 사용한다. 그리고 ESRGAN[11]은 SRGAN의 기본 블록인 잔차 블록(Residual block)을 RRDB로 대체하고 일반적인 판별자 대신 상대 평균 판별자(Relativistic average discriminator)를 활용하여 성능 향상을 유도했다. 최근에는 신뢰도 높은 텍스처 복원을 위해 의미론적 분할(Semantic segmentation)을 사용하는 SFTGAN(Spatial Feature Transform Generative Adversarial Network)[12]과 자연 다양체(Natural manifold)을 활용하는 NatSR(Natural and realistic Super Resolution)[13] 모델이 제안되었다. 마지막으로 텍스처 이미지의 구조적 보존력을 향상시키기 위해 생성기에 그라디언트 부신경망과 그라디언트 손실함수를 추가하여 모델링하는 SPSR [14]이 제안되었다.

2.2 주의집중 기법(Attention mechanism)

채널과 공간의 중요도에 따라 특징을 추출하는 주의집중은 초해상화 방법들의 성능 향상을 위해 많이 활용된다. 특히, 픽셀 주도 초해상화 방법에서 채널 주의집중(Channel attention) 모듈을 다양한 방식으로 발전시켜 사용되어왔다. 주의집중 기법을 초해상화에 적용한 최초의 모델은 RCAN(Residual Channel Attention Network)[6]으로 잔차 밀집 블록(Residual dense block)마다 채널 주의집중 모듈을 사용한다. 강력한 특징 표현과 특징 관계성 학습을 위해 2차 채널 주의집중(SOCA, Second-Order Channel Attention) 모듈을 활용하는 SAN(Second-order Attention Network)[7]이 후속으로 제안되었다. 이를 더 발전시켜 레이어별, 채널별, 위치들 사이에서 전역적인 상호의존성을 모델링하기 위해 층 주의집중 모듈(LAM, Layer Attention Module)과 채널 공간 주의집중 모듈(CSAM, Channel-Spatial Attention Module)을 활용하는 HAN(Holistic Attention Network)[8]이 제안되었다.

주의집중 기법은 적대적 생성망 기반의 기법에도 적용되고 있다. 예를 들어, SAGAN(Self-Attention GAN)[16] 모델은 특징벡터 간의 전역적인 상호의존성을 모델링할 수 있는 자가주의집중 모듈을 새롭게 제안함으로써 적대적 생성망 모델의 성능을 개선하였다.

2.3 밀집 연결 가지치기

DenseNet(Dense Network) [17]에서 활용하는 밀집 연결은 경사 소멸(Gradient vanishing) 문제를 완화할 뿐 아니라 모델의 복잡도를 높여 오버피팅(Overfitting)에 빠지지 않게 하고 높은 정확도를 달성할 수 있게 한다. 그러나 밀집 연결 구조 속 특징맵의 재사용은 많은 계산량을 요구한다. 따라서 경량화된 특징맵 재사용을 위해 CondenseNet[18]은 학습된 그룹 합성곱 신경망을 사용하여 층간 중복 연결을 부분적으로 끊어낸다. 더불어 SPSAGAN(Segmentation-Prior Self-Attention GAN)[19]에서는 비유사성 측정(Dissimilarity measure) 방법을 기반으로 기본 블록의 밀집 연결을 부분적으로 끊어내어 계산 비용을 감소시키고 중복되는 특징맵의 반복학습을 회피한다. 이때 생성한 블록을 RRSB(Residual-in-Residual Sparse Block)라 명명한다.

2.4 웨이블릿 초해상화 방법

웨이블릿 변환은 해상도에 따라 공간과 주파수 분석을 제공하기 때문에 잡음 제거, 특징 추출, 영상 압축 분야를 비롯한 많은 곳에서 많이 사용된다. 또한, 본 연구의 목적인 초해상화 분야에서도 선명한 텍스처 영상 복원을 위해 활용되고 있다. 예를 들어 과도하게 부드럽고 섬세한 텍스처를 놓치는 문제를 개선하기 위해 Wavelet-SRNet[20] 모델이 제안되었다. 해당 모델은 얼굴 이미지 데이터 셋에 웨이블릿 변환을 활용하여 사람 얼굴의 전역적인 위상 정보와 국부 영역의 텍스처 정보를 파악한다. 더 나아가 저해상도 웨이블릿 계수의 서브밴드 모두를 입력영상으로 활용함으로써 텍스처 이미지의 복원력을 향상시키는 모델도 제안되었다[21].

한편, 인지 주도 초해상화 모델인 SRGAN[5]에 웨이블릿을 결합한 모델[22]이 제안되었다. 이를 통해 생성된 이미지의 텍스처가 원본에 가깝게 복원하도록 유도한다.


Ⅲ. 제안한 적대적 생성망의 구조

이 장에서 먼저 제안한 SGAGAN-W 신경망 구조에 대한 전체적인 개요를 설명한다. 그리고 제안한 MRRSB과 GSA 모듈 그리고 웨이블릿 손실함수에 대해 순차적으로 설명하고자 한다.

3.1 개요

그림 2(a)는 제안한 SGAGAN-W의 신경망 구조이며 기존의 SPSR[14]의 확장판이다. SPSR은 두 종류의 부신경망으로 구성된다[14]. 첫 번째 부신경망는 “초해상화 부신경망”로써, 23개의 RRDB로 이뤄진다. 두 번째 부신경망는 “그라디언트 부신경망”로써, 1개의 RRDB과 1개의 합성곱 신경망으로 구성되는 그라디언트 블록(Gradient block)들로 구성된다. 이때 각각의 그라디언트 블록은 5, 10, 15, 20번째 초해상화 블록(SR block) 특징맵과 연결되어 활용된다. 두 종류의 부신경망을 동시에 사용함으로써 SPSR은 텍스처 구조적 복원력을 개선한다.

Fig. 2.

Overall architecture of the proposed network, (a) SGAGAN-W, (b) Dense block, (c) Sparse block, (d) Modified sparse block, (e) GSA

그림 2(a)의 제안한 SGAGAN-W 구조는 기존의 SPSR에 3가지 주요한 변경점이 있다. 첫째, 그라디언트 부신경망의 기본 블록을 MRRSB로 대체한 것이다. 그라디언트 부신경망의 입력으로 활용하는 그라디언트 이미지는 윤곽선 정보만을 가지기 때문에 저해상도 이미지와 비교했을 때 상대적으로 적은 픽셀 정보를 갖는다.

이로 인해 그라디언트 부신경망을 학습시킬 때 중복된 특징맵을 반복학습할 가능성이 존재한다. 따라서 그라디언트의 불필요한 반복학습을 회피하고 계산량을 감소시키기 위해서 RRDB 대신 MRRSB를 그라디언트 부신경망의 기본 블록으로 사용한다. 둘째, 텍스처의 구조적 강조를 기반으로 전역적 상호의존성을 고려하기 위해 GSA 모듈을 새로이 고안한다. 제안한 자가주의집중 모듈은 텍스처의 전반적인 정보를 포함하는 마지막 초해상화 블록 특징맵과 텍스처의 구조적 정보를 포함하는 마지막 그라디언트 블록의 특징맵을 입력으로 받는다.

두 종류의 특징맵을 입력으로 활용함으로써 텍스처 구조적 왜곡을 감소시키고 선명한 이미지의 복원력을 개선한다. 셋째, 텍스처 왜곡을 완화하고 선명한 초해상화 영상을 생성하기 위한 웨이블릿 손실함수를 제시한다. 제안한 3가지 변경점을 모두 적용한 신경망 구조에서 생성기 Gen의 최종 목표는 손실함수 L에 관하여 최적화된 생성기 파라미터 θ*를 찾는 것이다. 이때 LRHR은 저해상도 이미지와 고해상도 이미지를 나타낸다.

θ*=argminΕLGenLR;θG,HR(1) 

3.2 MRRSB

그림 2(b)에서 밀집 블록은 5개의 합성곱 신경망이 밀집 연결인 상태로 구성되어 있다. 이를 통해 신경망의 용량을 증가시키고 전체적인 성능을 향상시키지만 높은 계산량과 중복되는 특징맵을 재사용하는 문제점이 존재한다. 적대적 생성망 기반 초해상화 연구에서 해당 문제를 해결하기 위해 SPSAGAN[19]은 RRSB를 제안한다. 그림 2(c)에서 보이는 바와 같이 희소 블록(Sparse block)은 비유사성 측정 방법에 근거하여 밀집 블록에 있는 중복된 연결을 부분적으로 끊어낸다.

본 신경망에서 중복되는 그라디언트 특징맵의 반복학습을 회피하고 요구되는 계산량을 감소시키기 위해 그라디언트 부신경망에 MRRSB를 기본 블록으로 활용한다. 그림 2(c)2(d)에서 확인할 수 있듯 해당 블록을 구성하기 위해 밀집 블록의 밀집 연결을 부분적으로 끊어내고 활성화 함수로 정류선형유닛(ReLU, Rectified Linear Unit) 대신 누수 정류선형유닛(Leaky ReLU)을 사용한다.

RRDB와 MRRSB의 훈련 가능한 파라미터의 숫자는 각각 71.9k와 52.5k이다. 제안한 MRRSB 한 개를 교체하는 것만으로 19.4k 정도의 계산량을 감소시킨다는 것을 확인할 수 있다.

3.3 GSA

그림 2(e)는 GSA 모듈의 구조를 보여준다. 해당 모듈은 입력이 2개로 하나는 마지막 초해상화 블록의 특징맵이고 또 다른 하나는 마지막 그라디언트 블록의 특징맵이다. 우선 제안한 모듈을 실행하기 위해 입력으로 받은 마지막 그라디언트 블록의 특징맵을 yRC×N와 같이 재구성한다. 이때 C는 채널을 의미하고 N은 채널을 제외한 특징맵의 모든 픽셀 숫자를 의미한다. 그런 다음 재구성한 그라디언트 특징맵(y)은 주의집중 맵(Attention map)을 계산하기 위해 1x1 합성곱 신경망을 사용해서 2개의 특징 공간(Feature space)인 fgradggrad로 변환된다. 계산 과정은 다음과 같다.

fgrady=Wfgrady,ggrady=Wggrady(2) 

변환 이후 SAGAN[16]과 동일한 규격의 구성과 제안한 모듈의 메모리 효율성을 위해 fgradggrad의 채널의 수를 8로 나눈다. 그라디언트(Gradient) 주의집중 맵인 βgradsi,jgrad=fgradyiTggrad(yi) 출력 값에 소프트맥스(Softmax)를 적용해서 획득한다. 이를 통해 그라디언트 이미지에 대한 j번째와 i 번째 특징 벡터 간의 중요도를 학습한다.

βj,igrad=expsi,jgradi=1Nexpsi,jgrad(3) 

초해상화 블록의 특징맵(x)도 상기에서 언급된 과정과 유사하게 2개의 특징 공간으로 변환한다. 그리고 특징 주의집중 맵인 βfea는 그라디언트 주의집중 맵과 동일한 방식으로 계산한다.

βj,ifea=expsi,jfeai=1Nexpsi,jfea(4) 

SPSAGAN[19]은 본 논문에서 제안한 GSA 모듈과 마찬가지로 두 가지의 특징맵을 입력으로 사용하는 자기주의집중 모듈을 제안한다. 하나는 의미론적 분할(Semantic segmentation) 이미지이고 또 다른 하나는 저해상도 특징맵이다. 이때 분할 주의집중 맵(Segmentation attention map)에 우선순위를 할당하기 위해 주의집중 맵마다 다른 가중치를 적용하여 통합한다. 하지만 본 연구에서는 특징 주의집중 맵과 그라디언트 주의집중 맵을 별다른 가중치 없이 통합한다. 왜냐하면 특징 주의집중 맵이 가지는 보편적인 텍스처 정보만큼 그라디언트 주의집중 맵이 가지는 텍스처의 구조적 정보를 활용하는 것이 텍스처 구조적 왜곡을 감소시키는데 중요하기 때문이다. 따라서 위에서 구한 식 (3)식 (4)를 가리키는 두 개의 주의집중 맵을 식 (5)와 같이 픽셀별로 더한 후 소프트맥스를 사용한다. 이때 자가주의집중 모듈에서 사용하는 최종 주의집중 맵과 동일한 픽셀 범주를 획득하기 위해 통합된 주의집중 맵(Combined attention map)에 소프트맥스로 다시 적용한다.

βj,icomb=expβj,igrad+βj,ifeai=1Nexpβj,igrad+βj,ifea(5) 

최종 주의집중 층(Attention layer)의 결과는 o=(o1,⋯oj,⋯oN)∈RC×N로 각각의 주의집중 층은 oj=i=1Nβj,icombhfeaxi와 같이 정의할 수 있다. 이때 hfea=Whfeaxi는 초해상화 블록 특징맵(x)로부터 구할 수 있다. 마지막으로 최종 주의집중 층과 학습가능한 감마(Gamma)를 곱하고 원래 입력인 초해상화 특징맵(x)을 더한다. 이로써 GSA 모듈의 결과를 얻을 수 있다.

zi=γoi+xi(6) 

3.4 웨이블릿 손실

본 연구에서는 텍스처 구조 왜곡을 억제하기 위해 웨이블릿 변환 기반의 손실함수를 제안한다. 그림 3에서 확인할 수 있듯이, 2차원 이미지에 대한 웨이블릿 변환은 이산 웨이블릿 변환(DWT, Discrete Wavelet Transform)을 사용하고 이때 가장 간단한 Haar 웨이블릿 변환을 사용한다. 이를 위해 저역 통과 필터(Low-pass filter)와 고역 통과 필터(High-pass filter)를 행과 열의 순서에 맞게 실행하여 4개의 서브밴드를 획득할 수 있다. 획득한 4개의 서브밴드는 LL(근사, Approximation), HL(수직, Vertical), LH(수평, Horizontal) 그리고 HH(대각, Diagonal)와 같이 표기한다.

Fig. 3.

Procedure of 2D-DWT decomposition

그림 4는 영상처리에서 널리 사용되는 ‘개코원숭이’(‘Baboon’) 테스트 이미지에 웨이블릿 변환을 적용해 얻은 서브밴드를 보여준다. 그림 4에서 확인할 수 있듯 전방향 이산 웨이블릿 변환(Forward DWT)을 적용하면 4개의 서브밴드를 각각 얻을 수 있다. 역방향 이산 웨이블릿(Inverse DWT)을 적용하면 4개의 서브밴드로부터 원본 이미지로 재복원할 수 있다.

Fig. 4.

‘Baboon’ Image and 2D wavelet transform result

그림 5는 본 연구에서 제안한 웨이블릿 변환 기반의 웨이블릿 손실을 계산하는 과정을 보여준다. 웨이블릿 손실을 구하기 위해서 우선 원본 이미지와 초해상화 이미지의 레벨 1 그리고 레벨 2의 이산 웨이블릿 변환 서브밴드를 구한다.

Fig. 5.

Wavelet loss based on 2D DWT

여기서 말하는 레벨은 이산 웨이블릿 변환을 시행하는 숫자, 즉 해상도 레벨을 의미한다. 이때 원본 이미지와 초해상화 이미지에 따른 레벨별 이산 웨이블릿 변환 서브밴드의 표기는 고해상도 웨이블릿 서브밴드(HRSB, HR wavelet Subband)와 초해상화 웨이블릿 서브밴드(SRSB, SR wavelet Subband)로 표기한다.

HRSBi=HAi, HVi, HHi, HDi(7) 
SRSBi=SAi, SVi, SHi, SDi(8) 

여기서 HA, HV, HH, HD는 고해상도 이미지의 근사, 수직, 수평, 대각의 웨이블릿 계수(Wavelet coefficients) 서브밴드를 나타낸다. 그리고 SA, SV, SH, SD는 초해상화 이미지의 근사, 수직, 수평, 대각의 웨이블릿 계수 서브밴드들을 나타낸다. 이때 윗첨자 i는 레벨 즉, 해상도 레벨을 나타낸다.

제안한 웨이블릿 변환 손실함수는 레벨 1과 레벨 2에 대한 고해상도 서브밴드와 상응하는 초해상화 서브밴드간의 픽셀 차이를 모두 더함으로써 모델링된다.

LWavelet=HRSB1-SRSB1+HRSB2-SRSB21=HA1-SA1+HV1-SV1+HH1-SH1+HD1-SD1+HA2-SA2+HV2-SV2+HH2-SH2+HD2-SD21(9) 

여기서 ∥∥1는 L1-norm(놈)을 의미한다.

L=LSPSR+λ×LWavelet(10) 

여기서 LSPSRLWavelet은 각각 SPSR에서 활용하는 모든 손실함수 그리고 제안한 웨이블릿 손실함수을 의미하고 λ는 가중치를 의미한다. 본 연구에서는 가중치 값을 10-1, 10-2, 5×10-3로 설정하여 실험을 진행했고 경험적으로 10-2가 가장 적절한 결과임을 획득하였다. 서두에서도 언급한 것처럼, 웨이블릿 손실함수는 해상도에 따라 공간과 주파수 분석이 가능하기 때문에 인지주도 초해상화 신경망 구조에서 텍스처 구조 왜곡을 억제할 수 있게 한다.


Ⅳ. DIV2K 데이터 셋 실험 및 결과

4.1 실험 환경

본 연구에서 제안한 신경망 모델 구조는 SPSR[14]을 바탕으로 진행하고 4배 규모에 대한 초해상화만을 진행한다. 원본 고해상도 훈련 데이터로 DIV2K(DIVerse 2K resolution high quality images) 데이터 셋을 활용한다. DIV2K 데이터 셋는 2K 해상도를 가지는 800개 이미지 데이터 셋을 의미한다. 저해상도 데이터 셋은 MATLAB의 Bicubic 보간법을 통해 구성한다. 고해상도와 저해상도의 패치 사이즈는 각각 192x192, 48x48을 사용한다. 그리고 데이터를 불러올 때마다 무작위 좌우 반전, 90도마다 회전을 통해 데이터를 증가시킨다. 제안한 방법의 성능을 비교평가하기 위해 본 연구에서는 5개의 테스트 벤치마크 데이터 셋 즉, Set5, Set14, BSD100, General100 그리고 Urban100를 활용한다.

또한, 평가 척도를 위해서 최대 신호 대 잡음 비(PSNR, Peak Signal-to-Noise Ratio)와 구조적 유사성 지수 측정(SSIM, Structural Similarity Index Measure)[23], 인지 지수(PI, Perceptual Index)[24], 학습된 인지 이미지 패치 유사성(LPIPS, Learned Perceptual Image Patch Similarity)[25] 총 4개의 평가 지표를 활용한다. 이때 PSNR과 SSIM은 YCbCr 색 공간에서 밝기 채널에 의해 계산된다. LPIPS는 사전 학습된 VGG[26] 신경망의 특징맵을 기반으로 패치 유사성을 계산하여 인지 평가를 진행한다. PI와 LPIPS는 낮을수록 텍스처의 인지적 품질이 좋음을 나타내고 PSNR과 SSIM은 높을수록 복원된 텍스처 전반의 신호 품질이 좋음을 나타낸다. 일반적으로 적대적 생성망 기반 초해상화 모델들은 2단계에 걸친 학습을 진행한다.

첫 단계에서는 픽셀의 절대값 차이를 기반으로 최적화를 진행하는 순방향 신경망을 학습한다. 두 번째 단계에서는 첫 번째 단계에서 학습한 파라미터를 생성기에 초기화한 후 인지 손실함수를 비롯한 다수의 손실함수를 기반으로 적대적 생성망의 최적화를 진행한다.

다만 본 실험에서는 미리 학습된 픽셀 주도 방법 기반 ESRGAN 모델 파라미터가 존재했기 때문에 첫 번째 단계를 생략한다. 이 때문에 본 신경망는 적대적 생성망을 다수의 손실함수와 함께 학습시키는 단계만을 진행한다. 생성기와 분류기의 학습률(Learning rate)은 모두 1×10-4이고 [50k, 100k, 200k, 150k] 이터레이션(Iteration)마다 학습률이 절반으로 가변한다. 신경망 최적화 기법으로는 아담(Adam)을 사용했으며 일차 모멘텀 계수인 β1, 이차 모멘텀 계수인 β2를 0.9, 0.999로 설정했다. 배치 크기는 기저 모델 SPSR과 동일하게 16으로 설정한다. NVIDIA RTX 2080 Ti GPU 여러 대에서 PyTorch 1.6 버전으로 제안한 모델을 실행한다.

4.2 성능 비교

그림 6은 제안된 기법과 최신 초해상화 기법들을 사용해서 복원된 결과 영상이다. 그림에서 볼 수 있듯이, 제안된 최종 모델인 SGAGAN-W 모델이 최신 초해상화 기법 즉, EnhanceNet, SRGAN, ESRGAN, SFTGAN, NatSR, SPSR보다 텍스처 구조 왜곡을 완화하고 더 선명한 고품질의 영상을 생성할 수 있음을 알 수 있다. 특히, 그림 6(a)6(b)에서 확인할 수 있듯 ‘img_016’과 ‘img_073’ 이미지에 대해, 제안된 모델이 빌딩 건물의 텍스처 왜곡을 보정하는 것을 보여준다. 또한, 그림 6(c)는 ‘108005’ 이미지에 대해서도 부드러운 질감과 자연스러운 패턴을 선명하게 생성함을 보여준다.

Fig. 6.

Visual comparison with state-of-the-art GAN-based SR methods, (a) ‘img_016’ from Urban100, (b) ‘img_073’ from Urban100, (c) ‘108005’ from BSD100

표 1은 테스트 벤치마크 데이터 셋에 대한 각 모델의 4가지 평가 지표 즉, PI, LPIPS, PSNR, SSIM를 활용한 정량적 평가 결과를 보인다. 표에서 빨간색과 파란색 굵은 숫자는 각각 가장 좋은 지표와 2번째로 좋은 지표를 의미한다. 표에서 제안된 최종 모델 SGAGAN-W이 대부분의 평가 지표에서 높은 순위를 달성한 것을 볼 수 있다.

Quantitative image quality evaluation for test set

좀 더 자세히 말하면, 제안된 모델이 모든 테스트 벤치마크 데이터 셋에 대해서 PSNR과 SSIM 평가 부분에서는 1등을 차지하였고 LPIPS 지표에 대해서는 3개의 데이터 셋에서 1등, 나머지 2개 데이터 셋에서 2등을 달성하였다. 다만 인지적 화질 평가 척도를 측정하는 PI 지표에 대해서는 상당폭 하락되었다.

4.3 애블레이션 연구(Ablation study)

제안된 모델 즉, SGAGAN-W에서 적용한 방법들의 효과를 검증하기 위해, 기존 모델인 SPSR에 제안된 모듈들을 하나씩 추가함에 따라 획득한 정성적, 정량적 결과를 분석하였다.

그림 7은 애블레이션 연구를 진행한 테스트 데이터 셋 속 이미지 일부를 나타낸다. 각 열은 원본 이미지, SPSR, SPSR에 자가주의집중 모듈을 추가한 것(SPSR+SA), SPSR에 GSA 모듈을 추가한 것(SPSR+GSA), SPSR에 GSA 모듈과 MRRSB를 모두 추가한 희소 그라디언트 가이드 주의집중 기반 적대적 생성망(SGAGAN, Sparse Gradient-guided Attention GAN)[28], 마지막으로 SGAGAN에 웨이블릿 손실을 같이 사용한 최종 제안한 초해상화 기법 SGAGAN-W를 나타낸다.

Fig. 7.

Visual effects depending on applying the proposed modules, (a) ‘img_061’ from Urban100, (b) ‘img_062’ from Urban100, (c) ‘img_063’ from Urban100

그림 7에서 기존 모델인 SPSR에 모듈을 추가함에 따라 텍스처의 화질이 점진적으로 향상됨을 알 수 있다. 특히, 그림에서 볼 수 있듯이, 본 연구에서 제안한 방법을 통해 가로와 세로 방향의 텍스처가 잘 복원되고 텍스처 왜곡도 완화됨을 알 수 있다. 예를 들어, 그림 7(a)의 경우, 제안한 최종 모델이 다른 모델들에 비해 사각형 모양의 창틀을 더 정확하게 생성하였다. 또한, 그림 7(b)의 창문과 그림 7(c)의 벽돌 역시 텍스처 왜곡을 보정하여 원본 이미지와 유사하도록 복원하였다.

표 2는 애블레이션 연구에 따른 정량적 수치를 보여준다. 제안된 자가주의집중, GSA, MRRSB, 웨이블릿 손실을 추가함에 따라 제안된 모델의 성능이 개선되는 것을 볼 수 있다. 제안한 모델이 가장 높은 PSNR과 SSIM을 달성하였으며 LPIPS 부분에서도 2개의 벤치마크 데이터 셋에 대하여 1등을 달성하였다. 결과적으로 제안한 모듈들을 모두 통합한 최종 모델인 SGAGAN-W이 텍스처 왜곡을 바로잡음과 동시에 고품질의 영상을 복원하는 데 효과적임을 확인할 수 있다.

Ablation study on benchmark datasets


Ⅴ. MCC 해충 데이터 실험 및 결과

5.1 실험 환경

나방 분류 및 계수(MCC, Moth Classification and Counting) 데이터 셋은 공개 나방 데이터 셋이다[27]. 해당 데이터 셋은 총 9종류의 나방에 대해서 각각 250장의 이미지를 제공한다. 각 이미지는 하나의 나방 개체가 존재하고 이미지 해상도는 다양하게 제공한다. 앞서 진행한 DIV2K 데이터 셋과 비교했을 때 해상도는 대략 4~8배 정도로 낮다. 모델 학습을 위해 MCC 데이터 셋의 총 2250장의 이미지에서 2160장은 훈련 데이터 셋으로 나머지 총 90장은 테스트 데이터 셋으로 사용하였다. 제 4장의 실험 환경과 동일하게 고해상도와 저해상도의 패치 사이즈는 각각 192x192, 48x48으로 설정하고 데이터 강화를 위해 데이터를 불러올 때마다 무작위 좌우 반전, 90도 회전을 적용하였다. 평가 지표도 PSNR, SSIM, PI, LPIPS를 활용하였다.

적대적 생성망 기반의 초해상화 기법은 일반적으로 두 단계에 걸쳐 학습을 진행한다. 제 4장의 실험에서는 미리 학습된 픽셀 주도 방법 기반 ESRGAN 모델 파라미터가 존재했기 때문에 첫 번째 단계를 생략했다. 하지만 MCC 데이터 셋에 대해서는 사전 학습된 모델의 파라미터를 구할 수 없으므로 두 단계를 모두 진행한다. 우선 첫 번째 단계에서는 초해상화 부신경망만을 활용해서 픽셀의 절대값 차이를 기반으로 최적화를 진행하는 순방향 학습(Feed-forward training)을 진행한다. 이때의 학습률은 2×10-4로 시작해서 200k 반복횟수마다 학습률 감소를 진행한다. 두 번째 단계에서는 학습된 파라미터를 토대로 적대적 생성망 학습을 진행한다. 나머지 초매개변수(Hyper-parameter) 설정은 제 4장과 동일하다.

5.2 실험 결과

그림 8은 MCC 데이터 셋에 대한 제안한 모델과 기존 초해상화 모델의 결과영상이다. 그림에서 보듯이, 제안한 SGAGAN-W이 기존의 SRGAN 및 ESRGAN보다 더 선명한 영상을 복원함을 알 수 있다. 또한, 그림 8(a) ‘34’ 테스트 이미지의 날개 부분에서도 제안한 SGAGAN-W이 SPSR보다 더 선명한 날개 무늬 텍스처를 복원함을 볼 수 있다.

Fig. 8.

Qualitative results in ablation study, (a) ‘34’ from ‘Amphipyra pyramidea’, (b) ‘167’ from ‘Noctua pronuba’

표 3은 MCC 데이터 셋의 애블레이션 결과이다.표 3에서 최종 제안한 모델인 SGAGAN-W가 DIV2K 데이터 셋의 결과가 동일하게 PSNR, SSIM, LPIPS 평가에서 가장 우수한 결과를 획득했다. PI 평가는 다소 낮게 나와서 아직 개선 여지가 남아있다. 따라서 향후 연구계획으로 PI의 정량적 평가를 높일 수 있는 방안을 모색하고자 한다.

Quantitative results of MCC dataset in ablation study


Ⅵ. 결 론

초해상화 분야의 텍스처 왜곡 문제를 해결하기 위해 본 논문에서는 웨이블릿 손실과 희소 그라디언트 가이드 주의집중 기반의 적대적 생성망(SGAGAN-W)를 제안하였다. 먼저, 높은 계산 비용과 중복되는 그라디언트 특징맵의 반복학습을 회피하기 위해 RRDB의 밀집 연결을 부분적으로 끊어낸 MRRSB를 그라디언트 부신경망의 기본 블록으로 사용하였다. 그리고 텍스처 왜곡 완화와 선명도 개선을 위해 GSA 모듈을 제안하였다. 마지막으로 텍스처 왜곡을 억제할 수 있는 웨이블릿 변환 기반의 손실함수를 모델링하였다. 실험을 통해 제안된 모델이 최신 모델들과 비교했을 때 텍스처 구조 복원력을 개선하여 더 선명한 초해상화 영상을 생성할 수 있음을 확인하였다. 또한, 정량적 평가에서 가장 높은 PSNR과 SSIM 수치를 획득하였고 LPIPS 평가에서도 우수한 성능을 달성하였다. 향후연구로 PI 감소를 위한 통계적인 접근 방식을 신경망 구조의 응용으로 활용해볼 수 있고 이미지 처리 분야에 맞게 트랜스포머 기법을 적용하는 방안과 가시성이 저하된 야외 환경에서의 초고해상화 연구[29] 또한 고려해볼 수 있다.

Acknowledgments

본 성과물은 농촌진흥청 연구사업(과제번호: PJ01630302)과 정부(과학기술정보통신부)의 재원으로 한국연구재단의 지원을 받아 수행된 연구임 (No. 2020R1A2C1010405)

References

  • C. E. Duchon, "Lanczos filtering in one and two dimensions", in Journal of Applied Meteorology, Vol. 18, No. 8, pp. 1016-1022, Aug. 1979. [https://doi.org/10.1175/1520-0450(1979)018<1016:LFIOAT>2.0.CO;2]
  • J. Yang, J. Wright, T. S. Huang, and Y. Ma, "Image super-resolution as sparse representation of raw image patch", in IEEE Conference on Computer Vision and Pattern Recognition(CVPR), Anchorage, AK, USA, pp. 1-8, Jun. 2008. [https://doi.org/10.1109/CVPR.2008.4587647]
  • J. Yang, J. Wright, T. S. Huang, and Y. Ma, "Image super-resolution via sparse representation", in IEEE Transactions on Image Processing, Vol. 19, No. 11, pp. 2861-2873, May 2010. [https://doi.org/10.1109/TIP.2010.2050625]
  • C. Dong, C. C. Loy, K. He, and X. Tang, "Learning a deep convolutional network for image super-resolution", in Proc. European conference on computer vision (ECCV), Zurich, Switzerland, pp. 184-199, Sep. 2014. [https://doi.org/10.1007/978-3-319-10593-2_13]
  • C. Ledig et al., "Photo-realistic single image super-resolution a generative adversarial network", in Proc. IEEE conference on computer vision and pattern recognition (CVPR), Honolulu, HI, USA, pp. 4681-4690, Jul. 2017. [https://doi.org/10.1109/CVPR.2017.19]
  • Y. Zhang, K. Li, K. Li, L. Wang, B. Zhong, and Y. Fu, "Image super-resolution very deep residual channel attention networks", in Proc. Proc. European conference on computer vision (ECCV), Munich, Germany, pp. 286-301, Sep. 2018. [https://doi.org/10.1007/978-3-030-01234-2_18]
  • T. Dai, J. Cai, Y. Zhang, S.T. Xia, and L. Zhang, "Second-order attention network for single image super-resolution", in Proc. Proc. IEEE conference on computer vision and pattern recognition (CVPR), Long Beach, CA, USA, pp. 11065-11074, Jun. 2019. [https://doi.org/10.1109/CVPR.2019.01132]
  • B. Niu et al., "Single image super-resolution via a holistic attention network", in Proc. IEEE conference on computer vision and pattern recognition (CVPR), Glasgow, UK, pp. 191-207, Jun. 2020. [https://doi.org/10.1007/978-3-030-58610-2_12]
  • I. Goodfellow et al., "Generative adversarial nets", in Proc. Advances in neural information processing systems(NIPS), Montreal Canada, pp. 2672-2680, Dec. 2014. https://dl.acm.org/doi/10.5555/2969033.2969125, .
  • M. S. Sajjadi, B. Scholkopf, and M. Hirsch, "Enhancenet: Single image super-resolution through automated texture synthesis", in Proc. IEEE International Conference on Computer Vision (ICCV), Venice, Italy, pp. 4491-4500, Oct. 2017. [https://doi.org/10.1109/ICCV.2017.481]
  • X. Wang et al., "Esrgan: Enhanced super-resolution generative adversarial networks", in Proc. European conference on computer vision Workshops (ECCVW), Munich, Germany, pp. 63-79, Sep. 2018. [https://doi.org/10.1007/978-3-030-11021-5_5]
  • X. Wang, K. Yu, C. Dong, and C. Change Loy, "Recovering realistic texture in image super-resolution by deep spatial feature transform", in Proc. IEEE conference on computer vision and pattern recognition (CVPR), Salt Lake City, UT, USA, pp. 606-615, Jun. 2018. [https://doi.org/10.1109/CVPR.2018.00070]
  • J. W. Soh, G. Y. Park, J. Jo, and N. I. Cho, "Natural and realistic single image super-resolution with explicit natural manifold discrimination", in Proc. IEEE conference on computer vision and pattern recognition (CVPR), Long Beach, CA, USA, pp. 8122-8131, Jun. 2019. [https://doi.org/10.1109/CVPR.2019.00831]
  • C. Ma, Y. Rao, Y. Cheng, C. Chen, J. Lu, and J. Zhou, "Structure-preserving super resolution with gradient guidance", in Proc. IEEE conference on computer vision and pattern recognition (CVPR), Seattle, WA, USA, pp. 7769-7778, Jun. 2020. [https://doi.org/10.1109/CVPR42600.2020.00779]
  • J. Johnson, A. Alahi, and L. Fei-Fei, "Perceptual losses for real-time style transfer and super-resolution", in Proc. IEEE conference on computer vision and pattern recognition (CVPR), Amsterdam, The Netherlands, pp. 694-711. Oct. 2016. [https://doi.org/10.1007/978-3-319-46475-6_43]
  • H. Zhang, I. Goodfellow, D. Metaxas, and A. Odena, "Self-attention generative adversarial networks", in Proc. International conference on machine learning (ICML), Jun. 2019.
  • G. Huang, Z. Liu, L. V. D. Maaten and K.Q. Weinberger, "Densely connected convolutional networks", in Proc. IEEE conference on computer vision and pattern recognition (CVPR), Honolulu, HI, USA, pp. 4700-4708, Jul. 2017. [https://doi.org/10.1109/CVPR.2017.243]
  • G. Huang, S. Liu, L. V. D. Maaten, and K.Q. Weinberger, "Condensenet: An efficient densenet learned group convolutions", in Proc. IEEE conference on computer vision and pattern recognition (CVPR), Salt Lake City, UT, USA, pp. 2752-2761, Jun. 2018. [https://doi.org/10.1109/CVPR.2018.00291]
  • Y. Zhang, Z. Zheng, and R. Hu, "Super resolution segmentation-prior self-attention generative adversarial network", arXiv preprint arXiv:arXiv:2003.03489, , Mar. 2020.
  • H. Huang, R. He, Z. Sun, and T. Tan, "Wavelet-srnet: A wavelet-based cnn for multi-scale face super resolution", in Proc. IEEE International Conference on Computer Vision (ICCV), Venice, Italy, pp. 1689-1697, Oct. 2017. [https://doi.org/10.1109/ICCV.2017.187]
  • T. Guo, H. S. Mousavi, T. H. Vu, and V. Monga, "Deep wavelet prediction for image super-resolution", in Proc. of the IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), Honolulu, HI, USA, pp. 104-113, Jul. 2017. [https://doi.org/10.1109/CVPRW.2017.148]
  • Q. Zhang, H. Wang, T. Du, S. Yang, Wang, Y. et al., "Super-resolution reconstruction algorithms based on fusion of deep learning mechanism and wavelet", in Proc. of the 2nd International Conference on Artificial Intelligence and Pattern Recognition, Beijing China, pp. 102-107, Aug. 2019. [https://doi.org/10.1145/3357254.3358600]
  • Z. Wang, A. C. Bovik, H. R. Sheikh, and E. P. Simoncelli, "Image quality assessment: from error visibility to structural similarity", in IEEE Trans. Image Process., Vol. 13, No. 4, pp. 600-612, Apr. 2004. [https://doi.org/10.1109/TIP.2003.819861]
  • Y. Blau, R. Mechrez, R. Timofte, T. Michaeli, and L. Zelnik-Manor, "The 2018 pirm challenge on perceptual image super-resolution", in Proc. European conference on computer vision (ECCV), Munich, Germany, pp. 334–355, Sep. 2018. [https://doi.org/10.1007/978-3-030-11021-5_21]
  • R. Zhang, P. Isola, A. A Efros, E. Shechtman, and O. Wang, "The unreasonable effectiveness of deep features as a perceptual metric", in Proc. IEEE conference on computer vision and pattern recognition (CVPR), Salt Lake City, UT, USA, pp. 586-595, Jun. 2018. [https://doi.org/10.1109/CVPR.2018.00068]
  • K. Simonyan and A. Zisserman, "Very deep convolutional networks for large-scale image recognition", in International Conference on Learning Representations (ICLR), May 2015.
  • K. Bjerge, J. B. Nielsen, M. V. Sepstrup, F. Helsing-Nielsen, and T. T. Høye, "An Automated Light Trap to Monitor Moths (Lepidoptera) Using Computer Vision Based Tracking and Deep Learning", in MDPI Sensors, Vol. 21, No. 2, 343, online, 2021. [https://doi.org/10.3390/s21020343]
  • G. Song, T. D. Nguyen, J. Bum, H. Y, C. H. Son, and H. Choo, "Super Resolution with Sparse Gradient-Guided Attention for Suppressing Structural Distortion", in Proc. IEEE conference on machine learning and applications (ICMLA), Pasadena, CA, USA, pp. 885-890, Dec. 2021. [https://doi.org/10.1109/ICMLA52953.2021.00146]
  • D. H. Jeong and C. H. Son, "Super Resolution for Face Images Captured in Heavy Rain Conditions", Journal of KIIT, Vol. 19, No. 10, pp. 87-98, Oct 2021. [https://doi.org/10.14801/jkiit.2021.19.10.87]
저자소개
송 건 학 (Geonhak Song)

2020년 3월 ~ 2022년 2월 : 성균관대학교 인공지능학과(공학석사)

관심분야 : 컴퓨터 비전, 영상처리, 딥 러닝, 생성 모델

이 휘 종 (Hwijong Yi)

2011년 11월 ~ 현재 : 국립식량과학원 생산기술개발과 농업연구사

관심분야 : 곤충생태, 해충방제, 딥 러닝, 영상처리

손 창 환 (Chang-Hwan Son)

2017년 4월 ~ 현재 : 군산대학교 소프트웨어학과 부교수

관심분야 : 컴퓨터 비전, 영상처리, 기계학습, 딥 러닝

추 현 승 (Hyunseung Choo)

1998년 ~ 현재 : 성균관대학교 소프트웨어학과 교수

관심분야 : 모바일 센서 신경망, 데이터 딥 러닝, 사물인터넷, 지능형 네트워킹, 의료 영상 처리

Fig. 1.

Fig. 1.
Deep learning based super resolution images with textural distortions, (a) HR, (b) SRGAN, (c) ESRGAN, (d) SPSR, (e) SPSR+SA, (f) SPSR+GSA, (g) SGAGAN (Ours), (h) SGAGAN-W (Ours)

Fig. 2.

Fig. 2.
Overall architecture of the proposed network, (a) SGAGAN-W, (b) Dense block, (c) Sparse block, (d) Modified sparse block, (e) GSA

Fig. 3.

Fig. 3.
Procedure of 2D-DWT decomposition

Fig. 4.

Fig. 4.
‘Baboon’ Image and 2D wavelet transform result

Fig. 5.

Fig. 5.
Wavelet loss based on 2D DWT

Fig. 6.

Fig. 6.
Visual comparison with state-of-the-art GAN-based SR methods, (a) ‘img_016’ from Urban100, (b) ‘img_073’ from Urban100, (c) ‘108005’ from BSD100

Fig. 7.

Fig. 7.
Visual effects depending on applying the proposed modules, (a) ‘img_061’ from Urban100, (b) ‘img_062’ from Urban100, (c) ‘img_063’ from Urban100

Fig. 8.

Fig. 8.
Qualitative results in ablation study, (a) ‘34’ from ‘Amphipyra pyramidea’, (b) ‘167’ from ‘Noctua pronuba’

Table 1.

Quantitative image quality evaluation for test set

Dataset Metric Bicubic SRGAN SFTGAN ESRGAN SPSR SGAGAN(Ours) SGAGAN-W(Ours)
Set5 PI(↓) 7.3855 3.9820 3.7592 3.7991 3.3242 3.6180 3.7228
LPIPS(↓) 0.3406 0.0882 0.0890 0.0750 0.0652 0.0627 0.0630
PSNR(↑) 28.418 29.168 29.931 30.458 30.389 30.640 31.091
SSIM(↑) 0.8244 0.8613 0.8664 0.8677 0.8625 0.8717 0.8762
Set14 PI(↓) 7.0304 3.0851 2.9063 2.9183 2.9071 2.7876 2.9609
LPIPS(↓) 0.4401 0.1663 0.1481 0.1337 0.1322 0.1259 0.1269
PSNR(↑) 26.088 26.171 26.223 26.286 26.651 26.643 27.059
SSIM(↑) 0.7846 0.7841 0.7854 0.7828 0.7935 0.7949 0.8030
BSD100 PI(↓) 6.9901 2.5459 2.3774 2.4796 2.3514 2.3445 2.4651
LPIPS(↓) 0.5254 0.198 0.1769 0.1613 0.161 0.1568 0.1600
PSNR(↑) 25.957 25.459 25.504 25.316 25.505 25.662 26.158
SSIM(↑) 0.6673 0.6485 0.6548 0.6506 0.6575 0.6635 0.6785
General100 PI(↓) 7.9284 4.3757 4.2875 4.3197 4.0967 4.1416 4.2333
LPIPS(↓) 0.3533 0.1055 0.1029 0.0878 0.0862 0.0818 0.0813
PSNR(↑) 28.01 28.575 29.026 29.411 29.414 29.516 30.093
SSIM(↑) 0.8279 0.8541 0.8508 0.8546 0.8536 0.8586 0.8661
Urban100 PI(↓) 6.9395 3.698 3.6117 3.7626 3.5436 3.5424 3.5466
LPIPS(↓) 0.4734 0.1551 0.14328 0.1228 0.1184 0.1147 0.1141
PSNR(↑) 23.139 24.397 24.012 24.36 24.798 25.030 25.388
SSIM(↑) 0.9009 0.9381 0.9364 0.9452 0.948 0.9509 0.9541

Table 2.

Ablation study on benchmark datasets

Dataset Metric SPSR SPSR+SA SPSR+GSA SGAGAN(SPSR+GSA
+MRRSB)
SGAGAN-W(SGAGAN
+Wavelet loss)
Set14 PI(↓) 2.9071 2.9287 2.8533 2.7876 2.9609
LPIPS(↓) 0.1322 0.1281 0.1253 0.1259 0.1269
PSNR(↑) 26.651 26.7928 26.8143 26.643 27.059
SSIM(↑) 0.7935 0.7970 0.7969 0.7949 0.8030
BSD100 PI(↓) 2.3514 2.4639 2.3457 2.3445 2.4651
LPIPS(↓) 0.161 0.1598 0.1566 0.1568 0.1600
PSNR(↑) 25.505 25.8477 25.8324 25.662 26.158
SSIM(↑) 0.6575 0.6688 0.6674 0.6635 0.6785
General100 PI(↓) 4.0967 4.2017 4.2062 4.1416 4.2333
LPIPS(↓) 0.0862 0.0841 0.0825 0.0818 0.0813
PSNR(↑) 29.414 29.6414 29.6668 29.516 30.093
SSIM(↑) 0.8536 0.8586 0.8602 0.8586 0.8661
Urban100 PI(↓) 3.5436 3.5577 3.5318 3.5424 3.5466
LPIPS(↓) 0.1184 0.1160 0.1158 0.1147 0.1141
PSNR(↑) 24.798 25.0804 25.0936 25.030 25.388
SSIM(↑) 0.948 0.9506 0.9499 0.9509 0.9541

Table 3.

Quantitative results of MCC dataset in ablation study

Dataset Metric SPSR SPSR+GSA SGAGAN(SPSR+GSA+MRRSB) SGAGAN-W(SGAGAN
+Wavelet loss)
MCC dataset PI(↓) 4.8387 4.6917 4.6581 4.7541
LPIPS(↓) 0.0926 0.0937 0.0924 0.0913
PSNR(↑) 33.290 33.8607 33.9631 35.1539
SSIM(↑) 0.8783 0.8739 0.8796 0.8841