Korean Institute of Information Technology
[ Article ]
The Journal of Korean Institute of Information Technology - Vol. 20, No. 8, pp.123-132
ISSN: 1598-8619 (Print) 2093-7571 (Online)
Print publication date 31 Aug 2022
Received 27 Jul 2022 Revised 09 Aug 2022 Accepted 12 Aug 2022
DOI: https://doi.org/10.14801/jkiit.2022.20.8.123

부류별 인지 손실 모델과 관심 영역 특징을 이용한 해충 영상 초해상화 기법

정진영* ; 손창환**
*군산대학교 소프트웨어학과
**군산대학교 소프트웨어학과 교수(교신저자)
Pest Image Superresolution using Class-Specific Perceptual Loss Model and Region-of-Interests Features
Jin-Young Jeong* ; Chang-Hwan Son**

Correspondence to: Chang-Hwan Son Department of Software Science & Engineering, Republic of Korea Tel.: +82-63-469-8915, Email: cson@kunsan.ac.kr

초록

최근 초해상화 분야는 텍스처 복원과 인지 화질 평가에서 우수한 성능을 거두고 있는 인지 주도 방식이 대세를 이루고 있다. 이러한 인지 주도 기반의 초해상화 기법은 복원된 영상의 인지 손실을 평가하기 위해 사전 학습된 신경망 모델을 사용한다. 하지만, 이 모델은 이미지넷에 학습되었기 때문에 해충 부류 간 미세한 특징 차이를 구별하기에는 적합하지 않다. 따라서 본 연구에서는 해충 부류별 인지 손실을 결합할 수 있는 신경망 모델을 제안하고자 한다. 특히 해충 군집화, 군집별 신경망 학습 그리고 부류별 인지 손실 모델링 과정을 자세히 소개하고자 한다. 또한 해충 영상에서 전경과 배경 영역을 분리하여 특징 구별력을 강화할 수 있는 관심 영역 특징 추출기를 소개하고자 한다. 실험 결과를 통해, 제안한 해충 부류별 인지 손실 모델과 관심 영역 특징 추출기가 복원 영상의 선명도를 개선할 수 있음을 입증하고자 한다.

Abstract

Recently, in the field of superresolution, a perceptual-driven method, which has excellent performance in texture restoration and perceived image quality evaluation, has become a trend. This perceptual-driven-based superresolution method uses a pretrained neural network model to evaluate the perceptual loss of the reconstructed image. However, since this model was trained on ImageNet, it is not suitable for discriminating subtle feature differences between pest classes. Therefore, in this study, we propose a neural network model that can combine perceptual loss by pest class. In particular, pest clustering, cluster-based neural network learning and class-specific perceptual loss modeling are introduced in details. In addition, a region-of-interest (ROI) feature extractor that can enhance feature discrimination ability by separating the foreground and background regions from the pest image is presented. Through the experimental results, it is shown that the proposed class-specific perceptual loss model and the ROI feature extractor can improve the sharpness of the reconstructed image.

Keywords:

pest superresolution, perceptual loss, custering, generative adversarial network, region-of-interests

Ⅰ. 서 론

현장에서 CCTV로 수집된 해충 영상은 촬영거리, 저해상도 센서, 해충 크기와 같은 다양한 요인으로 저해상도로 열화되기 쉽다. 이러한 저해상도 해충 영상은 해충 인식의 중요한 단서가 되는 텍스처 정보가 손실되어 해충 분류 및 검출 성능에 악영향을 미칠 수 있다. 따라서 이러한 저해상도 해충 영상에서 고해상도 영상으로 복원하기 위한 초해상화(Superresolution) 기법이 필요하다. 이러한 초해상화 기법은 해충 분류, 검출 및 카운팅을 위한 전처리 작업으로 활용될 수 있다.

초해상화 기법은 고전적인 필터링[1] 기법으로 시작해서 스팔스 코딩[2], 베이지안 확률 모델[3]과 같은 기계학습 기법으로 전환된 후, 최근에는 딥러닝 기반이 대세를 이루고 있다[4]. 딥러닝 기반 초해상화 기법도 생성적 적대 생성망(GAN, Generative Adversarial Network) 틀(Framework)에서 사실감 있는 고해상도 영상을 생성 가능한 인지 주도(Perceptual-driven) 방식이 한 축을 이루고 있다[5].

인지 주도 초해상화 기법은 사전 학습된 신경망(Neural networks)에서 특징을 추출하여 인지 손실(Perceptual loss)을 평가한다. 이로 인해 생성된 고해상도 영상에서 텍스처의 사실적인 표현 능력을 강화할 수 있다. 하지만, 기존의 인지 주도 초해상화 기법은 두 가지의 단점을 지니고 있다. 첫째, 인지 손실을 위해 사용된 신경망은 이미지넷(ImageNet) 데이터 셋에 학습되었기 때문에 다양한 해충 간의 세밀한 특징을 추출하고 구별하기에는 한계가 있다. 둘째, 기존의 GAN은 해충 영상에서 관심 영역(ROI, Region-of-Interests)의 특징을 추출하여 구별력을 강화할 수 있는 특징 추출기가 배제되어 있다.

따라서 이 논문에서는 고해상도 해충 영상에서 텍스처의 표현 능력을 강화하기 위해, 해충 부류별 인지 손실 모델링과 관심 영역 특징 추출기 설계 과정을 소개하고자 한다. 해충 부류별 인지 모델링은 해충 군집화를 통해 부류 개수를 정한 후, 해충 부류별 인지 손실을 평가할 수 있는 신경망을 설계하고 학습하는 과정을 말한다. 그리고 관심 영역 특징 추출기 설계 과정은 생성망(Generator)에서 주로 사용되는 백본(Backbones)외에, 배경 영역에서 해충이 존재하는 전경 영역을 분리할 수 있는 특징 추출기를 새롭게 설계하고 융합하는 과정을 말한다. 애블레이션(Ablation) 실험을 통해, 제안한 해충 부류별 인지 손실과 관심 영역 특징 추출기를 초해상화 베이스 모델인 SRGAN[5]에 추가함에 따라 영상 구조와 해상도 복원력이 강화됨을 입증하고자 한다.

이 논문은 2021년도 한국정보기술학회 추계종합학술대회에서 발표한 논문[6]을 확장한 버전이다. 학술대회 논문과 비교해서, 실험 결과와 제안한 모델 관련 부분에서 보다 상세한 설명과 분석 자료가 추가되었다.


Ⅱ. 관련 연구

2.1 인지 주도 기반 초해상화 기법

인지 주도 초해상화 기법은 사전 학습된 신경망을 사용하여 인지 손실을 GAN에 추가한 기법을 말한다[5]. 기존 초해상화 분야에서 널리 사용되는 손실 함수는 평균 제곱 오차(MSE, Mean Squared Error)이다. 하지만 평균 제곱 오차는 픽셀 단위 기반으로 원본 고해상도 영상과 생성된 복원 영상 간의 오차를 계산한다. 이에 반해 인지 손실은 사전 학습된 신경망에서 추출된 시각 특징 간의 오차를 계산한다. 사전 학습된 신경망은 객체 구별에 필요한 고수준의 시각 특징을 추출할 수 있다. 따라서 평균 제곱 오차 손실에 비해 고수준의 시각 특징을 비교함으로써, 생성된 영상에서 영상 구조와 텍스처를 포함한 객체의 사실적인 표현력을 강화할 수 있다. 대표적인 인지 주도 초해상화 모델로는 SRGAN[5], ESRGAN[7], SPSR[8]이 있다.

2.2 인지 손실 모델

인지 손실은 사전 학습된 신경망을 사용한다. 일반적으로 대용량의 이미지넷 데이터 셋을 사용하여 VGG16[9]나 ResNet[10]과 같은 백본을 학습한다. 이 사전 학습된 신경망을 사용해서 고수준의 특징을 추출하여 원본 영상과 복원 영상 간의 오차를 계산한다.

즉, 두 영상 간의 유사도를 인지적 관점에서 오차를 평가한다. 사전 학습된 신경망은 객체를 구별하고 인지하기 위한 인간 시각 시스템(Human visual system)을 모델링했다고 볼 수 있다.

그림 1은 인지 손실 계산을 위해 SRGAN에서 사용된 VGG16 네트워크를 보여주고 있다[9]. 그림에서 네트워크의 입력은 HR과 SR 영상이다. HR은 원본 고해상도 영상이고 SR은 SRGAN에서 생성된 고해상도 영상을 말한다. 이 HR과 SR 영상은 각각 사전 학습된 VGG16 네트워크를 통과하여 고수준의 시각 특징으로 변환된다. VGG16 네트워크에서 5번째의 최대 풀링(Max pooling) 레이어에서 특징을 추출한다. 추출된 특징 맵은 다음의 수식을 통해 인지 손실로 변환된다.

Lp=1HWiHjWϕHRi,j-ϕSRi,j2(1) 
Fig. 1.

Architecture of conventional neural network for perceptual loss evaluation

여기서 ϕ는 함수이고 VGG16 네트워크를 의미한다. 그리고 HW는 각각 특징 맵의 가로와 세로 길이를 나타낸다. 따라서 수식 (1)은 원본 영상과 복원 영상에 대응하는 특징 맵 간의 평균 오차를 의미한다. 일반적으로 VGG16 네트워크의 손실 레이어에 가까운 상위 레이어에서 추출된 특징은 고수준에 대응한다. 따라서 식 (1)을 SRGAN에 손실함수로 추가함으로써 인지적 관점에서 두 영상 간의 오차를 평가할 수 있다. 이러한 인지 손실의 추가는 텍스처의 선명도를 높이고 사실적인 표현 능력을 강화하는 것으로 알려져 있다[5]. 하지만 생성된 텍스처의 모양이 원본 영상과 차이가 날 수 있으며 기하학적인 왜곡이 발생하기도 한다[8].


Ⅲ. 제안한 부류별 인지 손실 모델링 및 관심 영역 추출기 기반 해충 초해상화

기존의 인지 주도 초해상화 기법은 텍스처의 사실적인 표현 능력을 강화할 수 있지만 여전히 개선할 점이 있다. 우선, 인지 주도 초해상화 기법에서 사용된 인지 손실은 이미지넷에 학습된 VGG16 신경망을 사용한다. 따라서 다양한 해충 간의 세밀한 특징을 구별하기에는 적합하지 않다. 또한 기존의 SRGAN 모델에서 사용된 백본은 해충의 관심 영역을 정확하게 추정하기 어렵다. 이로 인해, 해충 영상 구조나 텍스처 복원 능력이 저하될 수 있다. 이런 인지 주도 초해상화 기법의 단점을 개선하고자, 이 논문에서는 해충 부류별 인지 손실 모델과 관심 영역 특징 추출기를 제안하고자 한다.

3.1 해충 부류별 인지 손실 모델링

해충 부류별 인지 손실 모델링은 크게 해충 군집화 단계, 군집별 신경망 학습 단계, 부류별 인지 손실 모델링 단계로 나뉜다.

3.1.1. 해충 군집화 단계

해충 군집화 단계는 해충 영상들을 유사한 특징을 갖는 그룹으로 묶는 과정을 말한다. 이 연구에서 사용된 IP102 공개 데이터 셋은 원래 부류 개수가 102개이다[11]. 하지만, 배경만 존재하거나 워터마크가 추가된 불필요한 영상이 존재하여 총 94개의 부류로 정제하였다. 따라서 IP102 데이터 셋의 경우, 용량과 계산 비용 문제로 인해 인지 손실 모델링에 필요한 신경망을 모든 부류에 대해 만들 수 없다. 이러한 이유로 해충 군집화 단계가 필요하다.

그림 2는 해충 군집화 과정을 보여준다. 먼저, 해충 군집화를 위해서는 특징 추출기가 필요하다. SIFT[12]나 HOG[13]와 같은 고전적인 특징 추출기가 있지만, 이 논문에서는 딥러닝 기반의 특징 추출기인 VGG16 모델을 사용하였다. 하지만, 이 모델은 이미지넷에 사전 학습되었기 때문에 파인튜닝 과정이 필요하다. 즉, 해충 영상 간의 특징 구별력을 확보하기 위해, VGG16 모델을 전이학습(Transfer learning)을 통해 재학습할 필요가 있다. 두 번째 단계는 특징 추출 단계로써, 해충 영상을 재학습된 VGG16 모델에 넣어 고수준의 특징 벡터를 출력한다. 이때 적용된 특징 추출 레이어는 VGG16 모델의 5번째 풀링 계층이다. 마지막 단계는 추출된 해충 특징 벡터를 K-평균 군집화(K-means clustering) 알고리즘을 적용해서 K개의 대표 벡터와 그룹을 생성한다. 이 연구에서는 경험적인 실험을 통해 군집의 개수인 K를 5로 설정했다.

Fig. 2.

Procedure of pest image clustering

그림 3은 해충 군집화의 결과로써, 부류별 해충 영상의 고차원 특징 벡터를 2차원으로 사상해서 시각화한 결과이다. 이를 위해, T-SNE[14] 시각화 기법이 적용되었다. 그림에서 보듯이, 동일한 그룹에 속하는 특징 벡터가 한곳으로 쏠려 있는 것을 볼 수 있다. 또한 서로 다른 부류가 경계면으로 잘 구분되는 것을 볼 수 있다. 이는 해충 군집화가 잘 수행되었다는 것을 말해준다. 그림 4는 각 군집에 속한 해충 영상을 예시로 보여주고 있다. 그림에서 하나의 행은 동일한 군집에 속한 해충 영상이다. 그림에서 보듯이, 시각적으로 유사한 해충들이 모여 있는 것을 확인할 수 있다.

Fig. 3.

Visualization of class-specific feature vectors

Fig. 4.

Examples of pest images by clusters

3.1.2. 군집별 신경망 학습 단계

군집별 신경망 학습 단계는 해충 군집화를 통해서 얻은 각각의 군집에 대해 신경망을 학습하는 과정을 말한다. 기존의 인지 손실에 사용된 모델은 이미지넷에 학습이 되었기 때문에 해충 영상 간의 세밀한 특징을 구별하기에는 한계가 있다. 또한 해충 영상 전체에 대해 하나의 신경망을 사용하면 인지 손실을 정확하게 모델링하기에 부족할 수 있다. 따라서 해충 군집화를 통해 유사한 특징을 갖는 군집별로 신경망을 학습할 필요가 있다. 이 연구에서는 기존의 인지 손실에서 사용되는 VGG16 모델을 각각의 군집에 속한 영상들을 사용해서 재학습했다.

3.1.3. 부류별 인지 손실 모델링

부류별 인지 손실 모델링은 군집별로 학습된 VGG16 모델을 사용해서 최종 부류별 인지 손실(CSPL, Class-Specific Perceptual Loss)을 계산하기 위해 신경망을 구성하는 단계를 말한다. 그림 5는 제안한 CSPL을 계산하기 위한 최종 신경망의 아키텍처를 보여준다. 그림에서 보듯이, 제안한 CSPL 모델은 부류별로 학습된 VGG16 모델의 결과를 가중치를 곱해서 평균화한 것으로 볼 수 있다. 그림에서 ϕGϕC,k는 인지 손실을 계산하기 위한 함수이고, 각각 전체 영상과 군집별로 학습된 VGG16 모델을 의미한다.

LPg=1HWiHjWϕGHRi,j-ϕGSRi,j2(2) 
LPc,k=1HWiHjWϕC,kHRi,j-ϕC,kSRi,j2(3) 
Fig. 5.

Proposed class-specific perceptual loss function

여기서 LPgLPc,k는 각각 SR과 HR을 VGG 모델인 ϕGϕC,k에 넣어서 계산된 인지 손실을 의미한다. 군집별 인지 손실이 계산된 후, 최종 CSPL은 다음과 같이 계산된다.

LCSPL=wGLPg+k=1KwC,kLPc,k(4) 

여기서 wGwC,k는 추후 학습될 파라미터로써, 각 군집별 인지손실에 대한 가중치 값을 의미한다. 따라서 식 (4)는 입력 해충 영상에 따라 특정 군집에 속하는 VGG 모델이 인지 손실을 더 잘 추정할 수 있다는 것을 반영하고 있다. 최종 CSPL은 각 군집별 VGG 모델에서 출력된 인지 손실의 값을 학습을 통해 가중치를 추정한다.

3.2 관심영역 특징 추출기

기존의 GAN 모델에서는 VGG16이나 ResNet과같은 백본을 특징 추출기로 사용한다. 물론 최근에는 비전 트랜스포머(Vision transformer)[15]와 같이 셀프 어텐션 기능을 갖춘 백본이 개발되고 있지만, 여전히 해충의 관심 영역을 정확히 예측하기란 쉽지 않다. 여기서 관심 영역이란 해충 영상에서 배경 영역을 제외한 해충의 전경 영역(Foreground)을 말한다. 해충 인식에서 큰 영향을 미치는 영역은 배경이 아닌, 해충의 영상 구조와 텍스처를 포함한 전경 영역이다. 따라서 전경 영역을 추출하고 기존의 백본과 융합할 수 있는 관심 영역 기반의 GAN 구조가 필요하다. 최근 관심 영역을 추출하여 잎사귀 질병 진단의 성능을 높인 연구가 소개되었다[16]. 따라서 본 연구에서는 기존의 잎사귀 질병 진단에 활용된 관심 영역 특징 추출 방식을 초해상화 기법에 적용하고자 한다.

그림 6은 제안한 관심 영역 인식 특징 추출기를 포함한 SRGAN 모델이다. 기존의 SRGAN[5]과는 달리, 생성자에 두 개의 특징 추출기가 존재하는 것을 볼 수 있다. 하나는 기존의 SRGAN에서 사용되는 백본이고 다른 하나는 관심 영역 특징 추출기(ROI-FE, ROI Feature Extractor)이다. 즉, 입력 해충 영상으로부터 전경 영역을 예측하기 위한 백본이다. 이 논문에서는 관심 영역을 추출하기 위해, 인코더와 디코더로 구성된 U-net[17] 모델을 사용했다. 참고로 U-net 모델은 입력 영상의 크기와 동일한 크기의 출력 맵을 생성한다. U-net 모델을 사전 학습하기 위해, IP102 데이터 셋에서 4,253장의 해충 영상을 영역 라벨링 작업을 수행하였고 학습 데이터로 활용했다. 손실 함수로는 이진 교차 엔트로피(Binary cross entropy)를 사용했고 최적화를 위해 Adam[18] 기법을 적용했다. 총 에폭은 200, 배치 크기는 10, 학습률은 0.001로 설정했다.

Fig. 6.

Proposed ROI-aware SRGAN

그림 6에서 사전 학습된 U-net에서 출력된 관심 영역 특징 맵은 SRGAN의 특징 추출기와 융합된다. 융합 방식은 간단하지만 해상도 성능을 제고할 수 있는 연결(Concatenation) 레이어를 적용했다. 이렇게 융합된 특징은 업샘플링 모듈을 통과한 후, 최종 고해상도 영상인 SR을 생성한다. 업샘플링 모듈은 전경 영역에 대한 추가적인 정보를 확보함으로써, 해충 복원 과정에서 전경과 배경 영역에 대한 특징을 구별하여 복원 능력을 강화할 수 있다.


Ⅳ. 실험 및 결과

4.1 모델 학습

제안한 최종 모델은 부류별 인지 손실을 포함한 관심 영역 인식 SRGAN이다. 즉, 그림 6의 관심 영역 인식 SRGAN에 그림 5의 부류별 인지 손실을 추가한 모델을 말한다. 따라서 기존의 SRGAN과의 차이점은 관심 영역 특징 추출기와 부류별 인지 손실에 있다.

그림 6의 관심 영역 인식 SRGAN을 학습하기 위해, IP102 공개 해충 데이터 셋을 사용했다. IP102 데이터 셋은 총 부류가 102개이지만, 배경만 존재하거나 워터마크가 삽입된 영상을 제외하여 총 94개의 부류로 정제했다. 학습 데이터와 테스트 데이터의 비율은 7:3이고 각각 5,344장과 2,214장의 영상을 포함한다. 데이터 강화(Augmentation)를 위해, 잘림(Cropping)과 뒤집기(Flipping) 변환을 적용했다. 입력저해상도 패치의 크기는 32x32이고, 원본 고해상도 패치의 크기는 128x128이다. 이는 저해상도 변환을 위한 다운샘플링 비율이 4인 것을 의미한다. 배치 크기와 에폭(Epochs)은 각각 10과 200으로 설정했고, Adam[18] 최적화 기법을 사용했다. 학습률은 0.001로 고정했다. 딥러닝 프레임워크는 Pytorch이며 윈도우 운영체제에서 학습과 테스트를 진행했다.

4.2 정성적 화질 평가

제안한 모델은 기존의 SRGAN[5] 모델을 개선한 버전이다. 특히 부류별 인지 손실 모델과 관심 영역 특징 추출기를 새롭게 추가했다. 따라서 이 두 모듈에 따른 시각적인 효과를 확인할 필요가 있다. 그림 7은 실험 결과로써, SRGAN 결과 대비 제안한 기법의 성능을 비교할 수 있다.

Fig. 7.

Experimental results; (a) Original HR images(First column), (b) SPSR[8](Second column), (c) SRGAN[5](Third column), (d) Proposed method(SRGAN+ROI-FE)(Fourth column), (e) Proposed method(SRGAN+ROI-FE+CSPL)(Last column)

우선, 그림 7에서 세 번째 열이 SRGAN의 결과 영상이며, 네 번째와 마지막 열이 제안한 기법의 결과 영상이다. 참고로 네 번째 열은 ROI-FE만 추가한 제안한 SRGAN 모델이고 마지막 열은 CSPL까지 추가한 제안한 SRGAN 모델이다. 결과 영상에서 ROI-FE와 CSPL을 추가함에 따라 에지의 선명도가 증가하고 라인의 모양이 뚜렷해지는 것을 볼 수 있다.

특히, 첫 번째와 두 번째 행의 빨간 박스에서 ROI-FE와 CSPL을 추가함에 따라 배경의 라인과 해충의 윤곽이 전체적으로 선명해진 것을 알 수 있다. 이는 ROI-FE는 전경 영역과 배경 영역을 분리해줌으로써 특징의 구별력을 높여 최종 영상 구조 및 텍스처의 향상을 유도한 것으로 분석된다. 그리고 CSPL은 부류별 인지 손실을 계산하기 때문에 부류 간 특징의 구별력을 높일 수 있다. 이를 통해 CSPL은 입력 해충의 특징에 따라 텍스처 복원 성능을 향상할 수 있는 것으로 분석된다. 이 실험 결과로부터 제안한 CSPL과 ROI-FE가 영상 구조나 텍스처의 선명도를 개선하는데 효과적임을 확인할 수 있다.

반면 SPSL[8] 기법은 초해상화 분야에서 SOTA 기법으로 인식되지만, 여전히 텍스처 왜곡 현상이 발생하는 것을 볼 수 있다. 특히, 세 번째 행에서 텍스처의 모양이 원본과는 아주 다른 것을 볼 수 있다. 따라서 SPSL은 텍스처 생성 능력은 좋으나 원본과 유사한 텍스처를 복원하는 능력은 떨어지는 것을 확인할 수 있다.

4.3 정량적 성능 평가

기존의 기법과 제안한 기법의 성능을 정량적으로 평가하기 위해, 최대 신호 대 잡음비(PSNR, Peak Signal-to-Noise Ratio)와 구조적 유사성(SSIM, Structural Similarity)[19]을 화질 평가 척도로 사용하였다. PSNR은 복원 영상과 원본 영상의 픽셀 값이 얼마나 유사한지를 판별하는 척도이고 SSIM은 복원 영상과 원본 영상 간의 영상 구조 관점에서 유사도를 측정하는 척도이다. 두 척도 모두 값이 클수록 원본에 가깝다는 것을 의미한다.

표 1은 SPSR[8], SRGAN[5] 그리고 제안한 기법에 대한 PSNR과 SSIM 수치를 보여주고 있다. 결과 영상에서 확인했듯이, SPSL은 텍스처 생성 능력은 좋지만 원본과는 다소 차이가 있다. 이런 이유로 PSNR과 SSIM의 수치가 상대적으로 낮게 측정되었다. 그리고 SRGAN은 SPSR보다는 정량적 평가에서 더 우수한 결과를 달성했다. 하지만, 제안한 기법보다는 성능이 떨어지는 것을 볼 수 있다. 특히, SRGAN에 ROI-FE를 추가한 제안한 기법은 PSNR과 SSIM을 동시에 개선한 것을 확인할 수 있다.

Quantitative evaluation

또한 CSPL까지 추가했을 때는 PSNR과 SSIM이 더 향상되는 것을 볼 수 있다. 이는 ROI-FE와 CSPL이 전경 영역의 특징을 추출하고 부류별 특징의 구별력을 제고하기 때문에 해상도와 텍스처 복원 능력을 향상한 것으로 분석된다.


Ⅴ. 결 론

본 연구에서는 텍스처의 선명도를 개선할 수 있는 부류별 인지 손실 모델과 관심 영역 특징 추출기를 제안하였다. 기존의 SRGAN 기반의 초해상화 기법은 이미지넷에 학습된 하나의 인지 손실만을 사용하기 때문에 부류 간 텍스처의 유사도가 높은 해충 초해상화에는 적합하지 않다. 또한 기존의 SRGAN에 사용된 백본은 공간 영역에 따른 텍스처의 구별 능력이 떨어지는 단점이 있다. 이런 문제를 해결하고자, 이 논문에서는 해충 부류 간 텍스처의 특징 구별력을 제고할 수 있는 관심 영역 특징 추출기를 제안하였다. 특히, 전경 영역과 배경 영역으로 나뉜 특징 맵을 기존의 백본과 융합으로써, 공간 영역에 따른 특징 구별력을 높여 최종 해상도 개선에 성공하였다. 또한 해충 부류 간의 인지 손실을 모델링하여 입력 해충 영상의 특징을 반영함으로써 최종 영상 복구 능력을 향상할 수 있었다. PSNR과 SSIM 화질평가에서 베이스 모델인 SRGAN보다 각각 1.1과 0.02 정도가 향상되었다. 제안한 인지 손실 모델과 관심 영역 특징 추출기는 비단 SRGAN 뿐만 아니라 GAN 기반의 모든 초해상도 기법에 적용 가능하며 텍스처 및 영상 구조의 선명도를 개선할 것으로 기대된다.

Acknowledgments

본 성과물은 농촌진흥청 연구사업(과제번호: PJ01630302)의 지원에 의해 이루어진 것임

References

  • L. Zhang and X. Wu, "An edge-guided image interpolation algorithm via directional filtering and data fusion", IEEE Transactions on Image Processing, Vol. 15, pp. 2226-2238, Aug. 2006. [https://doi.org/10.1109/TIP.2006.877407]
  • J. Yang, J. Wright, T. Huang, and Y. Ma, "Image super-resolution via sparse representation", IEEE Transactions on Image Processing, Vol. 19, No. 11, pp. 2861-2873, May 2010. [https://doi.org/10.1109/TIP.2010.2050625]
  • J. Sun, Z. Xu, and H. Y. Shum, "Image super-resolution using gradient profile prior", In Proc. IEEE International Conference on Computer Vision and Pattern Recognition, Anchorage, USA, pp. 1-8, Jun. 2008.
  • Y. Zhang, K. Li, L. Wang, B. Zhong, and Y. Fu, "Image super-resolution using very deep residual channel attention networks", In Proc. European Conference on Computer Vision, Munich, Germany, pp. 286-301, Sep. 2018. [https://doi.org/10.1007/978-3-030-01234-2_18]
  • C. Leidg et al., "Photo-realistic single image super-resolution using a generative adversarial network", In Proc. IEEE International Conference on Computer Vision and Pattern Recognition, Honolulu, Hawaii, USA, pp. 4681-4690, Jul. 2017. [https://doi.org/10.1109/CVPR.2017.19]
  • J. Y. Jeong, C. H. Son, and H. Yi, "Class-specific perceptual loss modeling for pest superresolution", Proceedings of KIIT Conference, Jeju Island, South Korea, pp. 426-430, Jun. 2022.
  • X. Wang, K. Yu, S. Wu, J. Gu, Y. Liu, C. dong, Y. Liu, and C. C. Loy, "Esrgan: Enhanced super-resolution generative adversarial networks", In Proc. European Conference on Computer Vision, Munich, Germany, pp. 63-79, Sep. 2018. [https://doi.org/10.1007/978-3-030-11021-5_5]
  • C. Ma, Y. Rao, Y. Cheng, C. Chen, J. Lu, and J. Zhou, "Structure-preserving super-resolution with gradient guidance", In Proc. IEEE International Conference on Computer Vision and Pattern Recognition, Seattle, USA, pp. 7769-7778, Jun. 2020.
  • K. Simonyan and A. Zisserman, "Very deep convolutional networks for large-scale image recognition", arXiv:1409.1556, [cs. CV], Sep. 2014.
  • K. He, X. Zhang, S. Ren, and J. Sun, "Deep residual learning for image recognition", In Proc. IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, U.S.A., pp. 770-778, Jun. 2016.
  • X. Wu, C. Zhan, Y. K. Lai, M. M. Cheng, and J. Yang, "IP102: A large-scale benchmark dataset for insect pest recognition", In Proc. IEEE International Conference on Computer Vision and Pattern Recognition, Long Beach, USA, pp. 8787-8796, Jun. 2019.
  • D. G. Lowe, "Distinct image features from scale-invariant key points", International Journal of Computer Vision, Vol. 60, No. 2, pp. 91-110, Nov. 2004. [https://doi.org/10.1023/B:VISI.0000029664.99615.94]
  • N. Dalal and B. Triggs, "Histograms of oriented gradients for human detection", in Proc. IEEE Conference on Computer Vision and Pattern Recognition, San Diego, CA, USA, pp. 886-893, Jun. 2005.
  • L. van der Maaten and G. Hinton, "Visualizing data using t-sne", Journal of Machine Learning Research, Vol. 9, pp. 2579-2605, 2008.
  • Z. Liu, Y. Cao, H. Hu, Y. Wei, Z. Zhang, S. Lin, and B. Guo, "Swin shifted windows", In Proc. IEEE Conference on Computer Vision, Virtual, pp. 1125-1134, Oct. 2021.
  • H. J. Yu, C. H. Son, and D. H. Lee, "Apple leaf disease identification through region-of-interest- aware deep convolutional neural network", Journal of Imaging Science and Technology, Vol. 64, No. 2, pp. 20507-1-20507-10, Jan. 2020. [https://doi.org/10.2352/J.ImagingSci.Technol.2020.64.2.020507]
  • O. Ronneberger, P. Fischer, and T. Brox, "U-Net: Convolutional networks for biomedical image segmentation", In Proc. International Conference on Medical Image Computing and Computer-Assisted Intervention, Munich, Germany, pp. 234-241, Oct. 2015. [https://doi.org/10.1007/978-3-319-24574-4_28]
  • D. P. Kingma and J. Ba, "Adam: A method for stochastic optimzation", In Proc. International Conference on Learning Representation, San Diego, USA, May 2015.
  • Z. Wang, A. C. Bovik, H. R. Sheikh, and E. P. Simoncelli, "Image quality assessment: from error visibility to structural similarity", IEEE Transactions on Image Processing, Vol. 13, No. 4, pp. 600-612, Apr. 2004. [https://doi.org/10.1109/TIP.2003.819861]
저자소개
정 진 영 (Jin-Young Jeong)

2017년 3월 ~ 현재 : 군산대학교 소프트웨어학과 학사과정

관심분야 : 컴퓨터 비전, 영상처리, 딥 러닝

손 창 환 (Chang-Hwan Son)

2002년 2월 : 경북대학교 전자전기공학부(공학사)

2004년 2월 : 경북대학교 전자공학과(공학석사)

2008년 8월 : 경북대학교 전자공학과(공학박사)

2017년 4월 ~ 현재 : 군산대학교 소프트웨어학과 부교수

관심분야 : 컴퓨터 비전, 영상처리, 기계학습, 딥 러닝

Fig. 1.

Fig. 1.
Architecture of conventional neural network for perceptual loss evaluation

Fig. 2.

Fig. 2.
Procedure of pest image clustering

Fig. 3.

Fig. 3.
Visualization of class-specific feature vectors

Fig. 4.

Fig. 4.
Examples of pest images by clusters

Fig. 5.

Fig. 5.
Proposed class-specific perceptual loss function

Fig. 6.

Fig. 6.
Proposed ROI-aware SRGAN

Fig. 7.

Fig. 7.
Experimental results; (a) Original HR images(First column), (b) SPSR[8](Second column), (c) SRGAN[5](Third column), (d) Proposed method(SRGAN+ROI-FE)(Fourth column), (e) Proposed method(SRGAN+ROI-FE+CSPL)(Last column)

Table 1.

Quantitative evaluation

Methods PSNR SSIM
SPSR [8] 28.867 0.7984
SRGAN [5] 30.594 0.8481
Proposed method
(SRGAN+ROI-FE)
31.441 0.8619
Proposed method
(SRGAN+ ROI-FE + CSPL)
31.672 0.8681