Korean Institute of Information Technology

Journal Archive

The Journal of Korean Institute of Information Technology - Vol. 19 , No. 9

[ Article ]
The Journal of Korean Institute of Information Technology - Vol. 19, No. 9, pp. 115-121
Abbreviation: Journal of KIIT
ISSN: 1598-8619 (Print) 2093-7571 (Online)
Print publication date 30 Sep 2021
Received 02 Aug 2021 Revised 17 Aug 2021 Accepted 20 Aug 2021
DOI: https://doi.org/10.14801/jkiit.2021.19.9.115

합성곱 신경망을 이용한 고선명 영상 획득
장훈석*
*한국전자기술연구원 IT응용연구센터 선임연구원

Acquisition of the Image with High Sharpness by using Convolutional Neural Network
Hoon-Seok Jang*
Correspondence to : Hoon-Seok Jang IT Application Research Center, Korea Electronics Technology Institute, Republic of Korea, Tel.: +82-63-219-0061, Email: jhs0053@keti.re.kr

Funding Information ▼

초록

증강현실 분야에서 양안 응시점 추정을 위해 견실한 동공 검출은 필수적이다. 정확한 동공 검출을 위해 선명한 동공 영상을 획득하는 것이 중요해서 다초점 영상 합성 기술들이 많은 관심을 받고 있다. 다초점 영상 합성은 하나의 고선명 영상을 얻기 위해 블러링된 다른 영상들에서 초점 영역을 추출한 기술이다. 이러한 다초점 영상 합성 기술은 activity level 측정과 합성 규칙이 중요한 요소인데, 기존의 다초점 영상 합성 기술은 activity level 측정과 합성 규칙을 분리해서 고려할 뿐만 아니라 점점 더 복잡해지고 있어서 본 논문에서는 블러링된 영상들과 초점 맵을 바로 매핑하여 우수한 성능의 다초점 영상 합성 결과를 얻기 위해 딥러닝 기술 중의 하나인 합성곱 신경망을 제안한다. 실험 결과들은 제안된 방법의 효율성을 증명한다.

Abstract

Robust pupil detection is essential for binocular gaze estimation in the augmented reality. Since it is important to acquire a clear pupil image for accurate pupil detection, multi-focus image fusion has received a lot of attention. Multi-focus image fusion is a technique for extracting a focused region from the blurred images to obtain a image with high sharpness. In multi-focus image fusion, activity level measurement and fusion rule are important factors. Since the existing multi-focus image fusion not only considers activity level measurement and fusion rule separatively, but also becomes more and more complicated, a convolutional neural network as one of the deep learning techniques is proposed in this paper to obtain a multi-focus image fusion results with excellent performance through directly mapping between the blurred images and the focus map. Experimental results demonstrate the effectiveness of the proposed method.


Keywords: multi-focus image fusion, activity level measurement, fusion rule, convolutional neural network

Ⅰ. 서 론

광학 이미징의 피사계 심도의 한계로 인해 한 장면에서 모든 물체를 선명한 이미지로 캡처하는 것이 어렵다. 이것의 주된 이유는 초점 평면의 앞이나 뒤에서 다른 거리에 있는 물체들은 초점이 흐려지는 동안 카메라로부터 일정 거리에 있는 물체들만 초점을 맞출 수 있기 때문이다.

다초점 이미지 합성은 그림 1과 같이 초점 거리가 다른 이미지를 융합하여 하나의 이미지를 생성하는 것을 말한다[1]. 합성된 이미지는 더 나은 시각적 인식과 더 많은 정보를 제공한다. 이것은 대상 검출, 영상 분할과 같은 컴퓨터 비전과 영상처리 분야에 적절하다. 다양한 이미지 합성 방법들이 제안되었으며, 이는 크게 공간 도메인 방법과 변환 도메인 방법으로 나눌 수 있다[1].


Fig. 1. 
Multi-focus image fusion

공간 도메인 기반의 영상 합성 방법은 픽셀 수준의 기울기 정보 또는 이미지 블록을 사용하지만, 이 과정은 블록의 효과가 합성 결과에 영향을 끼칠 것이다[2]. 픽셀 수준의 합성 방법들과 같은 일반적인 공간 도메인 방법들은 Dense Scale Invariant Feature Transform(DSIFT), Guided Filtering(GF), 균일 유사성 등을 기반으로 한다. 공간 도메인 기반의 합성 방법들과는 달리 다른 다중 스케일 변환(MST, Multi-Scale Transform)을 사용하는 것과 같은 변환 도메인 기반의 합성 방법들은 소스 이미지를 다른 해상도 레이어 또는 다른 주파수 대역을 가지는 하위 이미지들로 분해한다.

이를 통해 블록 영향을 효과적으로 피할 수 있고, 합성 효율이 향상된다. 그러나, 변환 도메인 방법은 다운 샘플링 작용이 필요한데, 이 작용은 합성 이미지에 artifacts를 낳는다[3]. 변환 도메인 기반의 합성 방법들은 Sparse Representation(SR), Wavelet Transform and Adaptive Block(WTAB) 등을 포함한다.

기존의 공간 도메인 방법들과 변환 도메인 방법들의 공통적인 문제점으로써 다초점 이미지 합성의 중요한 요소인 active level 측정과 합성 규칙을 분리해서 고려할 뿐만 아니라 직접 설계를 하고 있다는 점이다[4]. 최근에는 합성 성능의 개선을 위해 activity level 측정과 합성 규칙이 점점 더 복잡해지고 있다. 본 논문에서는 이 문제들을 해결하기 위해 소스 이미지들을 초점 맵에 바로 매핑 하도록 학습하는 딥러닝 기술 중의 하나인 합성곱 신경망 기술을 제안한다. 합성곱 신경망을 고품질의 이미지 패치들과 그것들의 블러링된 패치들을 가지고 학습하여 소스 이미지들과 초점 맵 사이의 매핑을 인코딩함으로써 activity level 측정과 합성 규칙을 함께 고려하여 기존의 합성 방법들이 겪고 있는 어려움을 극복한다. 실험 결과들은 기존의 다초점 이미지 합성 방법들보다 제안된 방법이 더 고품질의 합성 결과들을 제공한다는 것을 증명한다.


Ⅱ. 제안된 방법
2.1 신경망 구조

그림 2는 제안된 합성 알고리즘에서 사용된 합성곱 신경망 모델을 보여주고 있다. 네트워크의 각 브랜치는 3개의 convolutional layer와 1개의 max-pooling layer가 있음을 알 수 있다. 각 convolutional layer의 커널 크기와 stride는 3×3과 1로 각각 설정된다. max-pooing layer의 커널 크기와 stride는 2×2와 2로 각각 설정된다. 각 브랜치에 의해서 획득된 256개의 피처 맵들이 연결된 후에 256 차원의 피처 벡터와 완전 연결된다. 네트워크의 출력은 256차원의 벡터와 완전 연결된 2차원의 벡터이다. 실제로, 2차원의 벡터는 2개의 클래스에 대하여 확률 분포를 제공하는 softmax layer로 전해진다.


Fig. 2. 
Convolutional Neural Network(CNN) model utilized in the proposed fusion algorithm

테스트와 합성 과정에서 두 개의 완전 연결 층들을 convolutional layers로 변환한 후 제안된 네트워크에 임의의 크기를 가지는 블러링된 두 개의 소스 이미지들을 제공하여 스코어 맵을 생성할 수 있다[5].

소스 이미지들이 H × W의 크기를 가질 때, 출력 스코어 맵의 크기는 (Ceil(H/2)-8+1) × (Ceil(W/2)-8+1)이고, Ceil( • )은 올림 함수를 나타낸다.

2.2 신경망 학습

학습 데이터들은 ImageNet 데이터셋에서 파생된 50,000개의 고품질 자연 이미지들을 포함하는ILSVRC 2012 검증 이미지셋에 있는 영상들로부터 생성된다[6]. 각 이미지에서 가우시안 필터링을 사용하여 다섯 개의 블러링된 이미지들을 얻는다. 구체적으로, 표준 편차가 2이고 7×7의 가우시안 필터가 사용된다. 첫 번째 블러링된 이미지는 원래의 선명한 이미지에 가우시안 필터를 적용함으로써 얻어진다. 그리고 두 번째 블러링된 이미지는 첫 번째 블러링된 이미지에 가우시안 필터를 적용함으로써 얻어진다. 이와 같은 방법으로 총 5개의 블러링된 이미지를 얻을 수 있다. 그리고 각 블러링된 이미지와 원래의 이미지에 대하여 16×16 크기를 가진 20개의 패치 쌍이 무작위로 샘플링된다.

본 논문에서는 데이터셋을 통해 1,000,000개의 패치 쌍을 얻는다. p1p2를 입력 패치, pcpb를 선명한 패치와 블러링된 패치로 각각 정의하면, p1 = pcp2 = pb가 성립될 때 레이블이 1로 설정된 데이터를 나타내고, p1 = pbp2 = pc가 성립될 때 레이블이 0으로 설정된 데이터를 나타낸다. 따라서 본 논문에서는 학습 데이터셋은 1,000,000개의 레이블이 1로 설정된 데이터와 1,000,000개의 레이블이 0으로 설정된 데이터로 구성되어 있다.

분류 목적으로 합성곱 신경망을 이용할 때처럼 softmax 손실 함수가 제안된 신경망에 사용된다. 확률적 경사 하강법(SGD, Stochastic Gradient Descent)는 손실 함수를 최소화하기 위해 적용된다. 학습 과정에서 배치 크기는 128로 설정한다. 또한, 모멘텀과 가중치 감쇠는 0.9와 0.0005로 각각 설정한다. 가중치는 식 (1), (2)와 같이 갱신된다.

vi+1=        0.9vi-0.0005αwi-αLwi(1) 
wi+1=wi+vi+1(2) 

식 (1)(2)에서 v는 모멘텀 변수, i는 반복 인덱스, α는 학습률, L은 손실 함수, Lwiwi에서 가중치에 대한 손실의 미분을 나타낸다. 제안된 신경망은 딥러닝 프레임 워크인 Caffe를 사용하여 학습한다. 각 convolutional layer의 가중치들은 입력과 출력 뉴런 수에 따라 초기화의 스케일을 적응적으로 결정하는 Xavier 알고리즘을 가지고 초기화된다. 각 층의 편향과 학습률은 0과 0.0001로써 각각 초기화된다. 손실이 안정적인 상태에 도달할 때, 학습률을 수동으로 10배만큼 떨어뜨린다. 학습된 신경망은 2백만 개의 학습 데이터들을 통하여 10번의 epochs 후에 최종적으로 얻어진다. 학습률은 학습 과정 동안 1번 줄였다.

2.3 다초점 영상 합성 방법

제안된 다초점 영상 합성 방법은 초점 감지, 초기 분할, 일관성 검증, 합성 단계로 구성되어 있다. 초점 감지에서, AB를 블러링된 두 개의 소스 이미지들이라고 가정한다. 제안된 합성 알고리즘에서, 소스 이미지들은 컬러 이미지일 경우에는 그레이 스케일 공간으로 변환된다. A^B^AB의 그레이 스케일 버전이라고 가정한다. 스코어 맵 SA^B^가 학습된 합성곱 신경망 모델에 전해짐으로써 얻어진다. S에서 각 계수 값은 0에서 1 사이의 범위를 가지는데, 소스 이미지들에서 16×16크기의 패치 쌍의 초점 특성을 나타낸다. 계수 값이 0 또는 1에 가까울수록 소스 이미지 A^ 또는 B^의 이미지 패치가 더 초점이 맞춰진 것을 알 수 있다.

S의 이웃하는 2개의 계수에 대하여 각 소스 이미지에서 상응하는 패치들은 2개의 픽셀의 stride를 가지고 겹친다. 소스 이미지들과 같은 크기를 가지는 초점 맵 M을 생성하기 위해 S에 있는 각 계수의 값을 M에서 상응하는 패치들에 속해 있는 모든 픽셀에 할당하고 겹치는 픽셀들의 평균을 구한다.

다음 단계인 초기 분할에서는 가능한 많은 유용한 정보를 보존하기 위해 초점 맵 M은 더 많이 처리될 필요가 있다. 대부분의 공간 도메인 기반의 다초점 영상 합성 방법들에서 쓰는 Choose-max 기법을 채택하여 M을 처리한다[7]. 고정된 임계값 0.5가 M을 이진 맵 T로 분할 하기 위해 적용된다. 이것은 학습된 합성곱 신경망 모델의 분류 원리와 일치한다. 즉, 초점 맵은 식 (3)과 같이 분할된다.

Tx,y=1,Mx,y>0.50,otherwise(3) 

분할된 이진 맵은 약간의 잘못 분할된 픽셀들을 포함하고 있을 수도 있어서 작은 영역 제거 방법을 사용하여 잘못 분할된 픽셀들을 제거한다. 구체적으로, 한 영역 임계값보다 작은 영역은 이진 맵에서 전환된다. 소스 이미지들에서 매우 작은 구멍들을 포함하고 있는 경우가 발생하면, 임계값을 0으로까지 조정해야 하는 경우가 발생한다. 이것은 영역 제거 방법이 적용되고 있지 않다는 것을 의미한다.

본 논문에서는 영역 임계값을 0.01×H×W으로 설정하고, HW는 각 소스 이미지의 높이와 너비를 각각 나타낸다. 이진 맵 T에서 영역 제거 방법이 적용된 후의 결과를 초기 결정 맵 D라고 가정한다. 합성된 이미지에서 초점 영역과 블러링된 영역 사이의 경계 부분에 원하지 않는 artifacts가 생기는 경우가 발생하므로 본 논문에서는 guided filter를 이용하여 초기 결정 맵 D를 개선한다[7].

Guided filter는 매우 효율적인 edge 보존 필터로써 guidance 이미지의 구조적 정보를 입력 이미지의 필터링 결과로 전달할 수 있다. 초기 합성된 이미지를 초기 결정 맵 D의 필터링을 위해 guidance 이미지로 설정한다. guided filter 알고리즘에는 지역 윈도우 반지름인 r과 정규화 파라미터 ϵ와 같이 두 개의 파라미터들을 가지고 있다.

본 논문에서는 반복된 실험들을 통해 8과 0.1로 각각 설정하였다. 마지막으로, 합성 단계에서는 얻어진 결정 맵 D를 가지고 식 (4)와 같은 픽셀 단위 가중 평균 규칙을 통해 합성 이미지 F를 계산할 수 있다.

Fx,y=             Dx,yAx,y+1-Dx,yBx,y(4) 

Ⅲ. 실험 결과

제안된 방법의 효율성을 증명하기 위해 본 논문에서는 최근에 다초점 영상 이미지 합성을 위해 제공된 13쌍의 MFFW 데이터셋 중에 그림 3과 같이 2쌍의 MFFW 데이터셋의 일부분을 사용한다[6].


Fig. 3. 
Experimental samples

정성 및 정량적인 분석을 위해 기존의 다초점 이미지 합성 방법들로써 WTAB[8], GF[9], DSIFT[10]가 사용되고, WTAB 기반의 다초점 이미지 합성 방법은 변환 도메인 방법에 속하고, GF와 DSIFT 기반의 다초점 이미지 합성 방법은 공간 도메인 방법에 속한다. 정량적인 분석을 위해 성능 척도로써 소스 이미지들에서 합성 이미지에 주입된 공간 세부 정보의 정도를 평가하는 기울기 기반의 성능 척도(G), 합성 이미지와 소스 이미지들 사이에 상호 정보의 양을 측정하는 정규화된 상호 정보(MI), 인간 시각 시스템에서의 주요 특징을 다루는 인간 인식 기반의 성능 척도(CB)를 사용한다[11]. 앞서 언급된 성능 척도들의 값들이 클수록 더 좋은 합성 성능 결과를 제공한다는 것을 의미한다.

표 1, 2는 기존의 다초점 이미지 합성 방법들과 제안된 방법을 이용한 실험 샘플들의 합성 결과의 정량적인 성능 비교를 보여준다. 자세하게는, 표 1그림 3의 첫 번째 열에 있는 샘플에 대한 결과를 나타내고, 표 2그림 3의 두 번째 열에 있는 샘플에 대한 결과를 나타낸다. 표 1, 2와 같이 제안된 방법의 적용을 통한 다초점 이미지 합성 결과가 기존 방법들의 적용을 통한 다초점 이미지 합성 결과보다 성능 척도들의 값이 크다는 것을 알 수 있다.

Table 1. 
Quantitative analysis for the first sample
G MI CB
WTAB 0.6223 0.9754 0.5296
GF 0.6683 1.1331 0.5620
DSIFT 0.6800 1.1760 0.5139
Proposed 0.7444 1.3167 0.6490

Table 2. 
Quantitative analysis for the second sample
G MI CB
WTAB 0.6307 1.0657 0.6710
GF 0.6972 1.2167 0.7060
DSIFT 0.6843 1.2183 0.6876
Proposed 0.7081 1.2429 0.7116

또한, 그림 4, 5와 같이 제안된 방법이 기존의 방법들보다 소스 이미지들의 세부 정보와 초점 영역과 블러링된 영역 사이의 경계 정보 등을 표현하는 부분에서 합성의 시각적 품질이 더 뛰어나다는 것을 알 수 있다.


Fig. 4. 
Qualitative analysis for the first sample


Fig. 5. 
Qualitative analysis for the second sample


Ⅳ. 결 론

본 논문에서는 합성곱 신경망 기반의 다초점 영상 합성 기법을 제안하였다. 본 논문을 통해 합성곱신경망을 학습함으로써 블러링된 소스 이미지들과 초점 맵 사이를 직접 매핑 하였고 이를 통해 activity level 측정과 합성 규칙이 함께 고려될 수 있다. 이것은 기존의 다초점 이미지 합성 방법이 직면하는 어려움을 해결할 수 있다. 실험 결과들은 제안된 방법이 기존의 다초점 이미지 합성 방법들보다 소스 이미지들에 있는 세부 정보들의 표현과 시각적인 품질 등의 부분에서 더 우수한 성능의 합성 결과를 제공한다는 것을 보여준다.

향후 연구로써 신경망 구조와 합성 방법의 개선을 통해 다초점 이미지 합성 기술의 성능을 개선할 필요가 있다.


Acknowledgments

이 성과는 정부(과학기술정보통신부)의 재원으로 한국연구재단의 지원을 받아 수행된 연구임 (No. 2021R1F1A1052728)


References
1. T. Stathaki, "Image Fusion: Algorithms and Applications", Academic Press, Aug. 2008. https://www.researchgate.net/publication/307633426_Image_Fusion_Algorithms_and_Applications.
2. W. Huang and Z. Jing, "Evaluation of focus measures in multi-focus image fusion", Pattern Recognition Letters, Vol. 28, No. 4, pp. 493-500, Mar. 2007.
3. B. Yang and S. Li, "Multifocus Image Fusion and Restoration With Sparse Representation", IEEE Transactions on Instrumentation and Measurement, Vol. 59, No. 4, pp. 884-892, Apr. 2010.
4. S. Li, X. Kang, L. Fang, J. Hu, and H. Yin, "Pixel-level image fusion: A survey of the state of the art", Information Fusion, Vol. 33, pp. 100-112, Jan. 2017.
5. J. Long, E. Shelhamer, and T. Darrell, "Fully Convolutional networks for semantic segmentation", IEEE Conference on Computer Vision and Pattern Recognition(CVPR), Boston, MA, USA, Vol. 1, pp. 3431-3440, Jun. 2015.
6. O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z. Huang, A. Karpathy, A. Khosla, M. Bernstein, A. C. Berg, and L. F. Fei, "ImageNet Large Scale Visual Recognition Challenge", International Journal of Computer Vision, Vol. 115, No. 3, pp. 211-252, Dec. 2015.
7. M. Nejati, S. Samavi, and S. Shirani, "Multi-focus image fusion using dictionary-based sparse representation", Information Fusion, Vol. 25, pp. 72-84, Sep. 2015.
8. Q. Zhang and B. L. Guo, "Multifocus image fusion using the nonsubsampled contourlet transform", Signal Processing, Vol. 89, No. 7, pp. 1334-1346, Jul. 2009.
9. X. Qiu, M. Li, L. Zhang, and X. Yuan, "Guided filter-based multi-focus image fusion through focus region detection", Signal Processing: Image Communication, Vol. 72, pp. 35-46, Mar. 2019.
10. Y. Liu, S. Liu, and Z. Wang, "Multi-focus image fusion with dense SIFT", Information Fusion, Vol. 23, pp. 139-155, May 2015.
11. Z. Liu, E. Blasch, Z. Xue, J. Zhao, R. Laganiere, and W. Wu, "Objective Assessment of Multiresolution Image Fusion Algorithms for Context Enhancement in Night Vision: A Comparative Study", IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 1 pp. 94-109, May 2011.

저자소개
장 훈 석 (Hoon-Seok Jang)

2014년 8월 : 광주과학기술원 기전공학과(공학석사)

2019년 2월 : 광주과학기술원 기전공학과(공학박사)

2020년 2월 ~ 현재 : 한국전자기술연구원 선임연구원

관심분야 : 신호 및 영상처리, 증강 및 혼합 현실, 기계 및 심층 학습