Korean Institute of Information Technology

Current Issue

The Journal of Korean Institute of Information Technology - Vol. 19, No. 9

[ Article ]
The Journal of Korean Institute of Information Technology - Vol. 19, No. 8, pp.91-98
Abbreviation: Journal of KIIT
ISSN: 1598-8619 (Print) 2093-7571 (Online)
Print publication date 31 Aug 2021
Received 02 Aug 2021 Revised 17 Aug 2021 Accepted 20 Aug 2021
DOI: https://doi.org/10.14801/jkiit.2021.19.8.91

LSTM 신경망을 이용한 삼차원 정보 잡음 감쇄
장훈석*
*한국전자기술연구원 IT응용연구센터

Reduction of 3D Information Noise by using LSTM Network
Hoon-Seok Jang*
Correspondence to : Hoon-Seok Jang IT Application Research Center, Korea Electronics Technology Institute, Republic of Korea, Tel.: +82-63-219-0061, Email: jhs0053@keti.re.kr

Funding Information ▼

초록

삼차원 응시점과 같은 삼차원 정보를 획득하는 것은 컴퓨터 비전 분야의 연구에 있어서 근본적인 목적이다. 삼차원 정보 추정 방법 중의 하나인 Shape from Focus(SFF)는 다른 초점 정도를 가지는 2D 영상들을 사용하여 삼차원 정보를 획득한다. 각 영상 획득 단계에서 지터 노이즈라고 불리는 기계 진동이 발생하게 된다. 이 지터 노이즈는 2D 영상들의 초점값들을 변화시키기 때문에 삼차원 정보 추정 성능을 상당히 저하시킨다. 본 논문에서는 삼차원 정보 추정에서 지터 노이즈의 영향을 감쇄하는 새로운 필터링 기술을 제안한다. 첫 번째로, 지터 노이즈와 초점 커브들을 레비 분포와 이차 함수로 각각 모델링한다. 다음으로, 지터 노이즈를 감쇄하기 위해 딥러닝 기법 중의 하나인 장단기 메모리(LSTM) 신경망이 모델링된 초점 커브에 적용된다. 실험 결과들은 제안된 방법의 효율성을 증명한다.

Abstract

Obtaining the 3D information such as 3D gaze is a fundamental purpose of research in computer vision. Shape from Focus(SFF) acquires 3D information by using 2D images with different focus levels. In each step of image acquisition, mechanical vibration, referred as jitter noise, occurs. Since the jitter noise changes the focus values of 2D images, it significantly degrades the performance of 3D information estimation. In this paper, a new filtering method which reduces the effects of jitter noise in 3D information estimation is proposed. At first, jitter noise and focus curves are modeled as Le′vy distribution and quadratic function, respectively. Next, Long Short-Term Memory (LSTM) network as one of the deep learning techniques is applied to the modeled focus curves for reducing the jitter noise. Experimental results demonstrate the effectiveness of the proposed method.


Keywords: Shape from Focus(SFF), jitter noise, focus curve, Long Short-Term Memory(LSTM) network

Ⅰ. 서 론

증강/혼합 현실에서 삼차원 응시점 추정과 같이 삼차원 정보를 획득하는 것에 대한 연구가 활발히 진행되고 있다. 삼차원 정보를 획득 하는 방법 중에 SFF(Shape from Focus)는 다른 초점 정도를 가지는 영상들을 사용하여 물체의 삼차원 형상을 복원하는 기술이다[1]-[3]. 이 방법은 물체가 놓여있는 스테이지를 광축을 따라 일정한 스텝 사이즈로 이동시킴으로써 2D 영상 시퀀스를 획득한다. 그리고 나서 각 영상 프레임에 SML(Sum of Modified Laplacian), GLV(Gray-Level Variance), TEN(TENengrad)과 같은 초점 측정 연산자를 적용함으로써 초점 값들이 결정된다[4]. 마지막으로, 광축을 따라 각 픽셀에 대하여 초점 커브를 최대화함으로써 깊이 값들을 구할 수 있다.

그러나 광축을 따라 물체가 놓여있는 스테이지가 이동함으로써 각 스텝에서 영상들을 획득할 때, SFF의 근본적인 문제점인 지터 노이즈라고 불리는 기계 진동이 발생한다[5]. 이 진동은 2D 영상 시퀀스의 초점 값들을 변화시키기 때문에 삼차원 형상 복원의 정확성이 떨어진다. SFF에서 이 지터 노이즈의 영향을 감쇄하기 위해 칼만 필터[4], 베이즈 필터[5], 수정된 칼만 필터[6], 최대 코렌트로피 기준 칼만 필터[7] 등과 같은 많은 필터링 기술들이 제안되었다. 칼만 필터, 베이즈 필터, 수정된 칼만 필터 등과 같은 필터 기술들은 최소 평균 제곱 오차를 통해 상태를 추정할 때 오차 신호의 이차 통계만을 사용한다. 따라서, 비가우시안 노이즈 환경에서 상태 추정할 때 좋지 않은 성능을 제공한다. 최대 코렌트로피 기준 칼만 필터 등과 같은 필터 기술들은 오차 신호의 이차 이상의 통계들을 사용하지만, 공분산 행렬과 칼만 이득에서 수치불안정성과 계산 복잡성으로 인해 상태 추정에 있어서 제한된 성능을 제공한다.

따라서, 본 논문에서는 지터 노이즈의 감쇄 성능을 높임으로써 최적의 상태 추정 결과를 제공할 수 있는 딥러닝 기술을 적용하고자 한다. SFF를 위해 획득되는 각 영상 프레임의 상태 추정을 위해 쓰일 수 있는 대표적인 딥러닝 모델이 순환신경망(RNN, Recurrent Neural Network)이다. 하지만, RNN은 많은 이전의 영상 프레임 위치 데이터가 요구될 때 성능이 떨어지기 때문에 이 문제를 개선한 모델인 장단기 메모리(LSTM, Long Short-Term Memory) 신경망을 제안한다. 우선, 실제 환경을 최대한 반영하기 위해 레비 분포로 모델링한다. 그리고 지터 노이즈의 영향을 고려하기 위해 초점 측정 연산자의 적용으로 획득된 초점 커브의 모델링이 필요하다. 모델링 함수로써 대표적으로 가우시안 함수와 이차 함수가 있는데, 이차 함수가 가우시안 함수보다 상대적으로 더 간단한 형태를 가지고 있기 때문에 모델링을 위한 계산 속도가 더 빠르다[1][8]. 따라서 본 논문에서는 초점 커브들을 이차 함수로 모델링한다. 마지막으로, 새로운 필터링 기술로써 LSTM 신경망을 설계하여 지터 노이즈의 감쇄를 위해 2D 영상 시퀀스에 있는 각 영상 프레임에 적용한다. 실험 결과들을 통해 제안된 방법의 효율성을 증명한다.


Ⅱ. 노이즈 모델링

SFF를 위해 영상 시퀀스가 획득될 때, 그림 1과 같이 기계 진동이 각 스텝에서 광축을 따라 발생한다. 이 기계 진동은 현미경의 기계적인 내부 요소 또는 현미경이 놓여있는 환경으로부터의 동적 하중으로 인해 발생한다.


Fig. 1. 
SFF system

이 기계진동을 실제 환경에 맞게 모델링하기 위해 그림 2와 같이 레비 분포가 사용된다[6]. 이 분포는 물리학, 역학, 영상 분야와 같은 다양한 분야들에서 잡음 모델링을 위해 엄청난 관심을 받아왔다. 이 분포는 두 개의 파라미터에 의해서 달라지는데, 하나는 안정성 지수 α와 다른 하나는 척도 파라미터 c이다. 두 개의 파라미터들은 0 < α ≤ 2와 c > 0의 값 범위를 가진다. 이 분포의 확률 밀도 함수는 다음과 같이 푸리에 변환에 의해서 정의된다.

pz=12π-exp-ixz-cxαdx(1) 

Fig. 2. 
Le′vy distribution

z는 영상 프레임의 위치가 지터 노이즈에 의해 변화하는 정도, i는 허수를 나타낸다. 식 (1)그림 2와 같이 표현된다. 본 논문에서는 레비 분포의 파라미터들의 범위인 0 < α ≤ 2와 c > 0를 만족하는 적절한 값으로써 αc를 1.3과 10으로 각각 설정하였다[6].


Ⅲ. 초점 커브 모델링

본 논문에서는 초점 측정 연산자를 통해 획득된 초점 커브들을 이차 함수로써 모델링한다[5][8]. 제안된 초점 커브 모델링은 식 (2)와 같이 초점 측정 연산자에 대한 어떠한 사전 정보도 요구되지 않는 변환을 이용한다.

Fz=Tfza2z2+a1z+a0(2) 

z는 영상 프레임들의 위치, F(z)는 z에 대한 함수로써 변환된 도메인에서 초점값, a0, a1, a1는 이차 함수의 계수들을 나타낸다.

변환된 도메인에서 이차 함수를 얻기 위해 식 (2)식 (3)과 같이 행렬 형태로 표현될 수 있다.

ZA=F(3) 

식 (3)에서 Z, A, F식 (4), (5), (6)과 같이 각각 정의된다.

Z=zst2zst1zbf2zbf12zbf-zst22zbf-zst1(4) 
A=a2       a1       a0t(5) 
F=Fzst       Fzbf       Fzstt(6) 

식 (4), (5), (6)에서 zst는 영상 획득 시작 위치, zbf는 획득된 영상 시퀀스에서 초점값이 가장 큰 영상 프레임 위치, 첨자 t는 행렬의 전치를 나타낸다. Z의 역행렬은 식 (7)과 같이 표현된다.

Z-1=b11b12b13b21b22b23b31b32b33(7) 

변환된 도메인에서 모델링된 초점 커브는 식 (8)과 같이 얻을 수 있다.

Fz=Fzstb11+b13z2+b21+b23z +b31+b33+Fzbfb12z2+b22z+b23(8) 

만약 식 (8)에서 F(zst)와 F(zbf)가 같지 않으면, F(zst)와 F(zbf)는 어떤 값으로도 설정 가능하다. 본 논문에서는 F(zst)와 F(zbf)를 10과 50으로 각각 설정한다.

식 (2)(8)이 같기 때문에 a1a2식 (9)(10)과 같이 표현될 수 있다.

a1=Fzstb21+b23+Fzbfb22(9) 
a2=Fzstb11+b13+Fzbfb12(10) 

모델링된 노이즈가 변환된 도메인에서 모델링된 초점 커브에 적용될 때, z는 (z+ζ)로 변경된다. (z+ζ)에서 ζ은 이전에 모델링된 지터 노이즈를 나타낸다. 변환된 도메인에서 노이즈를 고려한 모델링된 초점 커브는 식 (11)과 같이 표현될 수 있다.

Fnz=a2z+ζ2+a1z+ζ+a0 =Fz+a2ζ2+2zζ+a1ζ(11) 

다음 섹션에서 지터 노이즈 ζ가 제안된 방법인 장단기 메모리(LSTM)에 의해서 필터링됨으로써 노이즈가 없는 모델링된 초점 커브를 얻을 수 있다.


Ⅳ. 제안된 방법

최근 몇 년간 딥러닝은 컴퓨터 비전부터 자연어 처리까지 수많은 문제들을 해결하는데 쓰였고, 이전의 기술들보다 더 좋은 성능을 보이고 있다[9]. 따라서 본 논문에서는 딥러닝 기술을 적용하여 SFF의 근본적인 문제점인 지터 노이즈를 감쇄하고자 한다. SFF를 위해 획득된 영상 시퀀스에서 지터 노이즈가 감쇄된 최적의 영상 프레임 위치들을 획득 하기 위해 딥러닝 모델들 중에 하나의 모델을 적용하고자 한다. 상태 추정에 쓰이는 대표적인 모델인 RNN은 기존의 신경망 기술의 단점으로써 이전의 정보들을 기반으로 미래의 정보를 예측하지 못한다는 점을 개선하기 위해 제안되었고, 음성 인식, 언어 모델링, 번역, 이미지 주석 생성 등 다양한 분야에서 굉장한 성공을 거두었다[10]. 하지만 RNN은 이전의 많은 정보가 요구될 때 성능이 떨어지기 때문에 본 논문에서는 LSTM 신경망의 설계 및 적용을 통해 지터 노이즈가 더해진 많은 이전의 데이터들을 기반으로 최적의 영상 프레임 위치들을 추정하고자 한다.

그림 3과 같이 LSTM 신경망 구조에서 하나의 피처로써 지터 노이즈가 더해진 각 영상 프레임 위치를 입력으로 설정하고 LSTM 계층은 총 1000개의 시간 스텝과 125개의 히든 유닛 수로 설정하고 설계하였다.


Fig. 3. 
LSTM network

LSTM 계층에 있는 각 셀은 그림 4와 같은 구조를 가지고 있는데, 4개의 구성요소인 입력 게이트(i), 망각 게이트(f), 셀 후보(g), 출력 게이트(o)를 통해 셀 상태인 ct와 출력값으로써 히든 상태인 ht를 망각, 업데이트, 출력한다.


Fig. 4. 
LSTM cell

ctht식 (12)(13)과 같다.

ct=ft*ct-1+it*gt(12) 
ht=ot*σcct(13) 

식 (13)에서 σc는 상태 활성화 함수로써 쌍곡탄젠트 함수(Tanh)를 나타내고, *는 벡터의 요소별 곱셈을 나타낸다.

식 (12)(13)에 있는 정의되지 않은 요소들은 표 1에서 정의된다.

Table 1. 
Four components of LSTM cell
Component Equation
Input gate it = σg(Wixt + Riht-1 + bi)
Forget gate ft = σg(Wfxt + Rfht-1 + bf)
Cell candidate gt = σc(Wgxt + Rght-1 + bg)
Output gate ot = σg(Woxt + Roht-1 + bo)

표 1에 있는 σg는 게이트 활성화 함수로써 시그모이드 함수를 나타낸다. 표 1에 있는 각 LSTM 셀의 학습 가능한 가중치로써 4개의 구성요소의 결합 형태인 입력 가중치(W), 순환 가중치(R), 편향(b)는 식 (14)에서 정의된다.

W=WiWfWgWo,R=RiRfRgRo,b=bibfbgbo(14) 

다음으로, 완전 연결 층을 통과하여 최종 출력값으로써 지터 노이즈가 감쇄된 최적의 영상 획득 위치를 얻을 수 있다. LSTM 신경망은 학습을 위해 Adam 최적화 알고리즘을 사용하였고, 최대 Epoch 횟수는 70, gradient threshold는 1로 설정하였다. 영상 시퀀스에 있는 모든 영상 프레임에 대하여 최적의 위치들을 추정하고 난 후에 각 픽셀에 대하여 이전 섹션에서 제안된 이차 함수로 모델링된 초점 커브들을 최대화함으로써 최적의 삼차원 형상 복원 결과를 얻을 수 있다.


Ⅴ. 실험 결과

실험을 위해 그림 5와 같이 (a)의 simulated cone, (b)의 TFT-LCD filter, (c)의 coin을 실험 샘플로 사용하였다[11].


Fig. 5. 
Experimental samples

가상 샘플인 simulated cone은 360×360×97, 실제 샘플들 중에 하나인 TFT-LCD filter는 300×300×60, 또 다른 하나인 coin은 300×300×68의 차원을 가진다. 정성 및 정량적인 분석을 위해 기존의 필터링 방법들로써 MKF(Modified Kalman Filter)[6], ANNF(Adaptive Neural Network Filter)[12], IMCC-KF(Improved Maximum Correntropy Criterion Kalman Filter)[13]가 사용되고, 초점 측정 연산자로써 SML이 이용된다. 또한, 정량적인 분석을 위해 성능 척도로써 평균 제곱근 오차(RMSE, Root Mean Square Error), 상관 계수(Correlation), 최대 신호 대 잡음 비(PSNR, Peak Signal-to-Noise Ratio), 계산 속도가 사용된다[14]. RMSE와 계산 속도는 값이 작을수록, Correlation과 PSNR은 높을수록 삼차원 형상 복원 성능이 좋다는 것을 의미한다.

표 23은 기존의 필터링 방법들과 제안된 방법을 이용한 실험 샘플들의 삼차원 형상 복원 결과의 정량적인 성능 비교를 보여준다. 표 2의 값들은 SFF를 위해 획득되는 영상 시퀀스에서 마지막 영상 프레임의 상태 추정 속도를 마이크로 초 단위로 표시하였다.

Table 2. 
Comparison of computation speed for estimating the position of the last image frame
MKF ANNF IMCC-KF LSTM
Simulated cone 1867 684440 1007 5116717
TFT-LCD filter 3381 916698 1264 5096186
Coin 4108 1018418 1410 5015636

Table 3. 
Quantitative analysis of 3D shape recovery results
RMSE Correlation PSNR
MKF 11.3116 0.6310 18.2992
ANNF 7.7292 0.9539 21.6998
IMCC-KF 7.4468 0.9562 22.1151
LSTM 7.4220 0.9580 22.1441

표 2에서와 같이 제안된 방법과 ANNF는 훈련 시간도 같이 포함되어 있기 때문에 기존의 필터링 기술들보다 시간이 더 오래 걸린다는 것을 알 수 있다. 하지만, 표 3에서와 같이 제안된 방법의 적용을 통한 삼차원 형상 복원 결과가 기존의 필터링 방법들의 적용을 통한 삼차원 형상 복원 결과들보다 RMSE는 더 낮고, Correlation과 PSNR은 더 높은 것을 확인할 수 있다. 또한, 그림 67에서와 같이 제안된 방법이 기존의 필터링 방법들보다 표면이 더 정밀하고 잡음이 적은 삼차원 형상 복원 결과를 제공한다는 것을 알 수 있다.


Fig. 6. 
Qualitative analysis of 3D shape recovery results


Fig. 7. 
Detailed comparison of 3D shape recovery of TFT-LCD filter


Ⅵ. 결 론

본 논문에서는 SFF의 근본적인 문제점인 지터 노이즈를 감쇄하고자 딥러닝 기술들 중의 하나인 LSTM 신경망을 설계 및 적용하여 영상 시퀀스에 있는 각 영상 프레임들의 최적 위치를 추정하였다. 실험 결과를 통해 제안된 방법이 기존의 필터링 방법들보다 성능이 더 우수한 삼차원 형상 복원 결과를 제공한다는 것을 알 수 있다.


Acknowledgments

이 성과는 정부(과학기술정보통신부)의 재원으로 한국연구재단의 지원을 받아 수행된 연구임 (No. 2021R1F1A1052728)


References
1. S. K. Nayar and Y. Nakagawa, "Shape from focus", IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 16, No. 8, pp. 824-831, Aug. 1994.
2. S. O. Shim and T. S. Choi, "Fast Shape From Focus Algorithm based on Focus Matching", Journal of KIIT, Vol. 6, No. 4, pp. 100-107, Aug. 2008.
3. M. T. Mahmood and Y. K. Choi, "A New Focus Measure Method Based on Mathematical Morphology for 3D Shape Recovery", KIPS Transactions on Software and Data Engineering,, Vol. 6, No. 1, pp. 23-28, Jan. 2017.
4. H. S. Jang, M. S. Muhammad, and T. S. Choi, "Removal of jitter noise in 3D shape recovery from image focus by using Kalman filter", Microscopy Research and Technique, Vol. 81, No. 2, pp. 207-213, Feb. 2018.
5. H. S. Jang, M. S. Muhammad, and T. S. Choi, "Bayes Filter based Jitter Noise Removal in Shape Recovery from Image Focus", Journal of Imaging Science and Technology, Vol. 63, No. 2, pp. 020501-1-020501-12, Mar. 2019.
6. H. S. Jang, M. S. Muhammad, and T. S. Choi, "Optimal depth estimation using modified Kalman filter in the presence of non-Gaussian jitter noise", Microscopy Research and Technique, Vol. 82, No. 3, pp. 224-231, Mar. 2019.
7. B. Hou, Z. He, X. Zhou, H. Zhou, D. Li, and J. Wang, "Maximum Correntropy Criterion Kalman Filter for α-Jerk Tracking Model with Non-Gaussian Noise", Sensors, Vol. 19, No. 12, pp. 648, Nov. 2017.
8. D. C. Tsai and H. H. Chen, "Focus Profile Modeling", IEEE Transactions on Image Processing, Vol. 25, No. 2, pp. 818-828, Dec. 2015.
9. H. Mutahira, M. S. Muhammad, M. Li, and D. R. Shin, "A simplified approach using deep neural network for fast and accurate shape from focus", Microscopy Research and Technique, Vol. 84, No. 4, pp. 656-667, Apr. 2021.
10. J. C. W. Lin, Y. Shao, Y. Djenouri, and U. Yun, "ASRNN: A recurrent neural network with an attention model for sequence labeling", Knowledge-Based Systems, Vol. 212, pp. 1-11, Jan. 2021.
11. H. J. Kim, M. T. Mahmood, and T. S. Choi, "An Efficient Neural Network for Shape from Focus with Weight Passing Method", Applied Sciences, Vol. 8, No. 9, pp. 1648, Sep. 2018.
12. S. A. Lee, H. S. Jang, and B. G. Lee, "Jitter Elimination in Shape Recovery by using Adaptive Neural Network Filter", Sensors, Vol. 19, No. 11, pp. 2566, June. 2019.
13. H. S. Jang, M. S. Muhammad, and M. K. Kang, "Removal of Non-Gaussian Jitter Noise for Shape From Focus Through Improved Maximum Correntropy Criterion Kalman Filter", IEEE Access, Vol. 8, pp. 36244-36255, Feb. 2020.
14. M. T. Mahmood, A. Majid, and T. S. Choi, "Optimal depth estimation by combining focus measures using genetic programming", Information Sciences, Vol. 181, No. 7, pp. 1249-1263, Apr. 2011.

저자소개
장 훈 석 (Hoon-Seok Jang)

2014년 8월 : 광주과학기술원 기전공학과(공학석사)

2019년 2월 : 광주과학기술원 기전공학과(공학박사)

2020년 2월 ~ 현재 : 한국전자기술연구원 선임연구원

관심분야 : 신호 및 영상처리, 증강 및 혼합 현실, 기계 및 심층 학습