[ Article ]

The Journal of Korean Institute of Information Technology - Vol. 19, No. 9, pp.95-105

ISSN: 1598-8619 (Print) 2093-7571 (Online)

Print publication date 30 Sep 2021

Received 08 Jul 2021 Revised 09 Sep 2021 Accepted 12 Sep 2021

DOI: https://doi.org/10.14801/jkiit.2021.19.9.95

3D U-Net을 통한 MRI 뇌 영상에서 다발성 경화증 병변 검출

김창민^*

; 김지영^*

; 김현수^*

; 엄소정^*

; 이해연^**

*금오공과대학교 컴퓨터소프트웨어공학과 학부생
**금오공과대학교 컴퓨터소프트웨어공학과 교수(교신저자)

Multiple Sclerosis Lesion Detection in MRI Brain Image using 3D U-Net

Chang-Min Kim^*

; Ji-Yeong Kim^*

; Hyeon-Su Kim^*

; So-Jeong Eom^*

; Hae-Yeoun Lee^**

Correspondence to: Hae-Yeoun Lee Dept. of Computer Software Engineering, Kumoh National Institute of Technology, Korea Tel.: +82-54-458-7548, Email: haeyeoun.lee@kumoh.ac.kr

초록

임상에서 다발성 경화증 병변은 전문가가 MRI 영상에서 수작업으로 분석한다. 국외에서는 이에 대한 자동 검출 기술이 많이 연구되고 있지만, 국내에서는 거의 부재하다. 본 논문에서는 MRI 뇌 영상에 대해 U-Net을 이용하여 다발성 경화증 병변을 검출하는 방법을 제안한다. 2D U-Net과 3D U-Net으로 검출 모델을 수립하였고, 제한된 데이터에서 충분한 학습을 위해 데이터 증강 기법을 적용하였다. 또한, 동일한 뇌를 다른 기법으로 촬영한 영상들을 활용하여 각 모델들의 성능을 비교함으로써 어떤 기법이 가장 적합한지 분석하였다. 실험 결과에 따르면 FLAIR 영상에 대하여 제안하는 증강 기법과 3D U-Net 모델을 이용하였을 때 Dice Coefficient 기준으로 64.50%의 정확도를 보였다. 특히, 2D U-Net 모델을 이용한 것보다 6.19% 높은 정확도를 달성하였다.

Abstract

In clinical practice, multiple sclerosis(MS) lesions are manually analyzed by clinicians using MRI images. Although many studies on automatic MS lesion detection have been conducted in foreign countries, but few in Korea. This paper proposes a method to detect MS lesion using U-Net for MRI brain images. MS lesion detection models based on 2D U-Net and 3D U-Net were designed and data augmentation was applied for learning sufficiently from limited data. Also, to find the most suitable modality for detecting MS lesion, the performance of each model was compared using MRI images with different modality for the same brain. According to the experimental results, the 64.50% Dice Coefficient accuracy was achieved when the proposed 3D U-Net model with data augmentation for FLAIR images were used. In particular, it was 6.19% higher accuracy than using the 2D U-Net model.

Keywords:

multiple sclerosis lesion, brain MRI, deep learning, U-Net, data augmentation

Ⅰ. 서 론

다발성 경화증(MS, Multiple Sclerosis)은 뇌에 발생하는 중추 신경계 질환으로 탈수 초화에 의해 뇌의 백질 영역에 나타나는 병변(Lesion)이다. 다발성 경화증은 2019년 기준 전 세계적으로 약 250만명, 국내에는 약 2,500명의 유병률을 보이며, 대부분의 국가에서 희귀 난치성 질환으로 분류된다[1].

다발성 경화증의 진단은 매우 까다롭다. 정확한 진찰과 MRI 영상, 시신경 자극 유발 전위 검사 등으로 뇌 병변이 적어도 2개 이상 있는지를 확인해야 한다. 이 중 MRI 영상의 경우에 현재는 전문가에 의해서 수동으로 분석되고 있다. 분석에는 T1, T2, FLAIR 강조 등 다양한 기법으로 촬영된 MRI 영상이 쓰이고, 그 중에서도 환자 중 95% 비율에서 FLAIR 강조 MRI 영상의 뇌실 주위에서 병변이 발견될 정도로 FLAIR 영상이 유용하게 사용된다[2].

이와 같은 분석에 들어가는 노력을 줄이기 위해 외국에서는 여러 방법들을 이용헤 MS Lesion 영역을 자동으로 검출하는 연구들이 진행되어 왔지만, 국내 연구는 거의 부재한 수준이다.

본 논문에서는 MRI 뇌 영상에서 MS Lesion을 자동 검출하는 방법을 제안한다. 제안하는 방법에서는 U-Net 기반의 딥러닝 모델을 설계하여 뇌 MRI 영상을 학습시킨 후 해당 모델을 이용해 MS Lesion 검출을 수행한다. 다양한 실험을 통해 적절한 모델의 깊이를 선정하고, 파라미터 변경과 최적화를 통해 MS Lesion 검출에 맞는 구조로 변형하였다. 특히, 제한된 데이터에서 충분한 학습을 위해 데이터 증강 기법을 적용하였다.

제안한 모델의 성능을 검증하기 위한 실험에서는 우선 T1, T2, FLAIR 기법으로 촬영한 뇌 영상과 각각의 뇌 영상에서 전문의가 검출한 MS Lesion 영역 정보가 담긴 마스크를 사용하였다.

T1, T2, FLAIR 촬영 기법에 따라서 어떤 성능 차이가 있는지 알아보기 위해 각각 촬영 기법으로 취득한 영상에 대하여 개별적으로 학습과 판별을 수행하였다. 또한, 2D U-Net 모델과 3D U-Net 모델에서의 검출 성능 차이를 알아보기 위해 실험을 두 모델 각각에 대해 수행하였다. MRI 뇌 영상은 3D 데이터이므로 2D U-Net 모델을 이용해 학습할 땐 각각의 Z축에 대한 여러 장의 2D 영상으로 분할하여 사용하였다.

실험 결과에 따르면, 가장 높은 정확도를 달성한 방법은 FLAIR 영상에 대하여 데이터 증강 기법을 적용한 후에 3D U-Net 기반 모델에 적용하는 방법으로서, 학습 데이터 기준 80.16%, 검증 데이터 기준 64.50%의 Dice Coefficient 정확도 성능을 보였다.

본 논문은 다음과 같이 구성되어 있다. 2절에서 기존의 MS Lesion 검출 연구 및 U-Net 모델에 대해서 정리하고, 3절에서는 제안하는 MRI 뇌 영상을 이용한 데이터 증강과 U-Net 기반 MS Lesion 검출 방법을 설명한다. 실험 결과 및 분석을 4절에서 제시하고 5절에서 결론을 짓는다.

Ⅱ. 관련 연구

본 절에서는 MS Lesion 검출과 관련된 국외 연구들에 대해 요약하고, 본 논문에서 사용한 U-Net 딥러닝 모델에 대하여 설명한다.

2.1 기존 연구 현황

U-Net 딥러닝 모델 이전에도 외국에서는 MS Lesion의 자동 분할을 위한 전통적인 알고리즘과 기본적인 딥러닝을 이용한 연구가 진행되었다.

Cárdenes 등은 뇌 MRI 영상에서 k-NN 분류기를 이용하여 회백질, 백질, 뇌척수액 및 MS Lesion을 분류하고, 거리 변환을 이용해 문제가 될 패턴을 분류한 뒤 구성 요소 필터링 알고리즘을 이용해 실제 병변에 연결되지 않은 병변 복셀을 제거하는 연구를 진행하였다[3].

Geremia 등은 T1, T2, FLAIR와 같이 다채널 영상에 대하여 Random Decision Forest를 이용하여 공간 사전과 장거리 비교를 3D 영역에서 사용하여 병변을 구별하는 연구를 진행하였다[4].

Subbanna 등은 Markov Random Fields를 이용해 병변을 포함한 모든 뇌 조직을 별도의 클래스로 모델링하고, Simulated Annealing 기법을 이용해 해당 모델을 전역 수렴시켜 확률 추정치를 구하는 방법으로 병변을 검출하는 연구를 진행하였다[5].

Zhang 등은 RSANet을 설계하여 FLAIR 뇌 영상을 각 층의 시퀀스로 모델링하고 연속적으로 사용하여 장거리 의존성을 탐색한 뒤 해당 특성을 이용해 병변을 탐지하는 연구를 진행하였다[6].

Brosch 등은 Deep Convolutional Encoder Network라는 디컨볼루션 신경망과 컨볼루션 신경망이 결합된 딥러닝 모델을 이용하여 MS Lesion을 자동 검출하는 연구를 진행하였다[7].

Salem 등은 T2-Weight MRI 뇌 영상에서 MS Lesion을 감지하기 위한 새로운 전연결 컨볼루션 신경망을 제안하였다[8].

Lee 등은 T2-Weight MRI 뇌 영상을 이용하여 2D U-Net 기반의 딥러닝 모델을 활용하여 MS Lesion에 대한 검출 연구를 진행하였다[9].

2.2 U-Net

U-Net은 Ronneberger 등이 2015년에 제안한 의료 영상 분할을 위한 신경망이다[10]. 그림 1과 같이 신경망의 형태가 알파벳 U와 비슷하게 생겨 U-Net이라는 이름이 붙은 이 신경망은 이전까지 우수한 성능을 보이던 Fully-Convolutional Neural Network에 비해 적은 양의 학습 데이터로 여러 의료 영상 분할 분야에서 우수한 성능을 보여주고 있다.

Fig. 1.

Structure of 2D U-Net model[10]

U-Net에서 U 형태의 왼쪽 절반에 해당하는 부분이 contracting path이고 오른쪽 절반에 해당하는 부분이 expanding path이다. Contracting path에서는 컨볼루션 연산을 반복하며 영상의 context를 포착하고, expanding path에서는 특징 맵을 업샘플링 후 이를 contracting path의 context와 결합하여 더욱 정확한 지역화를 실시한다. 이 때 skip connection을 이용해 업샘플링 과정에서 사라지는 정교한 픽셀 정보를 복원하여 더 정확한 예측을 가능하게 한다.

이러한 U-Net은 여러 영상 분할 문제에서 좋은 성능을 보여주었지만 U-Net의 입력은 2차원 형태의 영상으로 한정되는 단점이 있었다. 따라서, 3차원으로 촬영되는 의료 영상의 경우에는 3차원적인 특성을 충분히 고려하지 못하는 문제점이 있다. 이러한 문제를 해결하기 위해 Çiçek et. al은 2016년 3D U-Net을 제안하였다[11]. 3D U-Net은 기존 2D U-Net의 입력 데이터를 3차원으로 확장하기 위해 컨볼루션이나 업샘플링 등의 연산을 기존의 2차원 연산에서 3차원 연산으로 바꿔 구성한 신경망이다.

특히, 3차원 데이터로 바뀜으로써 발생할 수 있는 병목 현상을 해결하기 위해 max pooling 이전에 채널의 수를 2배로 늘리는 방법으로 병목을 해결하였으며, 배치 정규화 등의 적용으로 성능을 향상하였다. 이를 통해 Xenopus kidney 데이터 셋을 기준으로 기존 2D U-Net보다 완전 자동 분할 시 약 0.157 정도 IoU(Intersection over Union) 성능 향상을 보였다.

Ⅲ. 제안하는 MS Lesion 자동 분할 방법

본 절에서는 제안하는 3D U-Net을 이용한 MRI 뇌 영상에서 MS Lesion을 자동 분할하는 방법에 대하여 설명한다.

제안하는 MS Lesion 자동 분할 방법의 전체적인 구조도를 그림 2에 도시하였다. 제안하는 방법은 딥러닝 모델을 학습하는 과정과 학습된 모델을 사용하여 성능을 평가하는 과정으로 나뉜다.

Fig. 2.

Overall structure of the automated MS lesion segmentation method

학습 과정에서는 MS Lesion이 존재하는 환자의 MRI 뇌 영상과 각각의 영상에서 전문가가 수작업으로 분할한 MS Lesion 영역 정보를 담은 마스크 영상을 딥러닝 모델의 학습 데이터로 사용한다.

평가 과정에서는 학습에 사용되지 않은 MRI 뇌 영상을 사용한다. 해당 영상을 딥러닝 모델의 입력으로 사용하고 결과로 나온 영역을 실제 MS Lesion 영역과 비교하여 성능을 측정하였다.

본 논문에서는 3D MRI 영상을 그대로 사용하는 3D U-Net 모델이 2D U-Net 모델에 비하여 얼마나 이점이 있는지 알아보기 위해 2D U-Net 모델에는 3D 영상을 2D 영상으로 변환하여 평면 영상을 생성한 후 학습 및 평가에 사용하였고, 3D U-Net 모델에는 3D 영상 그대로 사용하였다.

MRI 뇌 영상에서 MS Lesion을 수작업을 통하여 분할한 데이터의 경우 충분한 학습을 하기에 데이터의 개수 및 다양성이 부족한 문제가 있어서, 학습 데이터에 데이터 증강 기술을 적용해 데이터의 개수와 다양성을 증가시켰다.

3.1 딥러닝 모델 구조

제안하는 방법에서 사용한 3D 영상을 처리하기 위한 U-Net 모델의 구조를 그림 3에 구체적으로 도시하였다. 전체적인 구조는 유사하지만, 영상의 차원 차이에 따른 차이점이 일부 존재한다.

Fig. 3.

Structure of 3D U-Net in the proposed method

그림 4는 그림 3에 나타난 ConvolutionBlock 계층의 구조를 자세히 나타낸 그림이다. 전체적인 구조는 contracting path와 expanding path로 나뉜다. contracting path에서 영상의 특징들을 추출한 뒤 expanding path에서 특징들의 해상도를 올려주고 지역성을 복원한다.

Fig. 4.

Structure of ConvolutionBlock

제안하는 방법에서 사용한 모델의 각 path별 구조는 다음과 같다.

Contracting path는 5개 ConvolutionBlock (encodeA~encodeE)와 4개 MaxPooling3D (poolA~poolE) 계층으로 구성된다. 각 ConvolutionBlock에서는 3차원 3*3*3 크기의 커널을 사용한 3차원 컨볼루션, 배치 정규화, ReLU 함수를 사용한 활성화 계층 순서대로 두 번씩 반복하도록 구성되어 있다.

Expanding path는 4개 전치 컨볼루션 계층(transconvA~transconvD)과 4개 ConvolutionBlock (decodeA~decodeC, convOut)로 구성된다. 또한 contracting path의 각 ConvolutionBlock과 expanding path의 각 전치 컨볼루션 계층을 이어주는 skip 구조의 구현을 위한 concatenate 계층이 4개(concatA~concatD) 존재한다. 이후 예측(Prediction)을 위한 3차원 1*1*1 컨볼루션 계층을 통해 결과를 예측한다.

표 1은 제안하는 방법에서 사용한 모델의 각 계층별 상세 파라미터의 값을 나타낸 표이다. filter는 컨볼루션 블럭에 사용한 filter의 갯수, kernel은 컨볼루션 커널의 크기, padding은 가장자리 패딩의 유형, pooling_size는 MaxPooling 연산에 사용하는 커널의 크기, activation은 마지막 컨볼루션 연산에 사용한 활성 함수이다.

Table 1.

Parameter values for each layer of the model

3.2 데이터 증강

일반적으로 의료 영상 분야의 데이터들은 딥러닝 모델의 충분한 학습을 하기에 데이터의 개수나 다양성이 부족하다는 문제가 있다. MRI 뇌 영상에 대하여 MS Lesion 검출을 위한 경우에도 데이터의 개수나 다양성 문제가 발생하여 이의 해결을 위하여 학습 데이터에 데이터 증강을 적용해 데이터의 개수와 다양성을 향상하였다.

밝기를 0.9배, 1.1배로 조작한 데이터와 좌우를 반전한 데이터를 함께 사용하여 학습 데이터의 개수를 기존의 4배로 늘려서 모델 학습에 적용되도록 하였다.

3.3 성능 평가

제안한 MS Lesion 검출 방법의 성능을 평가하기 위해 dice coefficient를 사용하였다. Dice coefficient는 컴퓨터 비전이나 영상 처리 분야에서 널리 사용되는 성능 평가 방법 중 하나로, 보통 두 영상이 얼마나 일치하는지를 나타내는 수치이며 다음과 같은 식에 의해 계산된다.

D i c e = 2 • S g ∩ S p S g + S p

(1)

S_g는 분할 영역의 ground truth, 즉 검출해야 할 원본을 의미하고, S_p는 분할 영역의 prediction, 즉 모델이 예측한 예측값을 의미한다. Dice 값이 높을수록 성능이 우수하다는 뜻이며, 두 값이 완전히 같으면 1, 완전히 다르면 0이 나오게 된다.

Ⅳ. 실험 결과 및 분석

제안하는 3D U-Net 딥러닝 모델을 이용한 MRI 뇌 영상에서의 MS Lesion 자동 분할 방법은 Intel i7-7700, NVIDIA RTX 2080Ti, 16GB RAM의 하드웨어 및 Windows 10 Pro 운영체제 환경에서 실험 및 분석을 수행하였다. U-Net 모델의 구현을 위해 Google이 제공하는 딥러닝 라이브러리인 TensorFlow와 Keras를 사용하였다.

4.1 데이터셋 전처리 및 학습

U-Net 모델의 학습 및 검증 데이터로는 미국 Weill 코넬 의과 대학에서 제안한 RSANet[6]에서 실험한 데이터 셋을 사용하였다. 이 데이터 셋은 MS Lesion 환자 42명에 대하여 그림 5와 같이 T1, T2, FLAIR 강조 기법으로 촬영한 MRI 뇌 영상과 각각의 영상에 대하여 전문가가 수작업으로 검출한 MS Lesion 영역의 마스크 정보가 담긴 3차원 영상이 포함되어 있다.

Fig. 5.

Sample of T1, T2, FLAIR and mask input dataset

이전에 서술한 것과 같이, 2D U-Net 기반의 모델과 3D U-Net 기반의 모델로 분할할 때의 성능 차이를 알아보기 위해 해당 데이터를 Z축 기반으로 2D 평면 영상으로 변환하여 2D U-Net 모델의 학습 및 검증 데이터로 사용하였다.

4.2 2D U-Net 및 3D U-Net 모델 성능 비교

제안하는 데이터 증강 기법과 3D U-Net 모델에 기반하는 MS Lesion 검출 방법에 대한 성능을 T1, T2, FLAIR 기법으로 촬영된 각각의 영상을 활용하여 분석하였다.

또한, 2D U-Net 모델을 적용했을 때와의 성능 차이를 비교 분석하였다. T1, T2, FLAIR 기법으로 촬영된 각각의 영상의 크기가 다양하고 제한된 딥러닝 하드웨어 성능으로 인하여 128*128 크기로 리사이즈하여 학습 및 평가 데이터로 사용하였다.

데이터 셋은 촬영 기법 별로 각각 42개의 영상과 MS Lesion 마스크의 쌍으로 이루어져 있다. 2D U-Net 모델을 실험할 때는 이를 총 2,355개의 2D 영상으로 변환하여 모델의 입력으로 사용하였고, 3D U-Net 모델을 실험할 땐 3차원 영상을 그대로 사용하였다. 이 중 학습 데이터로 75%를 사용하였고, 나머지 25%를 검증 데이터로 활용하였다.

2D U-Net 모델의 학습 데이터에 데이터 증강을 적용하여 촬영 기법 별로 각각 14,128개의 영상을 생성한 후 학습을 수행하였다. 검증에 사용된 영상은 총 589개이며, T1, T2, FLAIR 촬영 기법의 영상 각각에 대하여 학습 및 검증 시 dice coefficient 정확도를 측정하였다. 그림 6은 각 촬영 기법 별로 50 epoch 학습 과정에서 검증 영상 기준으로 정확도의 추세를 나타낸 그래프이다.

Fig. 6.

Accuracy trends of 2D U-Net model by each imaging modality

전체적으로 비슷한 정확도 추세를 보여주고 있으나, FLAIR 영상을 활용한 결과가 조금 더 높은 성능을 나타내고 있는 것을 알 수 있다. 50 epoch 학습한 경우 최종적인 성능은 dice coefficient 기준으로 T1 기법 48.89%, T2 기법 49.23%, FLAIR 기법 58.31%를 달성하였다.

그림 7은 각 촬영 기법 별로 2D U-Net 모델을 학습하여 2차원 영상에서 MS Lesion을 검출한 결과를 나타냈다. Dice coefficient 값이 매우 높지 않기 때문에 큰 차이를 확인하기 어렵지만 FLAIR 영상이 상대적으로 원본 마스크 영상과 가장 유사한 것을 확인할 수 있다.

Fig. 7.

Detection results of 2D U-Net model for each imaging modality

제안하는 데이터 증강 및 3D U-Net 기반의 MS Lesion 검출 방법에 대한 성능을 분석하기 위하여 T1, T2, FLAIR 기법으로 촬영된 각각의 3차원 영상을 128*128*48 크기로 리사이즈하여 각각 학습 및 평가 데이터로 사용을 하였다.

3D U-Net의 경우 2D U-Net과 다르게 3차원 데이터를 그대로 사용하므로 층별로 나누는 작업 없이 학습 데이터와 검증 데이터로만 나누어 사용하였다. 총 42개의 환자 데이터 중에서 31개의 데이터를 학습 데이터로 선정하였고, 이를 데이터 증강을 적용하여 총 248개의 3차원 영상으로 변환하여 모델에 대한 학습을 수행하였다.

검증에 사용된 영상은 T1, T2, FLAIR 촬영 기법 별로 11개로서 기법을 구분하여 학습 및 검증을 통하여 dice coefficient 정확도를 측정하였다. 그림 8은 각 촬영 기법 별로 50 epoch 학습 과정에서 검증 데이터 기준으로 정확도 추세를 나타낸 그래프이다.

Fig. 8.

Accuracy trends of 3D U-Net model by each imaging modality

FLAIR 영상으로 모델에 대한 학습 및 검증을 실시하였을 때의 정확도가 높고, 학습이 빠르게 진행됨을 알 수 있다. 50 epoch 학습한 경우 최종적인 성능은 dice coefficient 기준으로 T1 기법 49.77%, T2 기법 41.51%, FLAIR 기법 64.50%를 달성하였다.

그림 9는 각 촬영 기법 별로 3D U-Net 모델을 학습하고 MS Lesion을 검출한 결과를 나타냈다. T2 영상으로 학습한 모델의 경우 정확도가 낮으며 검출이 거의 되지 않았고, T1 영상과 FLAIR 영상으로 학습한 모델의 경우엔 검출이 이루어졌지만, 크기나 지역성 측면에서 FLAIR 영상을 활용한 모델의 검출 성능이 더 우수함을 확인할 수 있다.

Fig. 9.

Detection results of 3D U-Net model for each imaging modality

2D U-Net 모델과 제안하는 3D U-Net 모델을 이용하여 각각의 촬영 기법 별로 분석한 정확도 성능은 표 2와 같다.

Table 2.

2D U-Net and 3D U-Net model accuracy for each imaging modality

표에서 확인할 수 있는 것과 같이 2D U-Net 및 3D U-Net 모델에서 모두 최고 성능을 보인 FLAIR 기법 영상을 기준으로 2D U-Net 모델에 비해 3D U-Net 모델이 dice coefficient 정확도 기준으로 약 6.51% 성능 향상이 있었으며, 이를 통해 FLAIR 영상을 활용한 3D U-Net 모델이 MS Lesion 검출에 있어서 좋은 성능을 보이고 있는 것을 알 수 있다. T1 기법 영상을 이용하는 경우 3D 영상을 사용하는 3D U-Net 모델이 근소하지만 높은 성능을 보였다.

하지만 T2 기법 영상의 경우엔 오히려 2D 영상으로 변환하여 2D U-Net 모델을 사용하였을 때 성능이 더 높게 나오는 것을 확인할 수 있으며, 실제 검출 이미지 분석 결과도 T2 영상으로 학습한 3D U-Net 모델의 경우에는 작은 병변은 거의 검출을 하지 못하는 모습을 보였으며, 성능이 저하되는 원인에 대해서는 추가적인 분석이 필요할 것으로 판단된다.

그림 10은 2D U-Net 모델 및 3D U-Net 모델에서 모두 높은 성능을 보인 FLAIR 기법 영상을 기준으로 하여 동일한 영상에 대하여 MS Lesion을 검출 한 결과를 도시하였다. 정성적으로 보기에도 3D U-Net 모델에 대하여 FLAIR 영상을 활용하여 검출한 결과가 훨씬 원본 마스크 영상과 유사한 결과물을 도출한 것을 확인할 수 있다. 그에 비해 2D U-Net 모델에 대하여 FLAIR 영상을 활용하여 검출한 결과의 경우에는 비교적 과한 영역을 검출하거나, 틀린 위치가 함께 검출되는 모습을 볼 수 있다.

Fig. 10.

MS Lesion detection results of 2D U-Net model and 3D U-Net model for FLAIR images

4.3 기존 연구와의 성능 비교

제안하는 방법과 국외의 딥러닝을 사용한 MS Lesion 자동 검출 방법의 정확도를 비교하였다.

Brosch et. al은 T1, T2 및 FLAIR 영상을 모두 이용하여 특징을 추출하는 컨볼루셔널 신경망과 병변 마스크를 예측하는 디컨볼루셔널 신경망을 동시에 학습시키고 결과를 예측하였으나 dice score 기준으로 57.38% 정확도를 보였다[7].

Salem et. al은 U-Net을 채택한 후에 일부 수정한 전연결 컨볼루셔널 신경망을 이용하여 T2-Weight 이미지를 대상으로 dice score 기준으로 55.0% 정확도를 보였다[8].

그러나 이들 연구와 다르게 제안하는 방법에서는 MS Lesion 데이터를 학습에 충분할 정도로 확보하는 것이 어렵기에 해당 연구에는 적용되지 않았던 데이터 증강을 활용하였다. 또한, 가장 높은 정확도를 보일 수 있는 영상을 찾기 위해 다양한 방법으로 실험을 하였고, 모델을 변경하고 최적화하였다.

이러한 개선을 통해 제안한 방법은 64.50% 정확도를 달성하였고, Brosch et. al나 Salem et. al에 비하여 높은 정확도를 달성하였다. 다만 Salem et. al 연구와 비교했을때 T2-Weight 이미지에서 성능이 낮은 것을 분석해 연구를 개선할 여지가 있는 것으로 보인다.

Ⅴ. 결론 및 향후 과제

MRI 뇌 영상에서 MS Lesion을 검출하는 것은 숙련된 전문가에 의해 수작업으로 이루어져야 하는 비용이 높은 작업이다. 따라서 MS Lesion은 진단이 어려운 질병이기 때문에 진단 후 치료로 이어지는 과정이 오래 걸리게 되어 환자가 불편할 수 있다.

본 논문에서는 이러한 문제점을 해결하기 위해 MRI 뇌 영상에서 데이터 증강과 3D U-Net 모델을 이용하여 자동으로 MS Lesion 영역을 검출할 수 있는 방법을 제안하였다. 제안하는 방법에서는 의료 영상에서 가지고 있는 데이터 부족의 문제를 해결하기 위하여 데이터 증강 기법을 적용하였으며, 3D U-Net 모델을 이용하여 MS Lesion 자동 분할에 적합하도록 모델을 설계하였다.

또한 T1, T2, FLAIR 촬영 기법의 다양한 영상을 이용하여 실험을 통하여 dice coefficient 기준으로 64.50% 정확도를 달성하였다. 이와 같은 결과는 동일한 데이터를 사용한 국외의 최신 MS Lesion 자동 검출 연구인 RSANet[6]의 66.01% dice coefficient 성능과도 크게 차이나지 않는 수준이다. 또한, 정성적으로 관찰하였을 때 전문가의 MS Lesion 마스크와 유사한 영역을 검출해내는 것을 확인할 수 있었다.

하지만 의료용 연구라는 목적 상 오진으로 인한 피해가 클 수 있음을 감안하면 아직 본격적으로 도입하기엔 미흡한 수준의 정확도를 보인다는 문제점이 있다.

차후 연구에서는 모델의 구조와 데이터 전처리의 개선 등을 통해 자동 분할의 정확성을 향상시킬 필요가 있다. 또한, 현재는 여러 종류의 영상을 각각 사용하여 판별하고 비교하였지만, 각 영상별로 나타나는 각기 다른 특징을 이용해 영역 검출을 시도하는 방법을 연구한다면 더욱 높은 정확도를 보일 수 있을 것으로 보인다.

Acknowledgments

This work was supported by the Basic Science Research Program through the National Research Foundation of Korea(NRF) funded by the Ministry of Education (2020R1F1A1057742)

References

K. Y. Min, "The Trend of multiple sclerosis treatment", BRIC View 2019-T23, Sep. 2019.
K. K. Kim, "Multiple sclerosis", Journal of Korean Medical Association, Vol. 56, No. 8, pp. 702-708, Aug. 2013. [https://doi.org/10.5124/jkma.2013.56.8.702]
R. Cárdenes, S. K. Warfield, E. M. Macias, J. A. Santana, and J. Ruiz-Alzola, "An Efficient Algorithm for Multiple Sclerosis Lesion Segmentation from Brain MRI", Proc. of the Int. Conf. on Computer Aided Systems Theory, Las Palmas de Gran Canaria, Spain, pp. 542-551, Feb. 2003. [https://doi.org/10.1007/978-3-540-45210-2_49]
E. Geremia, O. Clatz, B. H Menze, E. Konukoglu, A. Criminisi, and N. Ayache, "Spatial Decision Forests for MS Lesion Segmentation in Multi-Channel MR Images", Journal of Neuroimaging, Vol. 57, No. 2, pp. 378-390, Apr. 2011. [https://doi.org/10.1016/j.neuroimage.2011.03.080]
N. Subbanna, M. Shah, S. Francis, S. Narayanan, L. Collins, D. L Arnold, and T. Arbel, "MS Lesion segmentation using Markov Random Fields", Proc. of the Int. Conf. on Medical Image Computing and Computer Assisted Intervention, London, UK, Sep. 2009.
H. Zhang et al., "RSANet: Recurrent Slice-wise Attention Network for Multiple Sclerosis Lesion Segmentation", Lecture Notes in Computer Science, Vol. 11766, pp. 411-419, Oct. 2019. https://arxiv.org/ct?url=https%3A%2F%2Fdx.doi.org%2F10.1007%2F978-3-030-32248-9_46&v=e577ce3d, .
T. Brosch, Y. Yoo, L.Y.W. Tang, D.K.B. Li, A. Traboulsee, and R. Tam, "Deep Convolutional Encoder Networks for Multiple Sclerosis Lesion Segmentation", Medical Image Computing and Computer-Assisted Intervention(MICCAI), pp. 3-11, Nov. 2015. [https://doi.org/10.1007/978-3-319-24574-4_1]
M. Salem et al., "A fully convolutional neural network for new T2-w lesion detection in multiple scleorsis", NeuroImage: Clinical, Vol. 25, 102149, Jan. 2020. [https://doi.org/10.1016/j.nicl.2019.102149]
J. J. Lee et al., "Multiple Sclerosis Lesion Segmentation using Deep Learning", Proceedings of the 2021 KIIT Conference, Jeju, Korea, pp. 523-525, Jun. 2021.
O. Ronneberger, P. Fischer, and T. Brox, "U-Net: Convolutional Networks for Biomedical Image Segmentation", Lecture Notes in Computer Science, Vol. 9351, pp. 234-241, Nov. 2015. [https://doi.org/10.1007/978-3-319-24574-4_28]
Ö. Çiçek et al., "3D U-Net: Learning Dense Volumetric Segmentation from Sparse Annotation", Lecture Notes in Computer Science, Vol. 9901, pp. 424-432, Jun. 2016. [https://doi.org/10.1007/978-3-319-46723-8_49]

저자소개

김 창 민 (Chang-Min Kim)

2016년 2월 ~ 현재 : 금오공과대학교 컴퓨터소프트웨어공학과 학사 과정

관심분야 : 영상 처리, 딥러닝

김 지 영 (Ji-Yeong Kim)

2018년 2월 ~ 현재 : 금오공과대학교 컴퓨터소프트웨어공학과 학사 과정

관심분야 : 영상 처리, 딥러닝

김 현 수 (Hyeon-Su Kim)

2019년 2월 ~ 현재 : 금오공과대학교 컴퓨터소프트웨어공학과 학사 과정

관심분야 : 영상 처리, 딥러닝

엄 소 정 (So-Jeong Eom)

2019년 2월 ~ 현재 : 금오공과대학교 컴퓨터소프트웨어공학과 학사 과정

관심분야 : 영상 처리, 딥러닝

이 해 연 (Hae-Yeoun Lee)

1997년 : 성균관대학교 정보공학과 (학사)

1999년 : 한국과학기술원 전산학과 (공학석사)

2006년 : 한국과학기술원 전자전산학과 (공학박사)

2008년 ~ 현재 : 금오공과대학교 컴퓨터소프트웨어공학과 교수

관심분야 : Digital Forensics, Image Processing, IoT

Layer name	Parameters
encodeA	filter=32, kernel=333, padding=same
poolA	pooling_size=222
encodeB	filter=64, kernel=333, padding=same
poolB	pooling_size=222
encodeC	filter=128, kernel=333, padding=same
poolC	pooling_size=222
encodeD	filter=256, kernel=333, padding=same
poolD	pooling_size=222
encodeE	filter=512, kernel=333, padding=same
transconvD	filter=256, kernel=222, padding=same
decodeC	filter=256, kernel=333, padding=same
transconvC	filter=128, kernel=222, padding=same
decodeB	filter=128, kernel=333, padding=same
transconvB	filter=64, kernel=222, padding=same
decodeA	filter=64, kernel=333, padding=same
transconvA	filter=32, kernel=222, padding=same
convOut	filter=32, kernel=333. padding=same
prediction	filter=1, kernel=111. activation=sigmold

Modality	2D U-Net	3D U-Net
T1	48.89%	49.11%
T2	49.23%	41.51%
FLAIR	58.31%	64.50%