[ Article ]

The Journal of Korean Institute of Information Technology - Vol. 23, No. 12, pp.219-227

ISSN: 1598-8619 (Print) 2093-7571 (Online)

Print publication date 31 Dec 2025

Received 27 Aug 2025 Revised 24 Sep 2025 Accepted 27 Sep 2025

DOI: https://doi.org/10.14801/jkiit.2025.23.12.219

3D ResNet 기반의 QQ 모델 파라미터 예측 정확도 향상 방법

황재민^*

; 이해연^**

*국립금오공과대학교 컴퓨터소프트웨어공학과 학사과정
**국립금오공과대학교 컴퓨터소프트웨어공학과 교수(교신저자)

3D ResNet-based Method for Improving QQ Model Parameter Prediction Accuracy

Jae-Min Hwang^*

; Hae-Yeoun Lee^**

Correspondence to: Hae-Yeoun Lee Dept. of Computer Software Engineering, Kumoh National Institute of Technology, Korea Tel.: +82-54-458-7548, Email: haeyeoun.lee@kumoh.ac.kr

초록

뇌 질환은 높은 사망률을 보이므로 정확한 진단이 중요하며, 본 연구에서는 뇌 질환 진단의 정확도를 높이기 위해 QQ 모델의 5가지 생리학적 파라미터를 직접 예측하도록 맞춤 설계된 3D ResNet을 제안한다. 제안된 모델은 1개의 입력 계층, 4개의 Residual Block, 그리고 1개의 Conv3D 출력 계층으로 구성되며, 8개 TE 신호와 QSM 값으로부터 다중 파라미터를 동시에 학습·추정할 수 있도록 설계되었다. Residual Block 내부는 Conv3D-BatchNormalization-ReLU 연산을 반복 적용하고, 채널 불일치를 1×1×1 Conv로 보정하여, 복잡한 다채널 입력에서 안정적인 학습이 가능하도록 하였다. 실험 결과에 따르면 제안하는 모델은 기존 3D CNN 대비 향상된 성능을 보였다. 특히 산소추출률 계산에 활용되는 산소포화도의 RMSE는 2.31에서 1.94로 개선되었다.

Abstract

Brain diseases are associated with high mortality, making accurate diagnosis essential. To improve diagnostic accuracy, this study proposes a customized 3D ResNet designed to directly predict 5 physiological parameters of the QQ model. The proposed model consists of 1 input layer, 4 Residual Blocks, and 1 Conv3D output layer, enabling simultaneous learning and estimation of multiple parameters from 8 TE signals and QSM values. Within each Residual Block, Conv3D-Batch Normalization-ReLU operations are repeatedly applied, and channel mismatches are corrected using a 1×1×1 Conv, allowing stable learning from complex multi-channel inputs. Experimental results demonstrate that the proposed model outperforms conventional 3D CNNs. In particular, the RMSE of oxygen saturation, which is used in OEF calculation, was improved from 2.31 to 1.94.

Keywords:

QQ model, brain MRI, oxygen extraction fraction, 3D ResNet

Ⅰ. 서 론

뇌 질환은 심각한 건강 상의 문제로 전 세계적으로 대두되고 있으며, 국내에서도 암, 심장 질환, 폐렴에 이어 네 번째로 높은 사망률을 차지하고 있다[1][2]. 이러한 질환의 조기 진단과 치료를 위해서는 뇌 조직의 기능적·대사적 특성을 정밀하게 분석하는 기술이 필수적이며, 최근에는 코넬대학교에서 제안한 QQ(QSM+qBOLD) 모델을 활용한 파라미터 예측 기법이 중요한 접근법으로 주목받고 있다[3].

QQ 모델은 phase 기반의 정량적 자기장 감수성 매핑(QSM, Quantitative Susceptibility Mapping)과 magnitude 기반의 혈중 산소포화도 정보(qBOLD, quantitative Blood Oxygen Level–Dependent)를 결합하여 뇌 조직의 생리학적 상태를 정량적으로 추정하는 모델이다. 기존 연구에 따르면 QQ 모델은 양전자 방출 단층촬영(Positron emission tomography)과 유사한 수준의 정확도를 제공하며, 산소 또는 혈류 변화와 같은 추가 자극 없이도 추정이 가능하다는 장점이 있다. 그러나 복잡한 계산 과정과 모델 파라미터 추정의 어려움으로 인해 임상적 활용에는 일정한 한계가 존재해 왔다[3].

최근 QQ 모델을 기반으로 산소추출률(OEF, Oxygen Extraction Fraction)를 예측하는 딥러닝 기술이 활발히 연구되고 있으며, 특히 QQ 모델의 파라미터를 예측하기 위해 4차원 MRI 데이터를 활용한 2D 및 3D 딥러닝 연구가 활발히 진행되고 있다[4]-[9].

본 연구에서는 QQ 모델의 파라미터를 정확하게 예측하기 위하여 공간적 연속성을 최대한 활용하기 위해 3D ResNet 아키텍처를 적용한 새로운 딥러닝 모델을 제안한다. 제안된 모델은 Conv3D(16)-Batch Normalization-ReLU(Rectified Linear Unit) 구조로 초기 특징을 추출한 뒤, 필터 수 16의 Residual Block을 두 차례 연속 적용하고, 이어서 필터 수 32의 Residual Block을 두 차례 연속 적용하여 심층적인 공간적 특징을 학습한다. 각 Residual Block은 Conv3D-Batch Normalization-ReLU 구조가 세 차례 반복된 형태이며, 입력 데이터가 Skip Connection을 통해 더해지는 구조를 가진다. 또한 Shortcut 연결 시 입력과 출력의 채널 수가 다른 경우에는 1×1×1 Conv3D를 적용하여 채널을 일치시킨다. 이어서 최종 단계에서는 1×1×1 Conv3D(Output_channels) 레이어를 통해 QQ 모델의 다섯 가지 파라미터를 직접 예측한다. 이러한 모델 구조는 9채널 입력(8개 TE 볼륨 신호와 QSM 값)에서 나타나는 고차원적 상관관계를 안정적으로 학습할 수 있도록 하며, 복잡한 다중 파라미터 출력 상황에서도 학습의 안정성과 일반화 성능을 보장한다. 따라서 제안한 3D ResNet은 단순한 깊이 확장을 넘어, QQ 모델 파라미터 추정에 특화된 구조적 차별성을 지닌다. 제안된 모델을 평가하기 위해 코넬대학교 의과대학의 15명 환자 MRI 데이터를 사용하였으며, 관심영역(Region of Interest, ROI)를 반영해 [350×350×40] 형태로 크롭(Cropping)하여 15명에 대하여 7,350만개의 복셀(Voxel)을 학습과 테스트에 활용하였다.

본 논문의 구성은 다음과 같다. 2장에서는 관련 연구를 요약하고, 3장에서는 제안한 모델의 설계 원리 및 구조를 설명한다. 4장에서는 실험 환경과 결과에 따른 평가지표를 제시하고, 마지막으로 5장에서는 연구의 결론과 향후 과제를 논의한다.

Ⅱ. 관련 연구

뇌는 인체 기관 중 산소 소비 비율이 가장 높으며, 기능적 활동을 위해 지속적인 산소 공급이 필요하다. 뇌 조직의 산소 이용 효율은 주로 뇌혈류(Cerebral blood flow)와 산소추출률을 통해 평가되며, 이들은 뇌의 대사 상태와 다양한 신경 질환의 진단 및 예후 평가에 중요한 지표로 활용된다. 과거에는 양전자 방출 단층촬영을 이용하여 산소추출률을 측정하였으나, 최근에는 비침습적이며 방사선 노출이 없는 MRI 기반 방법이 주목받으면서 임상적 활용 가능성이 확대되고 있다[7].

2.1 QSM과 qBOLD 기반의 QQ 모델

QSM은 정맥 내 디옥시헤모글로빈으로 인한 조직 자화율 변화를 분리하여 측정하고, qBOLD는 mGRE(Multi-Echo Gradient Echo) MRI 신호 세기의 변화를 활용해 혈액 내 산소화 상태를 모델링한다. QQ 모델은 이러한 두 방법의 강점을 결합하여 별도의 가정 없이도 산소추출률을 도출할 수 있으며, 동시에 정맥 혈액량(𝑣), 초기 신호 강도(S₀), 조직의 가로 이완(𝑅₂), 정맥혈 산소포화도(𝑌), 비혈류 물질 자화율(𝜒_𝑛𝑏) 등 주요 생리학적 파라미터를 추정한다. 이 과정은 진폭과 위상 정보를 함께 활용한 공동 최적화에 기반하며, 정맥 혈액량과 산소포화도의 상호 작용, 그리고 qBOLD 복원 과정에서의 잡음 민감도를 반영함으로써 높은 정확도와 재현성을 확보한다. 결과적으로 QQ 모델은 QSM과 qBOLD를 통합해 뇌 조직의 산소 대사 상태를 효과적으로 정량화할 수 있는 생리학적 접근법으로 정의된다[3]. QQ 모델은 다음 식 (1)과 같이 정의된다.

Q Q Y, v, R 2, S 0, χ n b = a r g m i n Y, v, R 2, S 0, χ n b w F Q S M Y, v, χ n b - χ 22 + S t - S q B O L D S 0, Y, v, R 2, χ n b, t 22 + λ (O E F Y ¯ - O E F w b 2

(1)

식 (1)에서 𝑤는 QSM 가중치, 𝜆는 정규화 가중치를 의미한다. F_QSM 모델과 S_qBOLD 모델은 Lee에서 제시된 것과 같다[4].

QQ 모델에서 도출된 정맥 산소포화도 Y를 이용하여 산소추출률 OEF는 다음 식 (2)에 따라 계산된다.

O E F = 1 - Y / Y a

(2)

여기서 Y_a는 동맥 산소화 값이며 일반적으로 0.98로 가정한다. 이는 맥박산소측정기의 결과와 일치하며, 별다른 저산소증이나 질환이 없는 한 사용하는 일반적인 기준값이다[7].

2.2 2D LSTM 및 2D DNN 기반 딥러닝 모델

뇌 MRI 기반 QQ 모델의 파라미터 예측에 딥러닝을 적용하려는 시도는 지속적으로 진행되고 있으며, 특히 2D DNN(Deep Neural Network)과 LSTM(Long Short-Term Memory)을 활용한 접근이 활발히 수행되고 있다[5][8].

기존의 2D DNN 모델은 구조가 단순하여 학습 속도가 빠르고 구현이 용이하며, 데이터가 제한된 상황에서도 상대적으로 안정적인 예측 성능을 보여주는 장점이 있다. 그러나 이 방식은 입력되는 MRI 신호 간 시간적 상관관계나 시계열적 특성을 충분히 반영하지 못해 장기적인 변화와 미세한 신호 변동을 포착하는 데 한계가 있다.

이러한 한계를 보완하기 위해 최근에는 LSTM 네트워크를 접목한 2D 모델이 주목받고 있다. LSTM은 시계열 데이터에 있어서 장기 의존성을 효과적으로 학습할 수 있어, MRI 신호의 시간적 연속성과 변화를 보다 정교하게 반영한다. 그 결과 기존 DNN 기반 방식보다 높은 예측 정확도를 달성할 수 있었으나, 2D LSTM 모델 또한 공간적 연속성이나 깊이 축 정보의 손실 문제를 완전히 극복하지는 못하는 한계가 존재한다

2.3 3D CNN을 활용한 딥러닝 모델

최신 연구에서는 뇌 MRI 볼륨 데이터를 2D 슬라이스가 아닌 3D 형태로 처리하는 CNN을 활용하여 산소추출률 예측 정확도를 향상시키고자 하였다[6]. 회전, 스케일링, 노이즈 주입과 같은 3D 데이터 증강 기법을 통해 과적합을 억제하고, 깊이 축상의 공간 연속성을 완전하게 보존함으로써 2D 기반 방식에서 발생하는 정보 손실을 극복한다.

그러나 기존의 3D CNN은 잔차 연결(Residual connection)이 없어 네트워크 깊이가 깊어질수록 기울기 소실 문제가 더욱 심각해지며, 모듈화된 블록 구조의 부재로 인해 복잡한 다중 스케일 특징 학습에 한계가 있다[10]. 또한 수백만~수천만 개의 파라미터를 기반으로 한 단순한 확장형 설계로 인해 학습 및 추론 과정에서 고사양 GPU 메모리를 요구하고, 제한된 샘플 수로 인한 데이터 불균형 및 과적합 위험이 높아진다.

Ⅲ. 제안하는 3D ResNet 기반의 QQ 모델 파라미터 예측 방법

본 절에서는 기존 3D CNN 모델이 가진 정확도 및 구조적 한계를 극복하기 위해 3D ResNet 아키텍처를 활용한 새로운 접근 방법을 제안한다. 제안한 방법은 뇌 MRI 데이터의 공간적·구조적 특성을 보다 효과적으로 학습하여 QQ 파라미터를 정밀하게 예측할 수 있도록 한다.

3.1 3D ResNet

3D ResNet은 잔차 학습 기반의 딥러닝 모델로서 3차원 영상 데이터를 처리하는데 특화되어 있으며 3D CNN 구조의 장점을 유지함과 동시에 학습 안정성과 표현력을 향상시키도록 설계되었다. 일반적으로 3D CNN은 네트워크가 깊어질수록 기울기 소실 문제에 취약해질 수 있는 반면, 3D ResNet은 각 블록마다 입력을 직접 출력에 연결하는 Skip Connection을 도입하여 기울기 소실 문제를 효과적으로 완화할 수 있다. 또한 3D 컨볼루션 필터를 사용함으로써 가로, 세로, 깊이의 세 방향으로 구성된 뇌 MRI 데이터의 공간적 연속성과 구조적 패턴을 효율적으로 학습하며, 층이 깊어질수록 복잡한 고수준의 특징을 점진적으로 추출할 수 있다. 이러한 구조는 뇌의 형태학적 정보를 정교하게 반영할 수 있어, QQ 모델 파라미터 예측과 같은 정밀한 의료 영상 분석 작업에 적합하다.

3.2 3D ResNet 모델의 입출력 데이터 처리

본 연구에서 제안하는 3D ResNet 기반 QQ 모델의 생리학적 파라미터를 정확히 예측하기 위한 방법에서는 코넬대학교 의과대학에서 제안한 Cluster Analysis of Time-evolution 방법에서 활용된 동일한 데이터셋을 사용하였다.

이 데이터셋은 다양한 에코 타임에서 측정된 mGRE 신호와 자화율 정보를 포함하며, QQ 모델에서 사용되는 다섯 가지 생리학적 파라미터(Y, v, R₂, S₀, χ_nb)를 제공한다.

제안된 3D ResNet 모델은 이러한 mGRE 신호와 자화율 데이터를 입력으로 하여 QQ 모델의 다섯 가지 생리학적 파라미터를 출력으로 예측하는 회귀 문제를 다룬다. 또한, 모델은 MRI 데이터의 ROI를 중심으로 크롭하여 효율적인 학습과 컴퓨팅 자원 활용을 가능하게 하였다.

이 방식은 3D ResNet의 구조적 이점을 활용하여 공간적 연속성과 구조적 특징을 효과적으로 학습하며, 기존의 2D 접근법 대비 슬라이스 간의 공간적 상관성을 더욱 정확하게 반영하여 더욱 정밀한 파라미터 예측을 가능하게 한다.

3.3 3D ResNet 모델 구조

제안하는 3D ResNet 모델의 구조는 그림 1과 같이 입력 계층 1개, Residual Block 4개(총 4개 은닉 블록), 그리고 Conv3D 출력 계층 1개로 구성된다.

Fig. 1.

Structure of proposed 3D ResNet model

입력 계층에서는 여러 에코 타임(Echo Time, TE)에서 측정된 8개의 MRI 볼륨 신호와 1개의 정량적 자화율(QSM) 정보를 채널 축으로 결합한 총 9채널 입력을 받으며, 학습 및 추론 시 계산량과 메모리 사용을 줄이기 위해 ROI를 350×350×40 크기로 크롭하여 모델에 투입한다. ROI에서 40은 3D 촬영된 뇌 MRI의 슬라이스 중에서 모델에서 사용한 슬라이스 수를 의미한다. 따라서 입력 데이터의 구조는 (Height=350, Width=350, Depth=40, Channels=9) 형태로 정의된다.

일반적인 2D CNN이 가로·세로 방향의 특징만 추출하는 반면, 3D CNN은 깊이 축까지 고려하여 시·공간적 볼륨 데이터의 구조적·공간적 연관성을 효과적으로 학습할 수 있다. Conv3D 레이어는 배치, 깊이, 높이, 너비, 채널로 이루어진 5차원 입력을 처리하며, 일반적으로는 깊이·높이·너비에 해당하는 3차원 공간 데이터를 대상으로 한다. 본 연구에서 사용한 입력은 공간적 3차원(Height, Width, Depth)에 더해 TE에 따른 시간 정보를 포함한 4차원 데이터이므로, 커널은 공간 3차원 축에 적용하고 TE에 따른 시간 차원은 채널로 독립적으로 처리하였다. 그림 2는 입력 데이터를 처리하는 입력계층 Conv3D 구조를 보여준다.

Fig. 2.

Conv3D structure of input layer

은닉부의 Residual Block은 세 차례의 3×3×3 Conv3D 연산과 배치 정규화(Batch Normalization), ReLU 활성화 함수를 기본 단위로 구성되며, 블록 내부에서는 첫 번째와 두 번째는 Conv3D, Batch Normalization, ReLU, 세 번째는 Conv3D, Batch Normalization 순서로 연산을 수행한다. Batch Normalization은 각 미니배치 단위로 채널별 평균과 분산을 정규화 함으로써 내부 공변량 변화(Internal covariate shift)를 감소시키고, 학습 속도 향상 및 수렴 안정화에 기여한다. ReLU는 음수 입력에 대해서 0으로 변환하고 양수 입력에 대해서는 그대로 전달함으로써 비선형성을 부여하는 동시에 계산이 간단하고 기울기 소실 문제를 완화한다. 초반 두 개의 블록은 필터 수를 16으로, 후반 두 개의 블록은 필터 수를 32로 설정하여 네트워크의 용량을 단계적으로 확장하였다. 마지막으로 커널 크기가 1인 Conv3D를 적용하여 QQ 모델의 파라미터 예측값 5채널을 출력한다.

이러한 구조를 통해 크롭된 MRI 볼륨 데이터에서 QQ 모델의 5개 생리학적 파라미터 입력값을 측정된 채널별 MRI 신호인 출력값에서 직접 예측하여, 효율적이며 정밀한 파라미터 추정이 가능하다.

Ⅳ. 실험 결과 및 분석

제안한 방법은 Intel i9-11900 CPU, nVidia RTX 3090 GPU, 64GB RAM 하드웨어와 Windows 10 Pro 운영체제에서 TensorFlow를 사용하여 구현하였다.

4.1 학습 설정 및 절차

제안한 3D ResNet 모델은 코넬대학교 의과대학에서 구축한 데이터셋을 기반으로 학습되었다. 해당 데이터셋은 표 1과 같은 구조로 15명의 환자로부터 수집된 3차원 뇌 MRI 신호와 자화율 데이터를 포함하며, QQ 모델에서 사용하는 정맥 산소포화도, 정맥 혈액량, 조직 내 가로 이완, TE=0에서 신호 강도, 비혈류 물질의 자화율에 대한 Ground Truth를 함께 제공한다[3]. 전체 데이터 중 10명의 환자 데이터를 학습에 활용하고, 나머지 5명의 환자 데이터를 테스트에 사용하였으며, 데이터 분할은 무작위로 이루어졌다.

Table 1.

Dataset composition

모델 학습 전, 각 환자의 MRI 볼륨은 공간적으로 불필요한 영역을 제거하고 ROI에 집중하기 위해 중심부 기준으로 350×350×40 크기로 절삭하였다. 특히 환자마다 슬라이스 수가 상이했으나, 중앙부 40장의 슬라이스를 선택하여 깊이 방향 정보를 통일하였다. 이를 통해 모델이 뇌의 구조적 특징에 집중할 수 있도록 하는 동시에, 연산량과 메모리 사용을 최소화하여 학습 효율을 향상시켰다. 따라서, 각 환자에 대해서 데이터는 [350×350×40] 개이며, 총 15명으로 7,350만 개 복셀을 학습과 테스트에 사용하였다.

학습 과정에서는 평균 제곱 오차(MSE, Mean Square Error) 대신 이상치에 덜 민감한 Huber 손실 함수를 적용하였으며, 이는 작은 오차에 대해서는 MSE와 유사하게 제곱 오차를 사용하지만, 큰 오차에 대해서는 절대 오차를 사용하여 이상치(Outlier)의 영향을 완화할 수 있다는 장점이 있다. 최적화 알고리즘으로는 Adam(Adaptive Moment Estimation)을 사용하였는데, 이는 모멘텀과 적응적 학습률(Adaptive learning rate) 기법을 결합하여 학습 초기에 빠른 수렴을 유도하고, 학습 후반부에는 안정적인 최적화가 가능하다는 특징을 가진다. 학습률은 1e-4로 고정하였으며, 모델 성능 평가는 평균 제곱근 오차(RMSE, Root Mean Square Error)를 기준으로 수행하였다. 이러한 설정은 제안한 모델이 데이터를 안정적으로 학습하고 예측의 정밀도를 높이는 데 핵심적인 기반을 제공한다.

또한 학습의 효율성과 일반화 성능을 높이기 위해 ModelCheckpoint를 이용하여 검증 손실(val_loss)이 가장 낮은 시점의 가중치를 저장하였고, 조기 종료(Early Stopping)를 적용하여 300 epoch 동안 검증 손실에 개선이 없으면 학습을 조기 종료하였다.

4.2 QQ 모델 파라미터 정확도

제안된 3D ResNet 모델의 성능은 학습과 검증에 사용되지 않은 5명의 환자 데이터를 통해 평가되었다. 모델의 출력은 QQ 모델에서 사용되는 5개 입력 변수(Y, v, R₂, S₀, χ_nb)를 그대로 모사하도록 설계되었으며, 각 변수에 대해 예측값과 실제값 간 RMSE를 계산하였다.

표 2의 결과에 따르면, 정맥 산소포화도 Y, 조직 횡이완도 R₂, 비혈류 물질 자화율 χ_nb에서 낮은 예측 오차가 확인되었으나, TE=0에서 신호 강도 S₀와 정맥 혈액량 v의 경우 기존 3D CNN[6]과 비교했을 때 뚜렷한 개선은 확인되지 않았다. 그러나 산소추출률 계산에 활용되는 Y의 예측 정확도는 향상되었으며, 이는 추가 데이터 확보 및 모델과 학습 전략의 개선을 통해 다른 변수들의 예측 성능 역시 향상될 가능성이 있음을 시사한다.

Table 2.

3D ResNet model RMSE for evaluation data

4.3 산소추출률 예측 정확도

그림 3은 3D ResNet 모델이 예측한 산소추출률 값과 Ground Truth를 시각적으로 비교한 결과로, 네 명의 환자 모두에서 높은 일치도가 확인되었다. 평균 산소추출률 RMSE는 기존 3D CNN의 5.19에서 제안한 3D ResNet 모델의 4.98로 약 0.21 감소하였으며, 이는 약 4.0%의 성능 향상에 해당하여 3D ResNet 모델의 예측 우수성을 입증하였다.

Fig. 3.

Ground truth and OEF prediction result of the proposed method

또한 표 3에서는 동일한 코넬대학교 의과대학 데이터셋을 사용하여 기존 2D LSTM[5], 3D CNN[6], 그리고 본 연구에서 제안하는 3D ResNet 모델 간 산소추출률 평균 RMSE를 비교하였다. 데이터 분할 방식에 일부 차이가 있었음에도 불구하고, 제안된 3D ResNet 모델이 가장 낮은 RMSE를 달성하여 산소추출률 예측 정확도 측면에서 기존 방법들을 능가함을 보여주었다.

Table 3.

Comparison of OEF RMSE for 2D LSTM, 3D CNN and proposed method

복잡도 측면에서는 기존의 클러스터링 기반 기법[4], 2D DNN[8], 2D LSTM[5] 기반 기법 등은 인접 픽셀의 공간적 상관성을 고려하지 않고 단일 복셀 단위로 연산을 수행하기 때문에 상대적으로 복잡도는 낮으나, QQ 모델 파라미터 추정 시 잡음에 취약하다는 한계가 있다. 이에 반해 인접 복셀 정보를 함께 반영하는 3D 기반 접근법은 공간적 연속성을 활용하여 더욱 안정적이고 정확한 추정을 가능하게 한다. 그러나 단순 3D CNN[6]을 활용한 연구는 기울기 소실(Vanishing Gradient) 문제와 다중 스케일 특징 학습의 한계로 인해 성능 향상에 제약이 있었다. 본 연구에서는 이러한 한계를 극복하기 위해 잔차 연결을 도입한 3D ResNet 구조를 적용하여 안정성과 표현력을 향상시키고자 하였으며, 그 결과 기존 3D CNN 대비 성능이 개선되었으나, 동시에 모델 복잡도가 증가하는 특징을 가진다.

Ⅴ. 결론 및 향후 과제

뇌 질환 진단에는 뇌 조직 내 혈류 및 대사 상태를 정량적으로 분석하는 기법이 널리 활용되고 있으며, 이를 위해 QQ 모델을 기반으로 한 파라미터 예측이 핵심 연구 주제로 부상하고 있다. 기존 접근법들은 주로 2D 기반 처리나 제한된 3D 데이터 활용에 의존하여 시공간적 연속성 및 복잡한 파라미터 상호작용을 충분히 반영하지 못하는 한계가 있었다. 이러한 이유로, 3차원 데이터의 구조적·시간적 정보를 통합적으로 학습하여 QQ 모델 파라미터를 보다 정밀하게 예측할 수 있는 새로운 접근법이 요구된다. 본 연구에서는 QQ 모델을 기반으로, 3차원 공간적 구조와 깊이 축 연속성을 모두 학습할 수 있는 3D ResNet 아키텍처를 설계하였다. 제안된 모델은 뇌 MRI로부터 획득한 mGRE 신호와 자화율 데이터를 입력받아 QQ 모델의 다섯 가지 생리학적 파라미터(Y, v, R₂, S₀, χ_nb)를 회귀 방식으로 예측하며, 이를 통해 산소추출률을 정밀하게 추정한다.

모델 학습에는 코넬대학교 의과대학에서 구축한 15명의 환자 데이터셋을 활용하였다. 입력 데이터는 ROI을 중심으로 크롭하여 불필요한 배경 정보를 제거하고 연산량을 줄였으며, 이를 통해 GPU 메모리 효율성을 높이면서도 정보 손실을 최소화하였다. 변수별 예측 성능 분석 결과, 정맥 산소포화도 Y, 조직 횡이완도 R₂, 비혈류 물질 자화율 χ_nb에서는 낮은 오차를 기록하며 우수한 성능을 나타내었다. 반면, TE=0에서 신호 강도 S₀와 정맥 혈액량 v은 기존 3D CNN 대비 통계적으로 유의한 개선은 확인되지 않았다. 특히 산소추출률 계산에 직접적으로 영향을 미치는 Y의 예측 정확도가 향상된 점은 본 연구의 중요한 성과로 해석되며, 나머지 변수들의 성능 개선은 추가 데이터 확보 및 모델과 학습 전략의 보완을 통해 달성이 가능할 것으로 기대된다. 또한 산소추출률 예측에서 RMSE 4.98를 달성하여 기존 3D CNN 모델의 RMSE 5.19에 대비하여 향상된 성능을 입증하였다. 이는 제안한 3D ResNet 구조가 QQ 모델의 다중 파라미터를 직접 예측하도록 최적화되어 설계되었기 때문에, 복잡한 신호 간 상관관계를 효과적으로 학습하고 더욱 정밀한 파라미터 추정을 가능하게 한 결과로 해석된다.

본 연구는 몇 가지 한계점을 가진다. 첫째, 학습 데이터셋이 15명으로 제한되어 통계적 일반화 성능에 우려가 있으며, 다양한 환자군 및 MRI 획득 조건에서의 검증이 부족하다. 둘째, 3D ResNet과 같은 딥러닝 기반 모델은 내부 작동 원리를 명확히 해석하기 어려운 블랙박스 특성을 보이므로, 모델 예측의 임상적 신뢰성 확보에 제약이 따른다. 셋째, S₀와 v 등 일부 파라미터는 기존 모델 대비 개선 폭이 제한적이어서, 파라미터별 최적화된 학습 전략이 필요하다.

향후 연구에서는 다양한 환자군과 다기관 데이터를 포함한 대규모 데이터셋을 확보하여 모델의 일반화 성능을 높이고, 외부 데이터셋을 활용한 독립적인 검증이 필요하다. 또한 Grad-CAM이나 LRP와 같은 설명 가능한 인공지능(xAI) 기법을 도입하여 모델의 예측 근거를 시각화함으로써 임상 적용 시 신뢰성을 제고할 수 있을 것이다. 아울러 S₀와 v와 같이 예측 정확도가 낮은 변수에 대해서는 멀티태스크 학습이나 변수별 특화 서브 모델 설계를 통해 성능 개선이 요구된다. 더 나아가 Faster R-CNN 기반 ROI 풀링 기법을 적용하여 관심 영역을 정밀하게 추출함으로써, 불필요한 배경 정보를 줄이고 모델의 효율성과 정확도를 동시에 향상시킬 수 있을 것이다. 또한 최근에는 UNETR[11], Swin UNETR[12], VT-UNet[13] 등 3D 의료 영상에 특화된 Vision Transformer 기반 모델들이 제안되어 주목받고 있다. 이들 모델은 본 연구에서 데이터셋 크기와 GPU 메모리 한계로 인해 고려하지 못하였으나, 향후 연구에서는 이러한 3D Vision Transformer 계열 모델들에 대해서도 활용할 계획이다.

Acknowledgments

This work was supported by the National Research Foundation of Korea(NRF) grant funded by the Korea government(MSIT) (No. RS-2023-00242116)

2025년도 한국정보기술학회 하계종합학술대회에서 발표한 논문(3D ResNet을 활용한 뇌 MRI 기반 산소추출률 예측)[14]을 확장한 것임

References

H. Noh, J. Seo, S. Lee, N. Yi, S. Park, Y.-J. Choi, and S. Huh, "Cause-of-death statistics in 2020 in the Republic of Korea", Journal of the Korean Medical Association, Vol. 66, No. 2, pp. 132-142, Feb. 2023. [https://doi.org/10.5124/jkma.2023.66.2.132]
Y.-S. Hong and C.-P. Han, "Analysis for Heart Disease and Predictive Predictions Factor", The Journal of The Institute of Internet, Broadcasting and Communication, Vol. 24, No. 5, pp. 111-116, Oct. 2024. [https://doi.org/10.7236/JIIBC.2024.24.5.111]
J. Cho, J. Lee, H. An, M. S. Goyal, Y. Su, and Y. Wang, "Cerebral oxygen extraction fraction (OEF): Comparison of challenge-free gradient echo QSM+qBOLD (QQ) with 15O PET in healthy adults", Journal of Cerebral Blood Flow & Metabolism, Vol. 41, No. 7, pp. 1658-1668, Jul. 2021. [https://doi.org/10.1177/0271678X20973951]
H. Y. Lee, "OEF Calculation Method through Cluster-based Classification and Matching of QQ Model on Brain MRI Images", Journal of KIIT, Vol. 18, No. 10, pp. 15-23, Oct. 2020. [https://doi.org/10.14801/jkiit.2020.18.10.15]
W. T. Kim and H. Y. Lee, "Prediction of Oxygen Extraction Fraction based on LSTM Deep Learning Model using Brain MRI", Journal of KIIT, Vol. 22, No. 6, pp. 143-151, Jun. 2024. [https://doi.org/10.14801/jkiit.2024.22.6.143]
W.-T. Kim and H.-Y. Lee, "Oxygen extraction fraction prediction method on brain MRI using 3D CNN model", Journal of KIIT, Vol. 23, No. 6, pp. 143-151, 2025. [https://doi.org/10.14801/jkiit.2025.23.6.143]
D. Jiang and H. Lu, "Cerebral oxygen extraction fraction MRI: Techniques and applications", Magnetic Resonance in Medicine, Vol. 88, No. 2, pp. 575-600, May 2022. [https://doi.org/10.1002/mrm.29272]
H. S. Kim and H.-Y. Lee, "DNN-based Oxygen Extraction Fraction Prediction Method for QQ Model of Brain MRI", Journal of KIIT, Vol. 21, No. 6, pp. 35-41, Jun. 2023. [https://doi.org/10.14801/jkiit.2023.21.6.35]
Y. E. Seo, C. H. Son, and H. Y. Lee, "Method for Improving QQ-based Oxygen Extraction Fraction Estimation Accuracy through GRU Model", Journal of KIIT, Vol. 22, No. 7, pp. 131-139, Jul. 2024. [https://doi.org/10.14801/jkiit.2024.22.7.131]
Y. Chung, "Effects of Spatio-temporal Features of Dynamic Hand Gestures on Learning Accuracy in 3D-CNN", The Journal of The Institute of Internet, Broadcasting and Communication, Vol. 23, No. 3, pp. 145-151, Jun. 2023. [https://doi.org/10.7236/JIIBC.2023.23.3.145]
A. Hatamizadeh, Y. Tang, V. Nath, D. Yang, H. R. Roth, and D. Xu, "UNETR: Transformers for 3D medical image segmentation", Proc. of the IEEE/CVF Winter Conference on Applications of Computer Vision (WACV), Waikoloa, HI, USA pp. 574-584, Jan. 2022. [https://doi.org/10.1109/WACV51458.2022.00064]
Y. Tang, D. Yang, W. Li, H. R. Roth, and D. Xu, "Swin UNETR: Swin Transformers for semantic segmentation of brain tumors in MRI images", Proc. of the Brainlesion: Glioma, Multiple Sclerosis, Stroke and Traumatic Brain Injuries (LNCS 12962), Oline, pp. 272-284, Mar. 2022. [https://doi.org/10.1007/978-3-031-08999-2_23]
H. Peiris, M. Hayat, M. Harandi, L. Petersson, and S. Shirazi, "A robust volumetric transformer for accurate 3D tumor segmentation", arXiv preprint, arXiv:2111.13300, , Nov. 2021. https://arxiv.org/abs/2111.13300, . [https://doi.org/10.1007/978-3-031-16443-9_16]
J.-M. Hwang and H.-Y. Lee, "Brain MRI-based oxygen extraction rate prediction using 3D ResNet", Porc. of KIIT Conference, Jeju, Korea, pp. 1414-1416, Jun. 2025.

저자소개

황 재 민 (Jae-Min Hwang)

2020년 3월 ~ 현재 : 국립금오공과대학교 컴퓨터소프트웨어공학과 학사과정

관심분야 : Image Processing, Deep Learning

이 해 연 (Hae-Yeoun Lee)

1997년 2월 : 성균관대학교 정보공학과(학사)

1999년 2월 : KAIST 전산학과(공학석사)

2006년 2월 : KAIST 전자전산학과(공학박사)

2008년 3월 ~ 현재 : 국립금오공과대학교 컴퓨터소프트웨어공학과 교수

관심분야 : Digital Forensics, Image Processing, IoT

Parameter	S₀	R₂	Y	v	χ_nb
Patient	S₀	R₂	Y	v	χ_nb
P5	0.0201	0.3129	0.0401	0.0148	0.0157
P12	0.0205	0.3126	0.0259	0.0145	0.0150
P13	0.0202	0.3766	0.0210	0.0161	0.0155
P23	0.0188	0.3144	0.0317	0.0146	0.0160
P31	0.0207	0.3117	0.0276	0.0142	0.0153
Avg.	0.0201	0.3256	0.0292	0.0148	0.0155