Korean Institute of Information Technology
[ Article ]
The Journal of Korean Institute of Information Technology - Vol. 22, No. 9, pp.123-132
ISSN: 1598-8619 (Print) 2093-7571 (Online)
Print publication date 30 Sep 2024
Received 05 Aug 2024 Revised 08 Sep 2024 Accepted 11 Sep 2024
DOI: https://doi.org/10.14801/jkiit.2024.22.9.123

라이프로그 데이터를 활용한 LSTM 모델 기반의 치매 예측

김지희* ; 이진원**
*강릉원주대학교 산업공학과 석사과정
**강릉원주대학교 산업경영공학과 교수(교신저자)
Dementia Prediction using LSTM Model based on Life-Log Data
Jihee Kim* ; Jinwon Lee**

Correspondence to: Jinwon Lee Dept. of Industrial & Management Engineering, Gangneung-Wonju National University, Wonju, 26403, Korea Tel.: +82-33-760-8813, Email: jwlee@gwnu.ac.kr

초록

우리나라는 평균 수명의 증가와 함께 초고령 사회로 빠르게 진입하고 있으며, 이로 인해 치매 유병률이 급격히 상승하고 있다. 치매는 인지능력과 신체능력의 저하를 동반과 동시에 여러 전조 증상을 나타난다. 일상생활에서 수집되는 라이프로그 데이터를 활용하여 치매 전조 증상을 조기에 감지한다면 중증 치매를 예방할 수 있다. 본 연구는 웨어러블 기기로 수집한 활동 및 수면 데이터를 연속형, 비연속형 샘플로 전처리하여, 치매 환자를 예측하는 딥러닝 모델을 개발했다. 본 연구의 딥러닝 모델은 수면 및 활동 데이터를 하나로 통합하여 LSTM 모델에 적용했다. 또한, Random Forest와 LGBM을 결합한 앙상블 모델도 비교 분석했다. 연구 결과, LSTM 모델이 92.72%의 정확도로 가장 우수한 예측 성능을 보였다. 향후 연구에서는 다양한 변수와 데이터를 통합하여 예측 모델의 정확도를 높이고, 실제 임상 환경에서의 적용 가능성을 검증할 필요가 있다.

Abstract

With the average life expectancy in South Korea on the rise, the country is quickly becoming a super-aged society, leading to a significant increase in dementia cases. Dementia results in a decline in cognitive and physical abilities and various early symptoms. Identifying these early signs through data collected from daily activities can help prevent severe dementia. In this study, a deep-learning model was developed to predict dementia in patients using data from wearable devices. The data was preprocessed into continuous and discrete samples, which were then integrated and applied to an LSTM model. The model processes sleep and activity data and applies it as a single integrated dataset to an LSTM model. Additionally, an ensemble model combining Random Forest and LGBM was also analyzed for comparison. The results showed that the LSTM model achieved the highest prediction accuracy at 92.72%. Future research should focus on integrating various variables and data to improve prediction accuracy and verify applicability in real clinical environments.

Keywords:

dementia prediction, deep learning, LSTM, wearable devices, data preprocessing

Ⅰ. 서 론

우리나라는 의료기술의 발전으로 평균 수명이 증가함에 따라 세계적으로 전례가 없을 정도로 빠르게 초고령 사회로 접어들고 있다. 고령화 사회가 됨에 따라 치매 유병률도 급격하게 상승하고 있어 치매 관리의 중요성이 대두되고 있다. UN의 기준에 따르면, 65세 이상 인구 비율이 7% 이상이면 고령화사회, 14% 이상이면 고령 사회, 20% 이상이면 초고령사회로 분류한다[1]. 2021년 기준, 대한민국의 65세 이상 노인 인구 중 치매 환자는 82만명으로 치매 유병률이 10.2%에 이르며 2030년 136만명, 2040년 217만명을 넘어설 것으로 전망된다[2].

치매는 인지 능력의 저하와 신체 능력의 저하가 동반되어 발생하기 때문에 기억력 감퇴, 혼란, 일상 활동의 어려움, 언어 문제, 기분 변화와 같은 여러 가지 전조 증상이 발생한다. 경도인지장애 단계에서 여러 가지 전조 증상을 감지하면 중증 치매로 진행되는 과정을 늦출 수 있다. 최근에는 건강 모니터링을 하기 위한 웨어러블 기기가 주목받고 있다. 웨어러블 기기는 시계, 반지, 임베디드 장비 등과 같이 착용할 수 있는 형태로 사용자가 거부감 없이 신체 일부처럼 항상 착용할 수 있는 장비이다. 이러한 웨어러블 기기를 통해 심박수, 걸음 수, 수면 패턴 등 다양한 라이프로그를 실시간으로 측정 및 수집할 수 있다.

인공지능 기술의 발전은 다양한 분야에서 혁신을 가져왔다. 특히 헬스케어 분야에서는 인공지능 기술을 활용하여 신체에서 수집되는 빅데이터를 분석함으로써 질병의 조기 진단 및 예측에 도움이 되고 있다. 인공지능을 활용한 질병 예측은 알고리즘 기반의 진단 방법에 비해 정확도가 높을 뿐만 아니라 시간과 비용 측면에서 절감할 수 있다[3]. LSTM(Long Short-Term Memory) 모델과 같은 딥러닝은 시계열 데이터를 분석하기 위해 설계되었으며, 이를 통해 높은 정확도를 가진 질병 예측을 수행할 수 있다[4].

치매 환자 수 증가와 함께 치매를 예측하고 관리하기 위한 디지털 헬스케어 연구의 필요성은 더욱 강조되고 있다. 웨어러블 기기와 인공지능 기술을 활용한 디지털 헬스케어는 치매의 조기 진단과 예방, 그리고 환자의 삶의 질을 향상시키는 데 중요한 역할을 할 수 있다[5][6].

그러나 기존의 치매 예측 연구는 주로 뇌파 데이터나, 뇌 영상 데이터를 활용한 방식을 사용하였으며 웨어러블 디바이스에서 수집된 데이터를 대상으로한 연구는 많지 않았다[7]. 또한, 연구에 활용된 데이터셋은 해외에서 주로 수집되었기에 한국인의 생활 패턴에 특화된 데이터셋을 활용한 연구는 많지 않았다. 국내에서 연구용으로 공개된 데이터셋은 AI-Hub의 라이프로그 데이터셋이 있다[8].

본 연구에서는 이러한 기존 연구의 한계를 보완하고자 한국인 치매 환자 및 일반인을 대상으로 웨어러블 기기를 착용하게 하여 데이터를 수집하고 딥러닝에 적용하기 위해 전처리 하였다. 또한, discrete과 continuous 변수를 통합한 데이터를 딥러닝에 전달하여 치매 환자를 예측하는 모델을 제시한다. 특히, 딥러닝 기반의 LSTM 뿐만 아니라 머신러닝 기반의 랜덤 포레스트(Random forest) 및 LGBM(Light Gradient Boosting Machine)을 활용하여 각 모델의 예측 성능을 비교분석 하고자 한다. 본 논문의 구성은 다음과 같다. 2장에서는 웨어러블 기기를 활용한 선행연구 및 디지털 헬스케어 데이터를 인공지능 기술과 결합한 연구 동향을 소개한다. 3장에서는 인공지능 기반의 치매 진행 단계 예측 방법론을 제시하며, 4장에서는 본 연구에서 제시된 모델을 통해 예측 결과를 도출한다. 마지막으로 5장에서는 분석 결과를 토대로 연구의 결론을 기술하고 연구의 한계점과 향후 연구에 대해 언급한다.


Ⅱ. 관련 연구

웨어러블 기기는 디지털 헬스케어 분야에서 핵심적인 역할을 하고 있다. 다양한 연구에서 웨어러블 기기를 활용하여 만성 질환 관리, 질병 진단 및 치료, 건강 및 안전 모니터링, 재활 등의 분야에 필요한 데이터를 수집하고 분석 모델을 활용하여 유의미한 결과를 얻고 있다[9]. 다양한 센서를 활용하여 사용자의 신체 활동을 모니터링하고, 이를 통해 건강 상태를 평가하는 연구들이 있다[10].

E. Teixeira et al.[11]는 웨어러블 기기를 통해 노인의 신체 활동 및 건강 상태를 모니터링하였다. 또한, 웨어러블 기기를 활용하여 노인의 활동 수준을 정밀하게 측정하고 맞춤형 건강 관리 솔루션을 제공할 수 있음을 밝혔다. 또한, 수집된 데이터는 노인의 건강 상태를 지속적으로 모니터링하고 조기 이상 징후를 발견하는 데 중요한 역할을 할 수 있음을 보여주었다. T. G. Stavropoulos et al.[12]은 웨어러블 기기를 활용하여 알츠하이머 환자의 상태를 평가하는 연구를 수행했다. 웨어러블 기기를 통해 환자의 일상생활 속 활동을 모니터링하고, 이를 통해 질병의 진행 상태를 평가하며, 맞춤형 치료 계획을 수립하는 데 중점을 두었다. 웨어러블 기기를 활용한 모니터링 시스템은 환자의 상태를 실시간으로 추적하여 의료진이 빠르게 반응하고 적절한 치료를 제공하는 데 중요한 도구임을 확인하였다. 또한, 웨어러블 기기를 통해 수집된 데이터는 환자의 일상생활에서 발생하는 작은 변화도 감지할 수 있어, 조기에 문제를 발견하고 예방 조치를 취하는 데 유용하게 사용될 수 있음을 보여주었다. 따라서, 향후 정교한 알고리즘과 데이터 분석 기술을 결합하여 환자의 상태를 더욱 정확하게 평가하고 맞춤형 치료를 제공할 수 있는 연구가 필요함을 시사하고 있다.

최근 연구에서는 멀티오믹스 데이터를 활용하여 알츠하이머 질병 예측을 위한 딥러닝 모델이 개발되었다. J. Ha et al.[13]는 유전자 발현 데이터와 질병 특징 벡터를 결합하여 알츠하이머 질병 예측 모델을 제안하였으며, 실험 결과에서 기존의 연구보다 성능향상이 있음을 확인하였다. 이러한 연구는 웨어러블 기기에서 수집된 다양한 생체 데이터를 분석하는 데 있어 중요한 참고자료가 될 수 있으며, 특히 다양한 데이터를 통합하면 단일 데이터를 사용할때보다 정확한 예측을 가능하게 한다는 점에서 큰 의의가 있다.

B. Dai et al.[14]은 유방암 진단에서 Random Forest 알고리즘을 사용하는 연구를 수행하였다. 그 결과, Random Forest 알고리즘을 활용하였을 때 유방암 진단에서 95% 이상의 예측 정확도를 달성할 수 있었으며, 이는 기존의 단일 알고리즘보다 월등히 높은 성능을 나타내었다. 이를 통해 다양한 병리학적 요인을 결합하여 진단 결과를 예측함으로써 의료 진단의 정확성을 높이는 데 기여할 수 있음을 강조하였다. Saylam, B., and Incel, O. D.는 웨어러블 기기를 활용하여 스트레스, 불안, 우울증 등의 정신 건강 상태를 예측하기 위해 XGBoost, Random Forest, LSTM 알고리즘을 비교하였으며, 각 알고리즘의 성능을 평가하였다[15]. 이 연구는 웨어러블 기기로부터 수집된 심박수 변동성 데이터를 사용하였다. 심박수 변동성 데이터는 스트레스, 불안, 우울증 등의 정신 건강 상태를 반영할 수 있는 중요한 생리학적 지표이다. 연구 결과, XGBoost 알고리즘은 비선형적 관계와 상호작용을 잘 모델링하여 높은 AUC 값을 나타내었고, 스트레스, 불안, 우울증 예측에서 뛰어난 성능을 나타냈다. 또한, Random Forest 알고리즘도 높은 예측 정확도를 보였으나 XGBoost보다는 다소 낮은 성능을 나타냈다. LSTM 알고리즘은 시계열 데이터를 분석하는 데 우수한 성능을 보였으며, 스트레스, 불안, 우울증 예측에서 XGBoost와 유사한 성능을 보였다. 웨어러블 기기를 활용한 연구를 분석한 결과 대부분의 연구에서 웨어러블 기기는 다양한 헬스케어 분야에 혁신적인 해결책을 제공하고 있으며, 인공지능과 라이프로그 데이터를 결합하여 질병을 진단 및 예측할 수 있음을 확인할 수 있었다.


Ⅲ. 라이프로그 데이터를 활용한 치매 예측 모델

3.1 치매 예측 모델 개요

그림 1에서 보는 바와 같이, 본 연구는 웨어러블 기기를 통해 수집된 라이프로그 데이터를 바탕으로 치매와 관련된 위험 요인을 식별하고 치매 진행 단계를 예측하는 모델을 제안한다. 연구에 사용한 데이터는 AI-Hub의 치매 고위험군 웨어러블 라이프로그를 사용한다[8]. 또한, 여러 알고리즘을 결합한 앙상블 모델과 시계열 데이터를 활용한 LSTM 모델을 사용하여 치매 단계를 예측 및 알고리즘 간의 성능을 비교한다.

Fig. 1.

Process flow chart of the proposed method

앙상블 모델은 여러 머신러닝 알고리즘을 결합한다. 앙상블 모델에서는 Random Forest, LGBM, XGBoost, Logistic Regression을 사용하여 각 모델의 예측 결과를 비교한 후 최적의 두 모델을 결합한다. 본 연구에서 제안하는 LSTM 모델은 일주일 치의 연속형 데이터와 비연속형 데이터를 둘 다 사용하여 치매를 예측한다. 수면과 활동 데이터를 개별적인 데이터로 딥러닝 모델의 입력데이터로 전달하는 것이 아니라 두 데이터를 통합하여 딥러닝 모델에 전달하여 예측한다. 이러한 방법은 짧은 기간의 데이터로도 기존의 방법과 비교하여 정확한 예측이 가능하다.

3.2 데이터셋

본 연구에서는 AI-Hub의 치매 고위험군 웨어러블 라이프로그 데이터를 사용하였다. 이 데이터는 AI 모델을 통한 라이프로그 빅데이터 구축 및 인공지능 기반의 치매 예측 모델을 개발하고자 검증된 학습용 데이터를 구축하기 위한 용도로, 전문의의 병리진단을 통해 55세 이상의 정상인지군과 치매 환자 총 300명으로부터 수집되었다. 반지 형태의 웨어러블 기기를 착용하여 사용자의 수면과 활동 데이터를 5분 단위로 측정하였다. 활동 데이터는 하루 간 5분당 MET (Metabolic Equivalent of Task) 로그, 하루 간 5분당 활동 로그, 저강도 활동 시간, 중강도 활동 시간, 고강도 활동 시간 등 28개의 특성으로 구성되어 있다. 수면 데이터는 5분당 심박동 로그, 수면 상태 로그, 5분당 심박동 변동 로그, 분당 평균 호흡수, 뒤척임 비율 등 32개의 특성으로 구성되어 있다. 전체 데이터의 개수는 총 9,705이다.

전체 라이프로그 데이터를 생성하기 위해 수면과 활동 데이터의 측정 시점을 조정하여, 연속성을 유지하면서 두 데이터를 효과적으로 통합하고자 하였다. 이를 위해 활동 데이터의 측정 시점과 수면 데이터의 측정 시점을 비교하였다.

예를 들어, 사용자 A의 활동 데이터는 2020년 10월 19일 04:00:00에 측정이 시작되어 2020년 10월 20일 03:59:59에 측정이 종료된다. 반면 수면 데이터는 2020년 10월 18일 18:38:28에 측정이 시작되어 2020년 10월 19일 05:10:28에 측정이 종료되고, 다시 2020년 10월 19일 21:39:52에 측정이 시작된다. 그림 2는 시간대별 활동과 수면 데이터의 측정 과정을 타임라인으로 나타냈다. 그림 2에서 보는 바와 같이, 수면 동안에는 활동할 수 없으므로 활동 데이터가 측정되지 않기 때문에 수면 시간이 종료되는 날을 기준으로 데이터 결합했다.

Fig. 2.

Integrated timeline of sleep and activity data

결합된 데이터는 데이터 전처리를 통해 수면과 활동 데이터를 딥러닝 모델에 적합한 데이터로 변환하였다. 먼저, 다른 로그 데이터들은 5분 단위로 측정되어 있는 반면 activity_met_1min 데이터는 유일하게 1분 단위로 측정된 것을 확인하였다. 그리하여 동일한 시간 단위로 맞추기 위해 1분 단위 데이터를 5분 간격으로 데이터를 변환했다. 또한, 데이터 개수를 동일하게 맞추기 위해 패딩을 적용하였다. 추가한 패딩의 값은 '-1'로 설정했다. 식 (1)에서 보는 바와 같이 리스트별 요소의 길이를 표준화하고자 24시간 동안 수집된 데이터를 5분 단위로 나누어 각 요소의 길이를 288로 맞추기로 하였다.

24Hours*60Minutes/5Units=288Day / Units(1) 

수면과 활동 데이터는 연속형과 비연속형 데이터로 구성되어 있다. 비연속형 데이터는 일단위 데이터를 의미하며, 여러 개의 특징 데이터를 전처리를 수행하여 얻은 데이터다. 연속형 데이터는 5분 단위로 수집한 데이터를 의미한다. 연속형 데이터의 전처리 는 전체 데이터 전처리 과정과 동일하게 진행되었다. 먼저, 활동 데이터는 5분 단위로 수집된 활동 로그 데이터를 포함하고 있으며, 특히 MET 값과 활동 수준에 대한 데이터를 다루고 있다. Activity_met_5min 데이터는 5분 단위의 MET를 의미한다.

활동 강도의 경우, 3미만은 낮은 강도, 3이상 6미만은 중간 강도 6이상은 높은 강도를 의미한다. Activity_class_5min 데이터는 0~5 사이의 활동 수준으로 표현하며, 표 1과 같은 활동 로그 수준을 가지고 있다. 다음으로 수면 데이터는 5분 단위로 수집된 수면 로그 데이터를 포함하고 있으며, 특히 심박동 값과 수면 상태에 대한 데이터를 다루고 있다.

Annotation of activity_class_5min

sleep_hr_5min 데이터는 수면 중 5분 간격으로 측정한 심박수를 의미하고, sleep_rmssd_5min 데이터는 5분 간격으로 측정한 심박동변동 (HRV) 값을 의미한다. 또한, sleep_ hypnogram_5min 데이터는 수면 상태를 5분 간격으로 측정한 값이며, 그 값은 표 2에서 보는 바와 같이 1~4까지의 숫자로 표현한다.

Annotation of sleep_hypnogram_5min

3.3 치매 예측 모델 알고리즘

Random Forest 모델은 여러 개의 결정 트리를 무작위로 생성하여 앙상블 기법을 통해 예측 성능을 향상시키는 알고리즘이다. 학습 과정은 크게 세 가지 단계로 진행된다. 첫 번째 단계는 데이터 샘플링으로, 원본 데이터셋에서 무작위로 여러 개의 샘플을 생성한다. 이때 각 샘플은 부트스트랩 기법을 통해 생성되며, 원본 데이터셋에서 중복을 허용하여 샘플을 선택한다. 두 번째 단계는 트리 생성이다. 이 단계에서는 각 샘플에서 일부 특징을 무작위로 선택하여 결정 트리를 생성한다. 선택된 특징들은 각 트리의 분기 기준으로 사용되며, 이를 통해 트리 간의 상관성을 낮추고 모델의 다양성을 높인다. 마지막 단계는 모든 트리의 예측 결과를 종합하여 최종 예측값을 도출한다.

LGBM은 Gradient Boosting 알고리즘의 일종으로, 트리 기반 학습을 통해 보다 높은 성능으로 예측하는 알고리즘이다. LGBM은 트리의 깊이를 줄이고 수평으로 확장하는 방식으로 비대칭적인 트리를 생성하여 데이터 처리 속도를 높이고 메모리 사용량을 줄이는 데 중점을 둔다. LGBM의 학습 과정은 다섯 단계로 나뉘며, 초기 모델 생성, 잔차 계산, 새로운 트리 학습, 모델 업데이트, 그리고 반복 단계를 포함한다. 초기 모델 생성 단계에서는 초기 단순 모델을 생성하여 기본 예측을 시작하며, 이후 잔차 계산 단계에서는 현재 모델의 예측값과 실제값의 차이인 잔차를 계산한다. 새로운 트리 학습 단계에서는 잔차를 줄이기 위해 새로운 트리를 학습하고, 모델 업데이트 단계에서는 학습된 트리를 기존 모델에 추가하여 업데이트한다. 마지막 반복 단계에서는 원하는 정확도에 도달할 때까지 이 과정을 반복한다. 본 연구에서는 단일 모델보다 더 나은 예측 성능을 얻고자 Random Forest와 LGBM 모델을 앙상블하여 최종 예측 성능을 향상시켰다. 이를 위해, 각 모델의 하이퍼파라미터를 Random Search를 통해 최적화하였다.

Random Forest 모델의 경우, max_depth와 클래스 불균형을 처리하기 위한 class_weight을 주요 하이퍼파라미터로 설정하였다. max_depth는 1~20까지의 값으로 설정되었으며, class_weight는 클래스 0에 대해 1, 클래스 1에 대해 1~30까지의 가중치를 무작위로 할당하여 최적의 조합을 찾았다.

LGBM 모델에서는 max_depth, learning_rate, num_leaves, 그리고 class_weight을 하이퍼파라미터로 사용하였다. max_depth는 3~15까지의 값으로 설정되었으며, learning_rate은 0.01~0.3까지의 범위에서 탐색되었다. num_leaves는 20~150까지 설정되었으며, 클래스 불균형 처리를 위해 클래스 0에 대해 1, 클래스 1에 대해 10, 20의 가중치가 사용되었다.

Random Forest와 LGBM은 트리 기반 모델로서 시계열 데이터의 시간적 연속성을 직접적으로 처리하지 못하는 특성을 가지고 있다. 이에 따라, activity 비연속형 데이터와 sleep 비연속형 데이터를 각각 입력으로 사용하였다.

이와 같이, 본 연구에서는 각 모델에 적합한 하이퍼파라미터 범위를 설정하고 Random Search을 통해 최적의 하이퍼파라미터를 찾음으로써 앙상블 모델의 예측 성능을 극대화하였다.

LSTM은 순환 신경망(RNN, Recurrent Neural Networks)의 한 종류로, 장기 의존성을 학습하기 위해 개발된 모델이다. 그림 3에서 보는 바와 같이, LSTM은 기억 셀을 통해 이전 정보를 오랫동안 유지할 수 있어 시계열 데이터나 순차 데이터 처리에 강점을 가진다. LSTM은 긴 시퀀스 데이터를 처리할 수 있는 능력이 있으며, 과거 정보를 장기간 유지할 수 있다.

Fig. 3.

Processing of LSTM network

학습 과정은 입력 게이트, 망각 게이트, 출력 게이트, 메모리 셀 업데이트, 출력 계산의 다섯 단계로 이루어진다. 입력 게이트는 현재 입력 정보가 얼마나 중요한지를 결정하고, 망각 게이트는 이전 기억을 얼마나 잊을지를 결정한다.

출력 게이트는 다음 상태로 어떤 정보를 전달할지를 결정하며, 메모리 셀 업데이트 단계에서는 입력 게이트와 망각 게이트를 통해 메모리 셀 상태를 업데이트한다. 마지막으로 출력 계산 단계는 출력 게이트를 통해 최종 값을 계산한다.

본 연구에서는 수면과 활동 연속형 데이터를 사용하여 치매 진행 단계를 예측하기 위해 LSTM 알고리즘을 적용하였다. 학습에 앞서, 데이터를 MinMax Scaler를 통해 정규화하고 일주일 데이터를 묶는 시퀀스 작업을 수행했다. 데이터셋은 70%를 학습 데이터로, 나머지 30%를 테스트 데이터로 설정하여 실험을 진행하였다. LSTM 모델은 입력층, 두 개의 은닉층, 드롭아웃층, 출력층으로 구성하였다. 입력층에서는 시퀀스 길이와 변수 개수를 입력으로 받아들인다. 첫 번째 LSTM 은닉층은 32개의 유닛을 가지며 두 번째 LSTM 은닉층은 16개의 유닛을 가진다. 각 은닉층 뒤에는 드롭아웃층을 추가하여 과적합을 방지하고 모델의 성능을 높였다. 출력층에서는 이진 분류를 위해 시그모이드 활성화 함수를 사용하였다. 모델 학습을 위해 Adam과 이진 교차 엔트로피 손실 함수를 사용했다. 조기 종료 기법을 통해 학습 과정에서 5 에포크 동안 성능이 개선되지 않으면 학습을 중단했다.


Ⅳ. 치매 예측 결과

4.1 모델 성능 비교

표 3에서 보는 바와 같이, 각 모델의 성능을 비교한 결과 LSTM 모델이 치매 환자를 가장 정확하게 분류했다. Bi-directional LSTM 모델도 비교적 높은 성능을 보였으나, 본 연구에서 제안하는 LSTM 모델이 92.72% 정확도로 치매 예측 성능이 가장 우수하게 나타났다.

Summary of accuracy for network model

4.2 논의

본 연구에서는 모델 예측 성능에 가장 큰 영향을 미치는 변수들을 찾아 각 변수의 상대적인 중요성을 파악하고, 예측 모델의 해석 가능성을 높이는 데 중점을 두고자 변수 중요도 분석을 진행하였다. 모델의 예측 성능에 대한 변수 중요도를 평가하기 위해 permutation feature importance 기법을 적용하였다. 이 기법은 각 변수를 무작위로 섞어 모델 성능의 변화를 측정함으로써 해당 변수가 모델 예측에 얼마나 중요한지를 평가한다.

분석 결과는 그림 4에서 보는 바와 같이 'sleep_score_rem', 'sleep_deep', 'activity_score_training_frequency' 등의 변수들이 모델 예측에 중요한 영향을 미치는 것으로 나타났다. 특히, 'sleep_score_rem' 변수는 예측 성능에 가장 큰 기여를 한 것으로 분석되었다. 이는 수면의 REM 단계가 치매 고위험군 식별에 중요한 역할을 한다는 것을 의미한다.

Fig. 4.

Top 20 Feature importances to predict the dementia

또한, 'activity_score_training_frequency', 'activity_inactivity_alerts' 등 활동과 관련된 변수도 치매 예측에 중요한 변수로 나타났다. 이는 수면 패턴 뿐만 아니라 활동 변수가 정확도를 향상시키는데 중요한 역할을 한 것으로 볼 수 있다. 본 연구의 결과와 연관지어 보면, LSTM 모델에서 sleep 데이터만 사용한 것보다 activity와 sleep을 동시에 사용한 데이터가 더 좋은 결과로 증명되었다고 볼 수 있다.

본 연구에서 사용한 LSTM 모델은 다른 모델들보다 우수한 성능을 보였다. Ensemble 모델은 수면과 활동 비연속형 데이터 각각 모델에 적용하는 방식을 사용하였으며, AI-Hub의 Bi-directional LSTM 모델은 수면 및 활동 연속형 데이터만을 활용하여 예측을 수행하였다. 하지만, 이는 모델의 학습에 필요한 충분한 데이터를 제공하지 못하며, Ensemble 모델의 경우 비연속형 데이터만을 다루기 때문에 데이터의 시간적 패턴을 반영하지 못하는 한계가 있다. 반면, 본 연구의 LSTM 모델은 비연속형과 연속형 데이터를 통합한 데이터셋을 사용하였다. 이를 통해 데이터의 다양성을 확보함으로써 복잡한 시계열 데이터의 패턴을 학습할 수 있어, 단일 데이터를 사용한 모델보다 예측 성능을 크게 향상시킬 수 있었다.


Ⅴ. 결론 및 향후 과제

본 연구에서는 웨어러블 기기로부터 수집된 라이프로그 데이터를 기반으로 치매 진행 단계를 예측하는 모델을 개발하였다. 다양한 데이터 전처리와 머신러닝 알고리즘을 활용하여 수면과 활동 데이터를 분석하였고, 이를 통해 치매 환자를 효과적으로 예측할 수 있는 시스템을 제안하였다. 연구 결과, LSTM 모델이 Ensemble 모델보다 치매 환자를 더 정확하게 분류하는 것으로 나타났다. LSTM 모델은 다양한 시계열 데이터의 패턴을 학습하여 높은 예측 성능을 보였다. 특히, 본 연구는 AI-Hub에서 제공한 Bi- directional LSTM 모델보다 약 13% 향상된 성능을 보였으며, 이는 치매의 조기 진단과 관리에 큰 기여를 할 수 있음을 시사한다. LSTM 모델을 통해 치매의 초기 징후를 발견함으로써 시기 적절한 치료 계획을 수립하고, 치매의 중증화를 늦출 수 있는 가능성을 제시하였다. 또한, 지속적인 모니터링을 통해 증상을 조기에 감지하고, 필요한 의료 조치를 신속하게 취함으로써 치매 관리의 효율성을 높일 수 있을 것으로 기대된다.

향후 연구에서는 다양한 변수와 데이터를 통합하여 예측 모델의 정확도를 더욱 향상시키고, 실제 임상 환경에서의 적용 가능성을 검증하는 데 중점을 둘 필요가 있다.

Acknowledgments

이 논문은 2022년도 강릉원주대학교 신임교원 연구비 지원에 의하여 연구되었음

References

  • M. Padeiro, P. Santana, and M. Grant, "Global Aging and Health Determinants in a Changing World", Aging, pp. 3-30, 2023. [https://doi.org/10.1016/B978-0-12-823761-8.00021-5]
  • National Dementia Center (NDC), Korean Dementia observatory, NMC-2022-0031-10, Apr. 2022. [accessed: Aug. 06, 2024]
  • M. Mirbabaie, S. Stieglitz, and N. R. Frick, "Artificial intelligence in disease diagnostics: A critical review and classification on the current state of research guiding future direction", Health and Technology, Vol. 11, No. 4, pp. 693-731, May 2023. [https://doi.org/10.1007/s12553-021-00555-5]
  • Y. Kumar, A. Koul, R. Singla, and M. F. Ijaz, "Artificial intelligence in disease diagnosis: a systematic literature review, synthesizing framework and future research agenda", Journal of ambient intelligence and humanized computing, Vol. 14, No. 7, pp. 8459-8486, Jan. 2023. [https://doi.org/10.1007/s12652-021-03612-z]
  • C. Xue, S. S. Kowshik, D. Lteif, S. Puducheri, V. H. Jasodanand, O. T. Zhou, and V. B. Kolachalama, "AI-based differential diagnosis of dementia etiologies on multimodal data", Nature Medicine, 1-13, Jul. 2024. [https://doi.org/10.1038/s41591-024-03118-z]
  • V. S. Diogo, H. A. Ferreira, and D. Prata, "Early diagnosis of Alzheimer’s disease using machine learning: a multi-diagnostic, generalizable approach", Alzheimer's Research & Therapy, Vol. 14, No. 1, pp. 107, Aug. 2022. [https://doi.org/10.1186/s13195-022-01047-y]
  • J. Kim and J. Lim, "A deep neural network-based method for prediction of dementia using big data", International Journal of Environmental Research and Public Health, Vol. 18, No. 10, pp. 5386, May 2021. [https://doi.org/10.3390/ijerph18105386]
  • AI-Hub, Wearable Lifelog for High-Risk Dementia Groups, https://aihub.or.kr/aidata/30749, [accessed: Jun. 01, 2023]
  • L. Lu, J. Zhang, Y. Xie, F. Gao, S. Xu, X. Wu, and Z. Ye, "Wearable health devices in health care: narrative systematic review", JMIR mHealth and uHealth, Vol. 8, No. 11, pp. e18907, Sep. 2020. [https://doi.org/10.2196/18907]
  • M. Javeed, A. Jalal, and K. Kim, "Wearable sensors based exertion recognition using statistical features and random forest for physical healthcare monitoring", In 2021 International Bhurban Conference on Applied Sciences and Technologies, Islamabad, Pakistan, pp. 512-517, Jan. 2021. [https://doi.org/10.1109/IBCAST51254.2021.9393014]
  • E. Teixeira, et al., "Wearable devices for physical activity and healthcare monitoring in elderly people: A critical review", Geriatrics, Vol. 6, No. 2, pp. 38, Apr. 2021. [https://doi.org/10.3390/geriatrics6020038]
  • T. G. Stavropoulos, et al., "Wearable devices for assessing function in Alzheimer's disease: a European public involvement activity about the features and preferences of patients and caregivers", Frontiers in Aging Neuroscience, Vol. 13, pp. 643135, Apr. 2021. [https://doi.org/10.3389/fnagi.2021.643135]
  • J. Ha, K. Kong, and D. Park, "Deep Learning Framework for Predicting Alzheimer's Disease using Multi-omics Data", Journal of KIIT, Vol. 20, No. 7, pp. 29-37, Jul. 2022. [https://doi.org/10.14801/jkiit.2022.20.7.29]
  • B. Dai, R. C. Chen, S. Z. Zhu, and W. W. Zhang, "Using random forest algorithm for breast cancer diagnosis", In 2018 International symposium on computer, consumer and control, Taichung, Taiwan, pp. 449-452, Dec. 2018. [https://doi.org/10.1109/IS3C.2018.00119]
  • B. Saylam and Ö. D. İncel, "Multitask Learning for Mental Health: Depression", Anxiety, Stress (DAS) Using Wearables. Diagnostics, Vol. 14, No. 5, pp. 501, Feb. 2024. [https://doi.org/10.3390/diagnostics14050501]
저자소개
김 지 희 (Jihee Kim)

2023년 2월 : 강릉원주대학교 식품가공유통학과(이학사), 헬스케어데이터사이언스융합전공(미래융합학사)

2023년 3월 ~ 현재 : 강릉원주대학교 산업공학과 석사과정

관심분야 : 머신러닝, 인공지능, 디지털헬스케어

이 진 원 (Jinwon Lee)

2012년 2월 : 아주대학교 산업정보시스템공학과(공학사)

2014년 2월 : 아주대학교 산업공학과(공학석사)

2019년 8월 : 아주대학교 산업공학과(공학박사)

2022년 9월 ~ 현재 : 강릉원주대학교 산업경영공학과 교수

관심분야 : 인공지능, 3D 딥러닝, 스마트팩토리, 디지털헬스케어

Fig. 1.

Fig. 1.
Process flow chart of the proposed method

Fig. 2.

Fig. 2.
Integrated timeline of sleep and activity data

Fig. 3.

Fig. 3.
Processing of LSTM network

Fig. 4.

Fig. 4.
Top 20 Feature importances to predict the dementia

Table 1.

Annotation of activity_class_5min

Level Description
0 Not worn
1 Rest
2 Inactivity
3 Low-intensity activity
4 Moderate-intensity activity
5 High-intensity activity

Table 2.

Annotation of sleep_hypnogram_5min

Level Description
1 Deep sleep
2 Light sleep
3 REM sleep
4 Awake

Table 3.

Summary of accuracy for network model

Dataset Networks Accuracy(%)
Discrete Ensemble 69.47
Ensemble 74.52
Continuous Bi-directional LSTM 80.85
LSTM (ours) 74.59
LSTM (ours) 91.29
Discrete&Continuous LSTM (ours) 92.72