Korean Institute of Information Technology
[ Article ]
The Journal of Korean Institute of Information Technology - Vol. 21, No. 1, pp.101-108
ISSN: 1598-8619 (Print) 2093-7571 (Online)
Print publication date 31 Jan 2023
Received 13 Dec 2022 Revised 28 Dec 2022 Accepted 31 Dec 2022
DOI: https://doi.org/10.14801/jkiit.2023.21.1.101

사용자 인식을 위한 스펙트로그램 기반 설명 가능한 심전도 분석에 관한 연구

김민구* ; 정재효**
*조선대학교 IT연구소 연구교수
**조선대학교 인공지능헬스케어연구센터(교신저자)
A Study on Spectrogram based Explainable ECG Analysis for User Recognition
Min-Gu Kim* ; Jae hyo Jung**

Correspondence to: Jae hyo Jung AI Healthcare Research Center, Chosun University, Gwangju 61452, Korea Tel.: +82-62-230-7855, Email: jh.jung@chosun.ac.kr

초록

최근 심전도와 같은 생체신호 기반 사용자 인식 방법은 차세대 사용자 인식 방법으로 연구되고 있다. 그러나 심전도 신호는 행동적 특징에 의해 발생하는 신호로 외부 환경으로 인해 잡음이 발생한다. 또한, 높은 정확도를 나타내는 딥러닝 모델은 복잡한 연산과정으로 인해 블랙박스 문제점이 있다. 본 논문에서는 1차원 심전도 신호를 2차원 스펙트로그램으로 변환하여 딥러닝 모델에 적용하였다. 딥러닝 모델에서 출력된 인식 성능을 분석하기 위해 설명 가능한 인공지능 모델인 Grad-CAM알고리즘에 적용하여 성능 결과에 영향을 미치는 영역을 시각화하였다. 실험결과, 딥러닝 모델에서 출력된 인식 성능은 93.2%를 나타냈으며, 성능 결과에 영향을 미치는 영역을 Heatmap으로 나타내 딥러닝 모델의 분석 및 입증 가능성을 확인하였다.

Abstract

Recently, bio-signal based user recognition methods such as ECG are being studied as next generation user recognition methods. However, deep learning models showing high accuracy have a black box problem due to a complex computation process. In this paper, 1D ECG signals are converted into 2D spectrogram images and applied to deep learning models. To analyze the recognition performance from the deep learning model, the Grad-CAM algorithm, an explainable artificial intelligence model, was applied to visualize the areas that affect performance results. As a result of the experiment, the recognition performance output from the deep learning model was 93.2%, and the area influencing the performance result was shown as a heatmap, confirming the possibility of analysis and verification of the deep learning model.

Keywords:

electrocardiogram, spectrogram, user recognition, explainable artificial intelligence

Ⅰ. 서 론

최근 딥러닝 모델 기반 사용자 인식 기술에 심전도, 뇌전도, 근전도와 같은 생체신호를 이용한 연구가 활발히 진행되고 있다[1]. 특히, 심전도 신호는 그림 1과 같이 심장의 위치, 크기, 구조, 나이, 성별 등의 요인들에 따라 개인별 고유 특성의 신호를 사용하여 거부감이 적고, 시간이 지나도 신호의 파형이 크게 변하지 않는 특징이 있다[2][3].

Fig. 1.

Example of division by period of ECG signal

그러나 심전도 신호는 사용자의 행동적 특징에 의해 발생하는 전기적 신호로 외부 환경으로 인해 잡음이 발생한다. 또한, 높은 인식 및 분류 성능을 나타내는 딥러닝 모델은 복잡한 연산 과정으로 인해 블랙박스 문제점이 있다. 블랙박스 문제점은 딥러닝 모델의 의사결정 및 결과 도출에 대한 근거 확인이 어려워 사용자로부터 강한 신뢰성을 얻기 어렵다. 이러한 문제를 해결하기 위해 딥러닝 모델에 설명 가능한 인공지능을 활용할 경우, 전문적인 지식과 상관없이 결과에 영향을 미치는 영역과 원인을 분석할 수 있다[4]. 따라서 본 논문에서는 단일주기로 분할한 1차원 심전도 신호를 사용자 인식 성능 향상을 위해 2차원 스펙트로그램 영상으로 변환한 후, 딥러닝 모델에 적용하여 사용자 인식 성능을 확인하였다. 이후, 사용자 인식 성능 결과에 영향을 미치는 영역을 확인하고 시각화하기 위해 설명 가능한 인공지능 모델에 적용하였다. 이를 통해 딥러닝 모델의 성능 결과에 대해 분석하고, 의사결정에 대한 신뢰성을 확보하였다.

논문의 구성은 2장에서 설명 가능한 인공지능에 대해 분석한다. 3장에서는 사용자 인식을 위한 스펙트로그램 변환 및 딥러닝 기반 설명 가능한 인공지능에 대해 설명하고, 4장에서 실험 결과에 대해 분석한다. 끝으로 5장에서 결론 및 향후 연구에 대해 설명한다.


Ⅱ. 설명 가능한 인공지능에 대한 관련 연구

딥러닝 모델은 높은 인식 및 분류 성능을 나타내지만, 복잡하고 많은 연산 과정으로 인해 사용자로부터 의사결정 및 결과 도출에 강한 신뢰성을 얻기 어렵다. 따라서 이러한 문제점을 해결하기 위해 설명 가능한 인공지능에 대해 연구되고 있다[5]. 설명 가능한 인공지능의 대표적인 방법에는 LRP(Layer-wise Relevance Propagation), LIME(Local Interpretable Model Agnostic Explanations), CAM(Class Activation Mapping), Grad-CAM(Gradient-weighted Class Activation Mapping) 등이 있다.

Fig. 2.

Flow chart for the LRP algorithm

LRP는 딥러닝 모델에서 예측 결과를 역추적하여 신경망의 각 계층별 기여도를 측정할 수 있는 방법이다. 이는 딥러닝 모델에서 어떤 부분이 해당 출력에 영향을 주는지 Heatmap 형태로 시각화 표현이 가능하다[6]. LIME은 딥러닝 모델의 결과 데이터가 어느 영역을 근거로 출력했는지를 설명하는 방법이다. 즉, 전역적인 분석이 어려운 복잡한 입력 데이터를 인식 단위로 분할하여 각각의 영역 데이터를 분석한다. 따라서 딥러닝 모델의 분석이 아닌 각각 분할된 데이터의 결과값 차이를 확인하며 크게 변화하는 영역을 찾는다[7].

Fig. 3.

Data analysis using LIME

CAM은 이미지 분류 및 인식 모델에서 입력 데이터의 어떤 영역이 결과값에 영향을 주었는지를 시각화하는 방법이다. CAM은 기존의 Convolution Neural Network에서 사용하는 Fully-connected layer 대신 GAP(Global Average Pooling)를 적용하여 딥러닝 모델을 설계한다. GAP는 합성곱 계층에서 분류하려는 클래스 수와 동일한 채널의 수를 갖게 한 후 각 채널을 기준으로 평균 합을 연산한다. 각각의 값은 클래스에 대응하는 값을 의미하며 가장 큰 값을 가지는 부분으로 분류 및 예측을 시각화한다[8].

Fig. 4.

Flow chart for the CAM algorithm

끝으로 Grad-CAM은 CAM의 단점을 보완한 모델로 각 합성곱 계층의 기울기(Gradient)를 사용하여 결과에 영향을 미치는 영역을 시각화한다. 기존의 CAM은 GAP가 반드시 포함되어야 하기 떄문에 GAP를 사용하지 않은 딥러닝 모델에 적용하는 것이 제한된다. 이러한 문제를 해결하기 위해 Grad-CAM은 GAP가 없는 모델에도 적용할 수 있도록 기울기를 사용한다. 따라서 Grad-CAM은 합성곱 계층에 제한 없이 모든 계층에 적용이 가능하다는 장점이 있다[9].

Fig. 5.

Flow chart for the Grad-CAM algorithm


Ⅲ. 사용자 인식을 위한 딥러닝 기반 설명 가능한 인공지능

본 논문에서 1차원 심전도 신호를 2차원 스펙트로그램으로 변환하기 위해 잡음제거 및 주기별 분할로 구성된 전처리 과정이 필요하다. 심전도 신호의 잡음은 주파수 필터링, R파 검출, 밴드패스 과정을 통해 잡음을 제거한다. 밴드패스 필터를 적용한 심전도 신호는 Pan&Tompkins 알고리즘을 이용하여 R파 정점을 검출하였다[10]. Pan&Tompkins 방법은 크게 전처리 과정과 적응형 이중 임계값(Threshold)를 사용한 QRS 구간 검출 방법으로 심전도 신호 관련 많은 연구들이 사용하고 있다.

Fig. 6.

Flow chart of XAI system based on deep learning for user recognition

심전도 신호를 이용한 주파수 영역 기반 특징 추출 방법은 FFT(Fast Fourier Transform), STFT(Short-Time Fourier Transform) 등이 있다. 스펙트로그램은 STFT을 이용한 시간-주파수 분석 방법으로 FFT의 문제점인 시간적인 한계에 대해 보완한 방법으로, 시간 도메인 특징보다 많은 정보를 포함하고 있어 높은 인식 성능을 나타내는 변환 방법이다[11].

그림 7은 1차원 심전도 신호를 2차원 스펙트로그램으로 변환한 영상으로 시간의 흐름에 따라 변화하는 신호에 대해 식 (1)를 통해 주파수 성분을 알 수 있다. 입력신호인 x(t)와 윈도우 함수 w(t)를 이용하여 FFT길이에 따라 스펙트로그램으로 변환을 진행하고 R은 윈도우 길이를 나타내며, w는 각 주파수, s는 스펙트로그램 값을 의미한다[12].

XR,w=-xtwt-Re-jwtdt=s(1) 
Fig. 7.

Example of 2D spectrogram transformation image

사용자 인식을 위해 설계된 딥러닝 모델은 2차원 스펙트로그램으로 변환한 이미지를 그림 8과 같이 3개의 합성곱 계층과 2개의 풀링 계층으로 구성된 딥러닝 모델에 적용하였다. 학습과정에서 과적합 문제를 해결하기 위해 합성곱 계층과 함께 배치정규화 계층을 적용하였다. 또한, 합성곱 신경망 모델에 일반적으로 사용되는 활성함수인 ReLU를 사용하였으며, 활성함수를 최소화하기 위해 경사하강법 기반 최적화 함수인 Adam을 사용하였다.

Fig. 8.

Deep learning model structure for user recognition

끝으로 딥러닝 모델에서 출력한 사용자 인식 결과를 시각화 및 분석하기 위해 설명 가능한 인공지능에 적용하였다.

LIME은 입력된 데이터의 지역적 영역이 모델의 결과 예측에 미치는 영향을 분석할 수 있지만, 영역의 임의성으로 인해 결과의 차이가 발생하는 단점이 있다. LRP는 모델 분해를 이용해 입력 데이터의 특징이 결과에 얼마나 영향을 미치는지 해석이 가능하다는 장점이 있다. 그러나 딥러닝 모델이 학습한 추상적인 개념을 알 수 없는 단점이 있다. CAM은 딥러닝 기반 모델에서 특정 클래스와 관련있는 영역을 히트맵으로 시각화할 수 있지만, GAP을 필수적으로 사용해야하기 때문에 분류모델의 성능이 낮은 단점이 있다. Grad-CAM은 GAP을 사용해야하는 문제점을 갖고 있는 CAM을 개선한 방법이다. GAP을 이용해 가중치를 구하는 방법 대신 기울기를 이용해 가중치를 구하는 방법으로 다양한 합성곱 신경망 모델에 적용이 가능하다. 또한, 마지막 합성곱 계층의 결과만 시각화가 가능한 CAM과 달리 Grad-CAM은 각 계층에서 시각화가 가능한 장점이 있다[13]. 따라서 본 논문에서 사용한 설명 가능한 인공지능 모델은 Grad-CAM을 이용하여 딥러닝 기반 사용자 인식 성능 결과에 영향을 미치는 영역을 시각화하였다.


Ⅳ. 실험결과 및 분석

실험에 사용된 심전도 데이터베이스는 남성 5명(26~45세), 여성 13명(20~50세) 총 18명으로 구성되었다. 센서위치에 따라 12가지 신호로 분류되는 심전도 신호중에 양팔에 부착하여 취득한 Lead-1 신호인 MIT-BIH Normal Sinus Rhythm 데이터베이스(NSRDB)를 이용하였다[14]. 본 논문에서는 2,000Hz의 원본 데이터를 250Hz로 다운 샘플링한 후, R파 정점을 기준으로 주기별 분할을 진행하였다. 실험에 사용된 데이터 수는 잡음제거 및 신호분할 과정을 통해 학습 데이터 4,500장, 검증 데이터 2,700장, 실험 데이터 1,800장을 사용하였다[15].

각 클래스에 대한 성능을 분석하기 위해 그림 9와 같이 혼동행렬을 이용하였다.

Fig. 9.

User recognition using confusion matrix

또한, 이를 수치적으로 확인하기 위해 TP(True Positive), TN(True Negative), FP(False Positive), FN(False Negative)을 식 (2), (3), (4), (5)를 통해 각 클래스에 대한 Precision, Recall, F1-Score 및 Accuracy를 계산하였다.

PREISION=TPTP+FP(2) 
RECALL=TPTP+FN(3) 
F1-SCORE=2×PREISION×RECALLPREISION+RECALL(4) 
ACC=Total correctly classified dataTotal number of data×100(5) 

구성된 데이터베이스는 사용자 인식을 위해 설계된 합성곱 신경망에 적용한 인식 정확도는 표 1과 같이 93.2%의 사용자 인식 성능을 나타냈다. 대부분의 클래스에서 비교적 높은 인식성능을 보였으나, 13번 클래스의 인식성능이 현저히 낮게 나타났다. 이는 심전도 신호의 취득과정에서 기저선 잡음, 근잡음으로 인한 P, QRS, T파를 확인할 수 없는 비정상 신호가 포함되어있기 때문에 인식 성능이 저하되는 것을 확인하였다.

Results for user recognition

딥러닝 기반 사용자 인식 성능 결과에 영향을 미치는 영역을 확인하기 위해 그림 10과 같이 스펙트로그램 영상을 Grad-CAM 알고리즘에 적용하여 시각화하였다. 그림 10의 (a)(c)는 동일한 0번째 클래스의 심전도 신호를 스펙트로그램으로 변환한 영상으로 (a)는 정확히 동일 클래스로 인식하였지만, (c)는 10번째 클래스로 오인식하였다.

Fig. 10.

Spectrogram and Grad-CAM visualization result

그림 10의 (b)(d)는 결과 도출에 대한 근거를 확인하기 위해 (a)와 (c)를 Grad-CAM 알고리즘을 통해 시각화한 결과이다. 동일 클래스로 정확히 인식한 (b)는 (a)에서 노란색 영역을 제외한 전체적인 영역을 통해 인식 성능에 영향을 미치는 것을 확인 할 수 있다.

그러나 (d)는 (c)에서 노란색 영역을 통해 10번째 클래스로 오인식 하였다. (e)는 10번째 클래스의 심전도 신호를 스펙트로그램으로 변환한 영상으로 (f)를 통해 10번째 클래스로 인식한 영역에 대해 확인하였다. 따라서 (d)와 (f)를 비교할 경우, 10번째 클래스로 인식한 영역에 대해 확인하였다.

끝으로 0번째 클래스를 10번째 클래스로 오인식한 결과를 분석하기 위해 그림 11과 같이 심전도 신호를 통해 확인하였다. (a)는 0번째 클래스를 0번째 클래스로 정확히 인식한 신호로 T파 이후 아래로 파형이 출력되는 특징을 확인하였다. 그러나 0번째 클래스를 10번째 클래스로 오인식한 (b)는 T파 이후 파형의 변화없이 일정한 파형이 출력되는 특징을 확인하였다. 이는 10번째 클래스를 10번째 클래스로 정확히 인식한 (c)와 유사한 파형을 나타내는 것을 확인하였다. 이는 심전도 신호 취득과정 및 사용자의 신체적·심리적 변화로 인해 파형에 차이가 발생하는 것을 확인하였다. 또한, 인식 성능 결과에 영향을 미치는 영역을 Grad-CAM 알고리즘을 통해 확인함으로써 딥러닝 모델을 이용한 실험결과의 분석 및 입증 가능성을 확인하였다.

Fig. 11.

ECG signal analysis for user recognition result


Ⅴ. 결 론

본 논문에서는 딥러닝 모델 기반 심전도 신호를 이용한 사용자 인식 성능을 분석하기 위해 설명 가능한 인공지능에 대해 연구하였다. 사용자 인식 성능 향상과 성능에 대한 영향을 미치는 영역을 시각화하기 위해 주기별 분할한 심전도 신호를 2차원 스펙트로그램으로 변환하였다. 사용자 인식 성능에 대한 결과를 Grad-CAM 알고리즘에 적용하여 인식 성능 결과에 영향을 미친 영역을 Heatmap으로 나타냄으로써 딥러닝 모델의 분석 및 입증 가능성을 확인하였다. 향후에는 고신뢰성이 요구되는 사용자 건강상태 분류 및 예측 결과에 대해 설명 가능한 인공지능을 적용하여 딥러닝 모델의 성능을 입증할 예정이다.

Acknowledgments

2020년도 정부(교육부)의 재원으로 한국연구재단(No. 2020R1I1A1A01074504)과 정보통신산업진흥원의 지원을 받아 수행된 헬스케어 AI 융합 연구개발 사업(No. S0254-22-1006)의 지원을 받아 수행된 연구임

이 논문은 2022년도 한국정보기술학회 추계종합학술대회에서 발표한 논문(2차원 스펙트로그램 기반 사용자 인식을 위한 설명 가능한 인공지능에 관한 연구)을 확장한 논문임.

References

  • I. Odinaka, P. H. Lai, A. D. Kaplan, J. A. O'Sullivan, E. J. Sirevaag, and J. W. Rohrbaugh, "ECG biometric recognition: a comparative analysis", IEEE Trans. on Information Forensics and Security, Vol. 7, No. 6, pp. 1812-1824, Aug. 2012. [https://doi.org/10.1109/TIFS.2012.2215324]
  • J. S. Kim, S. H. Kim, and S. B. Pan, "Electrocardiogram signal based personal identification performance analysis using pre-trained network model", Journal of KIIT, Vol. 18, No. 1, pp. 107-114, Jan. 2020. [https://doi.org/10.14801/jkiit.2020.18.1.107]
  • M. G. Kim and S. B. Pan, "A study on user recognition based on 1D dilated convolution using ECG signal", Journal of KIIT, Vol. 19, No. 10, pp. 99-104, Oct. 2021. [https://doi.org/10.14801/jkiit.2021.19.10.99]
  • J. H Kim, Y. S. Kim, S. J. Lee, S. Y. Ahn, J. W. Noh, J. H. Kim, and S. H. Cho, "A survey on artificial intelligence based explainable artificial intelligence", Proc. The Institute of Electronics and Information Engineers, pp. 2403-2406, 2021.
  • D. Gunning, M. Stefik, J. Choi, T. Miller, S. Stumpf, and G. Z. Yang, "XAI—Explainable artificial intelligence", Science Robotics, Vol. 4, No. 37, Dec. 2019. [https://doi.org/10.1126/scirobotics.aay7120]
  • S. Bach, A. Binder, G. Montavon, F. Klauschen, K. R. Müller, and W. Samek, "On pixel-wise explanations for non-linear classifier decisions by layer-wise relevance propagation", PLoS ONE, Vol. 10, No. 7, Jul. 2015. [https://doi.org/10.1371/journal.pone.0130140]
  • M. T. Ribeiro, S. Singh, and C. Guestrin, "Why Should I Trust You? Explaining the predictions of any classifier", ACM SIGKDD Proc. Knowledge Discovery and Data Mining, pp. 1135-1144, Aug. 2016. [https://doi.org/10.1145/2939672.2939778]
  • B. Zhou, A. Khosla, A. Lapedriza, A. Oliva, and A. Torralba, "Learning deep features for discriminative localization", IEEE Proc. CVPR, pp. 2921-2929, 2016. [https://doi.org/10.1109/CVPR.2016.319]
  • R. R. Selvaraju, M. Cogswell, A. Das, R.Vedantam, D. Parikh, and D. Batra, "Grad-CAM:visual explanations from deep networks via gradient based localization", IEEE Proc. ICCV, pp. 618-626, 2017. [https://doi.org/10.1109/ICCV.2017.74]
  • J. Pan and W. J. Tompkins, "A Real-time QRS detection algorithm", IEEE Trans. on Biomedical Engineering, Vol. 32, No. 3. pp. 230-236, Mar. 1985. [https://doi.org/10.1109/TBME.1985.325532]
  • X. Zhai, B. Jelfs, R. H. M. Chan, and C. Tin, "Short latency hand movement classification based on surface EMG spectrogram with PCA", IEEE Proc. EMBC, Orlando, FL, USA, pp. 327-330, Aug. 2016. [https://doi.org/10.1109/EMBC.2016.7590706]
  • J. M. Kim, G. H. Choi, J. S. Kim, and S. B. Pan, "User recognition using electromyogram 2D spectrogram images based on CNN", Journal of KIIT, Vol. 19, No. 1, pp. 107-117, Jan. 2021. [https://doi.org/10.14801/jkiit.2021.19.1.107]
  • D. E. Lee, C. S. Park, J. W. Kang, and M. W. Kim, "A review of Explainable AI techniques in medical imaging", Journal of BER, Vol. 43, No. 4, pp. 259-270, 2022.
  • https://physionet.org/content/nsrdb/1.0.0/, [accessed: Dec. 13, 2022]
  • M. G. Kim, J. M. Kim, and S. B. Pan, "A study on user recognition based on 2D bispectrum image using ECG signal", Proc. KIIT, pp. 79-80, Oct. 2020.
저자소개
김 민 구 (Min-Gu Kim)

2010년 : 조선대학교(공학사)

2013년 : 조선대학교(공학석사)

2019년 : 조선대학교(공학박사)

2019년 ~ 현재 : 조선대학교 IT연구소 연구교수

관심분야 : 생체인식, 영상처리, 인공지능, 패턴인식

정 재 효 (Jae hyo Jung)

2015년 ~ 2018년 : 조선대학교 IT융합신기술연구센터 연구원

2019년 : 조선대학교(공학박사)

2019년 ~ 현재 : 조선대학교 AI헬스케어연구센터 연구교수

관심분야 : 생체신호 취득 시스템, 질병예측, 인공지능

Fig. 1.

Fig. 1.
Example of division by period of ECG signal

Fig. 2.

Fig. 2.
Flow chart for the LRP algorithm

Fig. 3.

Fig. 3.
Data analysis using LIME

Fig. 4.

Fig. 4.
Flow chart for the CAM algorithm

Fig. 5.

Fig. 5.
Flow chart for the Grad-CAM algorithm

Fig. 6.

Fig. 6.
Flow chart of XAI system based on deep learning for user recognition

Fig. 7.

Fig. 7.
Example of 2D spectrogram transformation image

Fig. 8.

Fig. 8.
Deep learning model structure for user recognition

Fig. 9.

Fig. 9.
User recognition using confusion matrix

Fig. 10.

Fig. 10.
Spectrogram and Grad-CAM visualization result

Fig. 11.

Fig. 11.
ECG signal analysis for user recognition result

Table 1.

Results for user recognition

Precision 92.9%
Recall 93.1%
F1-Score 92.9%
Accuracy 93.2%