설치류 후각구의 혈역학적 반응을 이용한 머신러닝 기반 냄새 분류기의 설명 가능성에 대한 연구
초록
최근 냄새 물질에 따라 설치류 후각구의 혈역학적 반응이 다르게 나타나는 점에 착안한 뇌-컴퓨터 인터페이스 기반 냄새 탐지 기술이 선보인 바있다. 하지만, 해당 기술을 냄새 탐지에 활용하기 위해서는 머신러닝 알고리즘의 판단 근거를 확인하고 검증할 필요가 있다. 본 연구에서는 부분 의존성 분석과 섀플리 값(Shapley value)을 이용하여 머신러닝 분류기의 설명 가능성을 검증하였다. 이를 위해 설치류 후각구에서 기록된 혈역학적 반응 신호로부터 평균, 분산, 피크, 첨도, 왜도, 기울기의 6가지 피처를 추출하고, 부분 의존성 분석 기법과 섀플리 값을 통해 분류기의 동작을 분석하였다. 분석 결과, 선정된 모델은 기울기와 피크는 중요한 인자로 사용하며 첨도와 왜도는 상대적으로 낮은 중요도를 갖는 것을 확인하였다.
Abstract
Recently, brain-computer interface-based odor detection technologies have been introduced based on the fact that the hemodynamic responses of rodent olfactory bulbs appear differently depending on odorants. However, in order to use the technology for odor detection, it is necessary to confirm and verify the judgment basis of the machine learning algorithm. In this paper, it is intended to verify the feasibility of machine learning explanations using partial dependency analysis and Shapley values. For this purpose, six features of mean, variance, peak, kurtosis, skewness, and slope are extracted from the hemodynamic response signal recorded from the rodent olfactory bulb, and data analysis is performed by calculating the partial dependence analysis technique and Shapley value. As a result of the analysis, in the selected model, slope and peak appeared as important factors, and kurtosis and skewness had relatively low importance.
Keywords:
near-infrared spectroscopy, explainable machine learning, hemodynamic responses, olfactory bulbⅠ. 서 론
기술의 발전과 더불어 인간의 오감을 모사한 센서나 액츄에이터 등이 다양하게 개발되고 있다. 특히, 청각이나 시각은 물리량의 측정이 가능하므로 발전속도가 상당히 빠른 반면, 후각의 경우 발전속도가 상대적으로 더딘 편이다. 이는 냄새물질의 구성이 수십에서 수백 가지의 방향제(Odorant)로 되어 있기 때문이다[1].
후각 기관을 모사 전자코(Electronic nose), 인공코(Artificial nose), 기계코(Mechanical nose) 등 다양한 전자 후각 시스템이 연구되고 있지만[2][3], 표적 방향제에 따른 수용체 개발이 필요할 뿐만 아니라, 방향제와 결합한 수용체는 분리하기 어렵다는 단점이 있어 활용범위가 국한적이다[4].
전자 후각 시스템이 아닌 포유류를 냄새 탐지에 활용하는 연구도 이뤄지고 있다. 일반적으로 후각이 뛰어나다고 알려진 갯과는 폭발물, 불법 물질, 은닉 화폐, 실종자, 암 등 다양한 냄새 탐지에 활용되고 있으며[5], 설치류의 경우에는 갯과와 달리 가벼운 무게로 인해 지뢰탐지에 주로 쓰이고 있다[6]. 하지만 냄새 탐지를 위한 훈련에 들어가는 시간 및 비용이 높고, 집중력 저하시 탐지실패율이 높아지는 단점이 있다[7][8].
근적외선 분광법(NIRS, Near-infrared spectroscopy)을 이용한 뇌-컴퓨터 인터페이스 기술은 좋은 대안이 될 수 있다. 앞선 연구에서 설치류의 후각 신경구(OB, Olfactory Bulb)의 신경 반응을 머신러닝 알고리즘을 이용해 냄새 물질을 분류함으로써 후각 시스템으로 사용가능함을 선보였다[9][10].
하지만, 뇌-컴퓨터 인터페이스가 좋은 대안으로 평가받기 위해서는 머신러닝 알고리즘의 판단 근거를 확인하고 이를 검증할 필요가 있다. 이에 머신러닝 알고리즘으로 학습된 분류기의 결과에서 입력으로 사용된 피처가 결과에 어떠한 영향을 주었는지 사용자가 이해하고 신뢰할 수 있도록 해주는 설명 가능한 XAI(Explainable Artificial Intelligence) 기술이 주목받고 있다[11].
본 논문에서는 부분 의존성 분석과 섀플리 값(Shapley value)을 이용한 머신러닝 설명 가능성을 검증하고자 한다. 이에 2장에서는 해당 이론을 소개하고, 3장에서는 설치류 후각구의 혈역학적 반응 신호를 기록하기 위한 실험 환경, 획득한 신호에서 피처를 추출하는 전처리 방법, 그리고 분류에 사용한 머신러닝 알고리즘을 설명한다. 4장에서는 학습한 분류기의 성능과 부분 의존성 분석을 이용한 데이터 분석을 설명하고 섀플리 값을 통해 학습된 분류기를 분석하고, 마지막으로 5장에서는 본 논문의 결론과 향후 연구계획에 대해 논의하고자 한다.
Ⅱ. 관련 연구
2.1 부분 의존성 플롯(PDP, Partial Dependence Plots)
부분 의존성 분석은 1~2개의 독립변수가 종족변수에 미치는 영향인 한계효과(Marginal effect)를 시각적으로 해석하는 방법이다. 이를 통해 피처(Features)와 분류(Label)와의 관계를 파악할 수 있으며, 다음과 같이 정의된다[12].
(1) |
여기서 xs는 PDP로 시각화할 피처를 의미하며, xc는 머신러닝 모델()이 사용하는 피처를 의미한다. xs와 xc가 모여 전체 피처를 이루며, xc의 분포 확률에 대해 한계화(Marginalize)함으로써 xs가 모델 의 판단에 미치는 영향을 수치화 할 수 있다. 이를 통해 xs에만 의존하는 를 구할 수 있으며, 이는 몬테카를로 방식을 사용해 다음과 같이 근사할 수 있다[12].
(2) |
여기서 xs는 관심 있는 피처를 가리키며, 는 관심 없는 피처들의 집합을 의미한다. n은 데이터셋의 개수이며, 전체 조합에 대해 xs가 모델의 판단에 미치는 수치를 평균한다. PDP에 사용되는 는 머신러닝 모델뿐 아니라 데이터의 분포를 그대로 활용할 수 있다. 이 경우, PDP는 학습 데이터를 분석하여 모델이 어떻게 학습할 것인지를 예상하는 기법으로 활용할 수 있다.
2.2 SHAP(SHapley Additive exPlanations)
SHAP은 섀플리 값과 피처 간 독립성을 이용하여 머신러닝 모델을 설명하는 기법이다. 섀플리 값은 머신러닝 모델이 어떠한 판단을 함에 있어, 각 피처가 얼마나 영향을 주었는지를 수치화한 것이다. 각 피처의 기여도는 그 피처의 기여도를 제외하였을 때, 머신러닝 모델의 판단 변화 정도로 나타낼 수 있다. 예를 들어, 특정 주택이 강을 끼고 있어 집값이 높다고 추정된다면, 강가로부터의 거리를 강제로 늘려 집값이 어떻게 변할지 예측한다. 이 후, 예측값을 원래 집값에서 빼면 강과의 거리가 집값에 기여하는 정도를 추론할 수 있다. 이 개념을 수식으로 표현하면 다음과 같다[13].
(3) |
여기서 ϕi는 i번 피처에 대한 섀플리 값, n은 총 피처의 개수, S는 i번 피처를 제외한 모든 피처 집합, υ(S)는 i번째 피처를 제외하고 나머지 피처의 부분 집합이 결과에 기여한 정도, υ(S∪i)는 i번째 피처를 포함한 전체 기여도를 나타낸다. 즉, i번째 피처가 결과에 기여하는 정도는 전체 기여도에서 i번째 피처가 제외된 기여도의 합을 뺀 값이다.
Ⅲ. 머신러닝 기반 냄새 분류 시스템
3.1 실험 환경
본 연구는 총 7마리의 설치류에게 3종류의 냄새 물질을 20회 반복 제시한 후 후각구에서 나타난 혈역학적 반응 신호 데이터, 420개를 사용하였다[9][10].
NIRS 신호를 기록한 환경은 그림 1과 같다.
냄새 물질은 그림 1(a)과같이 180초 간격으로 (1) 무취 공기(Air), (2) 배향이 나는 isoamyl acetate(IAA), (3) 바나나향이 나는 2-heptanone(HEP)순으로 10초 동안, 총 20회 반복 제시하였다. 그림 1(b)는 공기 및 냄새 물질의 이동 경로와 설치류 후각구의 혈역학적 반응 신호를 기록하기 위한 장치 구조를 보여준다.
3.2 데이터 전처리
냄새 물질 인가 후, 20초 구간의 혈역학적 반응 신호를 modified Beer-Lambert 법칙을 적용하여, oxy-hemoglobin(HbO2)의 농도 변화를 계산하고[14], 1차원 시계열 데이터로부터 평균(Mean), 분산(Variance), 피크(Peak), 왜도(Skewness), 첨도(Kurtosis) 및 기울기(Slope)를 피처로 추출하였다. 여기서, 기울기는 5초 시간 간격 (0-5, 5-10, 10-15, 15-20)에 대해 1차 다항식 피팅을 사용하여 계산하였다.
3.3 설명 가능한 머신러닝 분류기
머신러닝 분류기를 학습시키기 위해 1~6번 설치류로부터 획득한 데이터를 이용하여 K-겹 교차 검증(K-fold cross validation)을 사용하였다. 본 연구에서는 6마리의 설치류로부터 획득한 360개의 학습 데이터를 개체별로 6개의 그룹으로 나누어 6-겹 교차 검증을 수행하였다. 분류기는 파이썬 머신러닝 라이브러리인 Scikit-learn에서 제공하는 KNN(K-Nearest Neighbor), RF(Random Forest), XGBOOST(eXtreme Gradient BOOSTing), SVM(Support Vector Machine), MLP(Multi-Layer Perception)의 5가지 알고리즘을 사용하였다[15].
Ⅳ. 실험 및 결과 분석
4.1 머신러닝 분류기 성능
분류기의 성능은 7번째 설치류로부터 수집한 데이터를 사용하였으며, 무취 공기, IAA, HEP에 대해 각각 20개씩 총 60개의 데이터를 이용하여 측정하였다. 표 1은 5가지 머신러닝 분류기를 이용하여 3종류의 냄새 물질을 분류한 평균 결과를 보여준다. 정확도(Accuracy)는 60개의 데이터 중에서 올바르게 분류한 경우를 평가한 것이다. Average F1-score는 정밀도(Precision)와 재현율(Recall)을 이용하여 각각의 냄새 물질에 따른 F1-Score를 각각 계산한 뒤, 평균값을 산출하였다. 실험결과 KNN과 MLP가 0.933의 정확도와 F1-Score를 갖는 것을 확인하였다.
이 중, 높은 F1-Score를 갖는 KNN과 MLP 분류기의 테스트 데이터에 대한 혼동행렬(Confusion matrix)을 표 2에 나타내었다. KNN와 MLP 분류기 모두 무취 공기에 대한 분류는 잘 이루어졌으나, IAA와 HEP 분류에 있어 오류가 발생하였다. KNN 분류기는 IAA를 Air로 혼동하거나 HEP를 IAA로 혼동하였다. 그리고 MLP 분류기는 IAA를 Air와 HEP로 혼동하거나 HEP를 IAA로 혼동하는 결과를 보였다.
4.2 학습 데이터의 부분 의존성 분석
학습 데이터에서 피처와 냄새 물질과의 관계를 이해하기 위해 평균, 분산, 피크, 왜도, 첨도 그리고 기울기에 대하여 부분 의존성 분석을 수행하여 의미가 있는 결과를 그림 2에 도시하였다. 그림 2(a)는 첨도와 냄새 물질과의 관계를 보여주는데, 대부분의 첨도값에서 50% 근방의 확률로 냄새 물질을 분류하는 것을 볼 수 있다. 그러나 0.1688 이상이면 냄새 물질 분류와 관계가 없음을 알 수 있다. 따라서 첨도는 머신러닝 알고리즘에서 중요한 피처로 사용하지 않음을 예상할 수 있다. 반면, 그림 2(b) 평균 피처는 0.5815 이상의 값을 가질 때, 약 91.2%로 냄새 물질을 구분할 수 있음을 확인할 수 있다. 따라서 평균 피처는 값이 큰 경우, 분류기가 중요한 분류 기준으로 삼을 가능성이 크다고 예상할 수 있다. 이러한 경향으로 피처들을 판단해보면, 전반적으로 낮은 값을 보이는 첨도와 왜도는 분류기 학습에 있어 활용도가 낮을 것으로 예상할 수 있다. 반면, 기울기, 피크, 분산, 평균은 분류기에서 중요한 역할을 하는 방향으로 학습될 것을 예상할 수 있다. 본 예측을 검증하기 위해 상대적으로 높은 분류 성능을 보인 KNN과 MLP 분류기에서 SHAP 분석을 수행하였다.
4.3 학습된 머신러닝 분류기의 SHAP 분석
부분 의존성 분석을 통해 확인된 피처들의 중요성을 높은 F1-score를 보인 KNN과 MLP 분류기에서 그림 3과 같이 SHAP 분석을 수행하였다. x축은 피처들의 평균 SHAP 값을, y축은 중요도가 높은 순서로 피처를 나열하였다.
그림 3(a)의 KNN 분류기에서는 3가지 냄새 물질을 분류함에 있어 중요한 피처의 순서가 기울기, 피크, 분산, 평균, 첨도, 왜도로 나타났다. Air를 분류함에 있어, 기울기 0~5s와 10~15s가 높은 중요도를 보인다. IAA를 분류시 기울기와 피크의 중요도가 높은 중요도를 보이며, HEP에서는 첨도와 왜도가 낮은 중요도를 갖는 것을 확인할 수 있다.
그림 3(b)의 MLP 분류기에서는 기울기, 피크, 첨도, 왜도, 분산, 평균의 순으로 중요도가 나타났다. MLP 분류기는 냄새를 구분하기 위해 기울기와 피크 피처를 중요한 요소로 활용하는 것을 볼 수 있다. 특히, 기울기 10~15s 피처는 다른 피처들에 비해 높은 중요도를 갖는 것으로 분석되었다. 그림 2(b,e)의 부분 의존성 분석을 고려하면, 분산과 평균은 첨도와 왜도 보다 높은 중요도를 가지는 것이 예상되지만, MLP 분류기에서 중요도가 낮게 평가된 것을 볼 수 있다. 이는 분산과 평균 피처가 다른 피처와 높은 상관관계를 가지고 있으며, MLP 분류기 학습 과정에서 다른 피처가 중요하게 사용된 것으로 판단된다. 이를 설명하기 위하여 학습 데이터의 상관관계를 분석하였다.
4.4 학습 데이터의 상관관계 분석
MLP 분류기의 SHAP 분석에서 분산과 평균이 부분 의존성 분석에서 예측할 수 있는 것과 달리 중요도가 낮았다. 그림 4는 학습 데이터의 상관관계를 도시한 그래프로 분산은 기울기 0~5s, 기울기 10~15s, 피크와 0.7 이상의 높은 상관관계를 가지고 있다. 그리고 평균은 기울기 5~10s과 0.23의 상관관계를 갖는 것을 볼 수 있다.
MLP 분류기는 정답을 맞추기 위해 특정 피처의 가중치를 높여 학습이 이루어질 수 있으며, 이러한 특성으로 분산과 평균 피처를 대신해 그림 3(b)와 같이 기울기와 피크의 중요도가 높아진 것으로 판단된다.
Ⅴ. 결론 및 향후 과제
본 논문에서는 부분 의존성 분석과 섀플리 값을 이용한 머신러닝 설명 가능성을 검증하고자 하였다. 이를 위해 설치류 후각구의 혈역학적 반응 신호를 이용해 냄새 물질을 분류할 수 있는 머신러닝 분류기를 학습하고, 학습된 분류기의 동작을 설명하기 위하여 학습 데이터의 부분 의존성 분석과 학습된 분류기에서 SHAP 분석을 수행하였다. 분류기로 KNN, RF, XGBOOST, SVM, MLP를 사용하였으며, 이 중에서 F1-score가 0.93인 KNN과 MLP 분류기 선택하여 SHAP 분석을 하였다.
학습 데이터의 부분 의존성 분석을 통해 각각의 피처와 냄새 물질과의 관계를 분석한 결과, 학습 데이터의 특성만으로도 머신러닝 분류기에서 첨도와 왜도는 중요한 요소로 사용되지 않을 것을 예측할 수 있다. SHAP을 통해 KNN과 MLP 분류기에서 피처 중요도를 분석하면, 두 분류기 모두 기울기와 피크 피처가 중요하게 평가되는 것은 일치한다. 하지만 MLP 분류기에서는 부분 의존성 분석에서 가장 중요도가 낮을 것으로 예상된 첨도와 왜도가 상대적으로 높은 중요도를 보이는 것으로 분석되었다. 이는 MLP 분류기의 학습 과정에서 특정 피처의 종속성이 높아질 수 있는 특성에 기인한 것으로 판단된다. 즉, 냄새 물질 분류시 중요한 역할을 하는 2개의 피처가 서로 상관되어 있다면, 둘 중 1개의 피쳐에 가중치가 크게 작용하여 분류기가 학습될 수 있다. 이 부분을 확인하기 위하여 피처들의 상관관계를 분석한 결과, MLP 분류기에서 가장 낮은 중요도를 가진 평균과 분산은 기울기와 피크와 높은 상관관계를 가지고 있음을 확인하였다.
향후 머신러닝의 설명 가능성을 통해 여러 피처 중에서 분류 성능에 나쁜 영향을 주는 피처들을 제거하거나 중요한 피처들만을 선택하여 분류기를 학습시킴으로써 분류기의 최적화를 수행할 수 있을 것으로 예상된다[16, 17].
Acknowledgments
본 연구는 정부의 재원으로 한국연구재단의 지원을 받아 수행된 연구임(NRF-2020R1F1A1070042)
References
- M. K Ye, "Physiology of Olfaction and Gustation: Focused on Receptor Cells", Journal of Clinical Otolaryngology Head and Neck Surgery, Vol. 31, No. 2, pp. 133-138, Dec. 2020. [https://doi.org/10.35420/jcohns.2020.31.2.133]
- J. Chen, Z. Chen, and F. Boussaid, "Ultra-low-power smart electronic nose system based on three-dimensional tin oxide nanotube arrays", ACS nano, Vol. 12, No. 6, pp. 6079-6088, Jun. 2018. [https://doi.org/10.1021/acsnano.8b02371]
- S. Cui, P. Ling, and H. Zhu, "Plant pest detection using an artificial nose system: a review", Sensors, Vol. 18, No. 2, pp. 378, Feb. 2018. [https://doi.org/10.3390/s18020378]
- J. Palacin, E. Rubies, and E. Clotet, "Classification of Two Volatiles Using an eNose Composed by an Array of 16 Single-Type Miniature Micro-Machined Metal-Oxide Gas", Sensors, Vol. 22, No. 3, pp. 1120, Feb. 2022. [https://doi.org/10.3390/s22031120]
- W. S. Helton, "Canine ergonomics: the science of working dogs", CRC Press, 2009. [https://doi.org/10.1201/9781420079920]
- D. A. Marshall, R. L. Doty, and D. P. Lucero, "Odor detection thresholds in the rat for the vapors of three related perfluorocarbons and ethylene glycol dinitrate", Chemical Senses, Vol. 6, No. 4, pp. 421-433, Oct. 1981. [https://doi.org/10.1093/chemse/6.4.421]
- C. Browne, K. Stafford, and R. Fordham, "The use of scent-detection dogs", Irish Veterinary Journal, Vol. 59, No. 2, p. 97-104, Feb. 2006.
- I. Gazit, and J. Terkel, "Explosives detection by sniffer dogs following strenuous physical activity", Applied Animal Behaviour Science, Vol. 81, No. 2, pp. 149-161, Apr. 2003. [https://doi.org/10.1016/S0168-1591(02)00274-5]
- J. M. Kim and W. R. Lee, "Odor-classification based on Convolutional Neural Network using Hemodynamic Responses of Rat Olfactory Bulb", The Journal of Korean Institute of Information Technology, Vol. 19, No. 7, pp. 133-140, Jul. 2021. [https://doi.org/10.14801/jkiit.2021.19.7.133]
- C. Im, J. Shin, and W. R. Lee, "Machine learning-based feature combination analysis for odor-dependent hemodynamic responses of rat olfactory bulb", Biosensors & bioelectronics, Vol. 197, 113782, Feb. 2022. [https://doi.org/10.1016/j.bios.2021.113782]
- W. Samek and K. R. Müller, "Towards explainable artificial intelligence. In Explainable AI: interpreting, explaining and visualizing deep learning", Springer, Cham, pp. 5-22, 2019. [https://doi.org/10.1007/978-3-030-28954-6_1]
- A. Goldstein, A. Kapelner, and J. Bleich, "Peeking inside the black box: Visualizing statistical learning with plots of individual conditional expectation", Journal of Computational and Graphical Statistics, Vol. 24, No. 1, pp. 44-65, Mar. 2015. [https://doi.org/10.1080/10618600.2014.907095]
- M. Sundararajan and A. Najmi, "The many Shapley values for model explanation", In International conference on machine learning, PMLR, pp. 9269-9278, Feb. 2020.
- M. Cope, D. T. Delpy, and E. O. R. Reynolds, "Methods of quantitating cerebral near infrared spectroscopy data", Oxygen Transport to Tissue X, Springer, New York, pp. 183-189, 1988. [https://doi.org/10.1007/978-1-4615-9510-6_21]
- A. Géron, "Hands-on machine learning with Scikit-Learn, Keras, and TensorFlow: Concepts, tools, and techniques to build intelligent systems", O'Reilly Media, Inc., 2019.
- J. Oh, "A Study on the Weight of W-KNN for WiFi Fingerprint Positioning", The Journal of The Institute of Internet, Broadcasting and Communication, Vol. 17, No. 6, pp. 105-111, Dec. 2017.
- D. G. Lee, Y. G. Sun, and S. H. Kim, "Comparison of Power Consumption Prediction Scheme Based on Artificial Intelligence", The Journal of The Institute of Internet, Broadcasting and Communication, Vol. 19, No. 4, pp. 161-167, Aug. 2019.
2009년 8월 : 서울대학교 전기전자컴퓨터(공학사)
2016년 2월 : 서울대학교 전기전자컴퓨터(공학박사)
2020년 9월 ~ 현재 : 한성대학교 조교수
관심분야 : 의료기기, 딥러닝