[ Article ]

The Journal of Korean Institute of Information Technology - Vol. 22, No. 8, pp.41-53

ISSN: 1598-8619 (Print) 2093-7571 (Online)

Print publication date 31 Aug 2024

Received 21 Jun 2024 Revised 21 Aug 2024 Accepted 24 Aug 2024

DOI: https://doi.org/10.14801/jkiit.2024.22.8.41

XAI를 활용한 제조 공급망 데이터의 수주량 예측에 대한 연구

정연수^*

; 윤철희^**

*동국대학교 국제정보보호대학원 정보보호학석사
**경찰대학교 치안정책연구소 연구관(교신저자)

A Study on Forecasting Order Quantity from Manufacturing Supply Chain Data using XAI

Yeonsu Jung^*

; Cheolhee Yoon^**

Correspondence to: Cheolhee Yoon Police Autonomous Driving Center. Police Science Institute. Korea Tel.: +82-42-968-2294, Email: bertter@police.ac.kr

초록

최근 몇 년 동안 제조 공급망에서 인공 지능과 기계 학습 기술이 빠르게 발전하고 있다. 그러나 이러한 AI 모델은 의사 결정 과정의 투명성 부족에 따른 부작용이 있다. 그런 이유로 현재 설명 가능한 인공지능을 통해 이러한 문제를 해결하려는 노력이 이루어지고 있다. 본 논문은 제조 공급망 데이터를 이용하여 수요분석과 공급예측을 XAI 기법을 적용하였다. 세부적으로는 LIME 및 SHAP 기법을 적용하였으며, 실험 결과 XAI가 제조 공급망 데이터에 AI모델 이해, 의사결정 유효성, 알고리즘 신뢰성 향상에 효과적임을 확인하였다. 본 논문을 통해 제조 분야에서도 XAI의 적극적인 활용이 필요함을 발견하였으며, 향후 제조 공급망 관리에 새로운 가능성을 열어줄 수 있음을 시사하고 있다.

Abstract

In recent years, Artificial Intelligence(AI) and Machine Learning(ML) technologies have been rapidly advancing in the manufacturing supply chain. However, For this reason, there are now efforts to solve these problems with explainable Artificial Intelligence(XAI). This paper applies XAI techniques to improve the explainability of analytics and predictive models for manufacturing supply chain data. In detail, LIME and SHAP techniques were applied, and the experimental results confirmed that XAI is effective in improving AI model understanding, decision-making effectiveness, and algorithm reliability for manufacturing supply chain data. The experimental results of the paper suggest that active use of XAI is necessary in the manufacturing field, and suggest that it may open up new possibilities for future manufacturing supply chain management.

Keywords:

XAI techniques, LIME and SHAP, manufacturing supply chain management, artificial intelligence

Ⅰ. 서 론

1.1 연구의 배경 및 목적

현대의 제조업체들은 첫째, 글로벌 경쟁에 따른 저비용 생산의 필요성, 둘째, 고객 요구 다양화에 의한 생산제품 종류의 증가, 셋째, 빠른 기술변화에 따른 제조 공정 복잡도의 증가, 넷째, 생산공장의 글로벌화에 따른 공급망 관리의 고도화 필요, 등에 대처해야 하는 어려운 과제들을 가지고 있다. 특히 변동적인 수주 및 발주 환경에 따른 유연한 제품생산을 위해서 제품생산에 필요한 적절한 재고를 유지하는 것은 생산비용의 감소를 통한 성공적인 제조업 기업경영을 위해 매우 필수적인 요소이다.

또한, 최근 몇 년간 인공지능(AI, Artificial Intelligence)과 기계학습(ML, Machine Learning)이 제조업에서 큰 주목을 받고 있으며, 다양한 분야에서 널리 활용되고 있다[1]. 인공지능을 통해 대량의 제조 데이터를 분석하고 예측할 수 있게 되면서 생산 공정 최적화, 품질 관리, 예방 유지보수 등에서 혁신적인 성과를 이루고 있다[2]. 그러나, 인공지능 모델의 예측 결과와 의사 결정 과정이 매우 복잡하고 불투명하여 현장 실무자들이 그 결과를 이해하고 신뢰하는 데 어려움을 겪고 있다[3]. 이는 인공지능의 채택과 활용을 저해하는 주요 요인 중 하나로 작용한다. 설명 가능한 인공지능(XAI, Explainable AI)은 이러한 문제를 해결하기 위해 등장한 개념으로, AI 모델의 내부 작동 원리와 예측 결과를 사람이 이해할 수 있는 형태로 설명하는 것을 목표로 한다[4]-[6] XAI는 제조업에서 인공지능의 신뢰성 및 투명성을 높여주며, 이는 결과적으로 인공지능 기술의 채택을 촉진하고, 더 나은 의사 결정을 가능하게 한다[7][8].

이에 본 연구에서는 기 연구된 수주량 예측을 위한 ‘사출성형 공급망 최적화 AI 모델’을 기반으로 현재 활발히 연구되고 있는 설명 가능한 인공지능(XAI)의 LIME 과 SHAP 알고리즘을 통해 수주량 예측에 긍정적 또는 부정적 영향을 미친 속성들을 파악하여 제조업 경영 전략 수립에 의미 있는 정보를 제시하고자 한다[9].

1.2 연구의 범위 및 방법

본 논문은 제조 공급망 데이터를 활용하여 인공지능 모델을 생성하고 그 모델의 예측과 결정을 설명하는 방법에 대한 연구를 다룬다. 본 연구의 범위와 방법은 다음과 같다.

1.2.1 데이터 수집 및 전처리

본 연구는 중소벤처기업부에서 주관하는 인공지능 제조 플랫폼(KAMP)에서 제공하는 ‘사출성형 공급망 최적화 AI 데이터 셋’의 사출성형 데이터 셋과 전처리 알고리즘을 일부 사용한다. 이 데이터 셋은 CRM(Customer Relationship Management)을 기반으로 공급망을 관리하는 중소 제조업체의 사출 공정 실제 데이터이며, 제품 종류별 T일 예정 수량을 주요 데이터로 활용한다. 해당 데이터 셋의 전처리 과정을 통해 실험용 데이터 셋을 생성한다.

1.2.2 모델 개발 및 학습

본 연구는 수요예측모델의 생성 및 학습을 위해 XGBoost(Extreme Gradient Boosting)의 XGBRegressor 회귀 분석 모델 알고리즘을 사용한다[10]-[12]. 그리고 모델의 평가를 위해 klearn.metrics 라이브러리의 평균절대오차(MAE) 값을 사용한다[13]. 또한 생성된 모델에 의한 예측 수주량 데이터와 평가 데이터의 실제 수주량 데이터를 시각적으로 비교하여 모델의 예측 데이터가 실제 수주량 데이터와 얼마나 유사하게 예측 되었는지 확인한다.

1.2.3 XAI 알고리즘 적용

본 연구는 모델의 예측과 결정을 설명하기 위해 XAI의 대표적인 알고리즘인 LIME(Local Interpretable Model-agnostic Explanations)과 SHAP(SHapley Additive exPlanations) 알고리즘을 사용한다[14][15]. LIME 알고리즘은 로컬 영역 예측 설명에 사용하고 SHAP 알고리즘은 로컬 및 글로벌 영역의 예측 설명에 사용하여 수주량 예측 결과에 영향을 미친 속성들을 분석한다.

Ⅱ. 수주량 예측 연구의 배경 이론

2.1 SCM(Supply Chain Management)

2.1.1 개요

공급망(Supply chain)은 제품 또는 서비스가 최종 소비자에게 전달되기까지의 모든 단계와 활동을 포함하는 네트워크를 말한다. 이 네트워크는 원자재 및 부품의 조달부터 제조, 유통 등 최종 소비자에게 제품을 전달하기 위한 모든 과정을 의미한다. 공급망은 그림 1과 같은 요소들로 구성되어 있다.첫째, 원료공급업체 상품 생산에 필요한 원자재나 부품을 제공하는 공급업체이다. 둘째, 제조업체로 원자재와 부품을 이용하여 제품을 생산하는 제조 공장이나 생산 시설을 의미한다. 셋째, 유통업체 생산된 제품을 소비자에게 전달하기 위한 물류 및 유통 업체이다. 넷째, 소비자로 제품이나 서비스를 구매하는 최종 소비자를 의미한다. 공급망관리(SCM)는 제품이나 서비스가 원재료부터 최종 소비자에게 전달될 때까지의 공급망을 계획, 조정 및 관리하는 활동을 말한다. 이는 원재료 및 부품의 조달, 생산, 유통, 소비에 이르기까지 모든 과정에 대한 관리를 의미하며 비용 절감, 서비스 향상, 재고 최적화, 협력 강화, 위험 관리 등을 관리의 목표로 한다.

Fig. 1.

CRM composition elements[16]

2.1.2 SCM의 문제점 제시

공급망관리(SCM)는 다음과 같은 한계점을 가지고 있다. 첫째, 복잡성 증가이다. 글로벌 공급망의 복잡성 증가로 인해 관리가 어려워지고, 실시간으로 모든 요소를 파악하기에 어려움이 있다. 따라서 실시간 시뮬레이션 모니터링 시스템 도입 및 공급망의 데이터를 학습하고 결과를 예측하는 인공지능 시스템의 도입이 필요하다. 둘째, 데이터 관리의 어려움으로 방대한 데이터 양과 다양한 데이터 소스로 인해 일관성 있는 데이터 관리와 실시간 데이터 처리에 어려움이 있다. 이를 해결하기 위해 빅데이터 기술의 도입을 통한 방대한 데이터를 효율적으로 수집, 저장, 분석 하는 시스템이 필요하다. 셋째, 비용 관리 문제로 재고 관리, 물류, 유통 등의 비용을 효율적으로 관리하는 것에 어려움이 있으며 여기에는 인공지능 기반의 재고 최적화 솔루션을 도입하여 적정 재고 수준을 유지하고, 비용을 절감해야 하는 과제가 있다. 마지막으로 공급망 리스크이다. 천재지변, 정치적 불안정, 공급업체의 문제 등 다양한 리스크에 대응해야 하는 어려움이 있으며 이를 해결하기 위해 공급망을 다변화하여 특정 지역이나 공급업체에 대한 의존도를 줄이는 전략이 필요하다.

2.2 CRM(Customer Relationship Management)

2.2.1 개요

CRM은 기업과 고객과의 관계를 중심으로 하는 비즈니스 전략으로, 고객 관계 관리를 통해 고객과의 강한 신뢰를 구축하여 비즈니스를 성공으로 이끄는 고객 중심 마케팅 방법이다. CRM은 고객 정보 관리, 상호 작용 관리, 마케팅 자동화, 판매 관리, 고객 서비스 및 지원 등의 기능으로 구성되어 있다. CRM 시스템은 고객 정보를 중앙 관리하고 부서 간에 정보를 공유하여 고객 서비스의 효율성을 향상시킨다. CRM 의 프로세스는 그림 2와 같다.

Fig. 2.

CRM configuration[17]

2.2.2 CRM의 문제점 제시

데이터 통합의 어려움으로 다양한 출처에서 수집된 고객 데이터를 통합하는 과정에서 데이터의 일관성과 정확성을 유지하는 것에 대한 어려움이 있으며 이를 해소하기 위해 데이터 소스를 통합할 수 있는 CRM 플랫폼을 도입해 데이터의 일관성과 정확성을 유지하고 데이터의 수집 단계에서 데이터 정제 및 표준화를 통한 일관된 데이터의 확보가 필요하다. 그리고 데이터 품질 문제로 부정확하거나 불완전한 데이터로 인해 CRM 시스템의 효율성이 저하될 수 있다. 따라서 정기적으로 데이터 클리닝 작업을 수행해 부정확한 데이터를 수정하고 불완전한 데이터를 보완해야 하며 고객과의 상호작용을 통해 지속적으로 데이터를 업데이트하고 정확성을 유지해야 한다. 셋째, 시스템 통합의 어려움으로 기존의 다른 시스템과 CRM 시스템을 통합하는 과정에서 기술적 어려움이 발생할 수 있어 CRM 시스템과 다른 시스템 간의 원활한 통합을 위해 API 및 통합 도구를 활용하고 단계적으로 시스템을 통합해 점진적으로 문제를 해결하고 안정성을 확보해야 한다. 그리고 데이터 보안 문제로 고객 데이터의 유출이나 해킹으로 인해 개인정보 보호 문제가 발생할 수 있다. 따라서 데이터 암호화, 접근 제어, 정기적인 보안 점검 등 강력한 보안 프로토콜을 도입하고 직원들에게 필요한 최소한의 데이터 접근 권한만 부여해 보안 위험을 최소화해야 한다.

그리고 비용 문제로 CRM 시스템 도입 및 운영에 드는 높은 비용이 중소기업이나 스타트업에게는 부담이 될 수 있으므로 초기 도입 비용을 줄일 수 있는 구독형(클라우드 기반) CRM 서비스를 활용하거나 CRM 도입의 투자 대비 효과를 분석해 비용 대비 이점을 명확히 하고, 필요한 경우 단계적인 기능 확장이 필요하다.

2.3 XGBRegressor를 통한 수요 예측

2.3.1 개요

XGBoost는 Gradient Boosting 알고리즘을 기반으로 한 뛰어난 성능을 자랑하는 머신러닝 라이브러리로, XGBoost는 과적합을 줄이고 정확도를 향상시키는 강력한 특징을 가지고 있어, 공급망 데이터의 수주량 예측 업무에 효과적으로 적용될 수 있다. XGBoost의 동작 원리는 다음과 같다.

첫째, 트리 기반 모델로 트리 기반 앙상블 학습 방법을 사용하고, 여러 개의 결정 트리를 조합하여 강력한 예측 모델을 형성하고, 둘째, Gradient Boosting 알고리즘을 사용하여 모델을 훈련시키기 때문에, 이전 트리의 오차를 보완하는 새로운 트리를 순차적으로 추가하여 예측 성능을 향상시킨다.

셋째, 정규화로 XGBRegressor는 과적합을 방지하기 위해 다양한 정규화 기법 제공으로 모델의 복잡성을 제어하고 일반화 성능을 향상시킨다. 그리고, XGBoost는 속도가 빠르고 확장성이 뛰어난 라이브러리로 고차원 데이터에 대해서도 효율적으로 작동하는 장점이 있다.

Fig. 3.

How XGBoost implement way[18]

2.3.2 한계점과 해결방안

XGBoost는 Gradient Boosting 알고리즘을 기반으로 한 뛰어난 성능을 보여주지만, 역시 한계점을 가지고 있다. 첫째, 과적합 문제으로 XGBRegressor는 학습 데이터에만 지나치게 적응하여 과적합(Overfitting)될 가능성이 있다. 그러므로 데이터를 여러 개의 세트로 나누어 교차 검증을 수행해 모델의 일반화 성능을 평가하고 최적의 하이퍼 파라미터를 선택해야 하며 검증 데이터에서 성능이 향상되지 않을 때에는 학습을 조기 종료하여 과적합을 방지하는 기법이 필요하다. 둘째, 하이퍼파라미터 튜닝의 복잡성으로 XGBRegressor에는 많은 하이퍼파라미터가 있으며, 이들을 최적화하는 과정이 복잡하고 시간이 많이 소요될 수 있어 Grid Search와 Random Search를 통해 하이퍼파라미터 공간을 탐색하고 최적의 파라미터 조합을 찾는 기법이 필요하다. 셋째, 대용량 데이터 처리의 어렵다. 매우 큰 데이터 셋을 처리할 때 XGBRegressor의 학습 속도가 저하될 수 있다. 따라서 병렬 및 분산 처리 환경에서 학습을 수행하고 매우 큰 데이터 셋의 경우 샘플링을 통해 데이터 크기를 줄여 학습 속도를 높여야 한다. 마지막으로 해석 가능성의 부족하다는 점을 들을 수 있다. XGBRegressor는 복잡한 앙상블 모델이기 때문에 예측 결과를 해석하기가 어려울 뿐만 아니라 설명이 어렵다. 그래서 본 논문에서는 이를 해결하기 위해 XAI의 SHAP값을 사용해 각 피처가 모델 예측에 어떻게 기여하는지 설명을 하며, LIME을 통해 모델의 예측을 지역적으로 해석하는 것을 시도하였다.

2.4 XAI 적용

2.4.1 개요

XAI는 인공지능이 내린 결정을 설명 가능하게 만드는 기술이나 방법론을 말한다[19]. 오늘날 DNN(Deep Neural Network)을 통해 만들어진 복잡한 모델은 높은 성능을 보이지만 내부 동작이 복잡하여 사람들이 이를 이해하기 어렵다는 문제가 있다[20]. XAI는 이러한 문제를 해결하기 위해 인공지능이 내린 결정을 설명하는 방법을 제공한다. XAI는 의료, 자율주행, 금융 등 인간의 생명과 연관되거나 투명성과 신뢰성이 중요한 분야에서 특히 중요하다[21][22]. 또한 XAI는 인공지능에 대한 인간의 신뢰를 높이고 안전하고 윤리적인 인공지능의 사용을 위해 반드시 필요한 기술이다. 인공지능의 투명성과 신뢰성을 강화하기 위해 2019년 미국은 Algorithmic Accountability Act(알고리즘 책임법) 법안을 발의하였다. 해당 법안은 인공지능 시스템이 사용되는 경우, 해당 시스템의 의사 결정 과정을 명확하게 설명하고 고객 또는 이해관계자에게 이를 알려야 한다는 내용을 포함하고 있다. 우리나라도 2023년 인공지능책임법을 발의하여 고위험 인공지능 사업자의 책무 등을 규정하고 있다. XAI의 글로벌 시장 규모는 2023년 기준 약 62억 달러로 추정되며 향후 2028년에는 162억 달러 규모로 확대가 예상된다. 또한 XAI의 글로벌 시장은 북미(미국, 캐나다)와 유럽(영국, 프랑스) 등의 ICT분야 선진국들이 주도하고 있으며, 성장세는 개발도상국(중국, 인도)이 더 높을 것으로 예상되고 있다[23].

2.4.2 LIME

LIME 알고리즘은 Ribeiro, Singh & Guestrin(2016)에 의해 발표된 알고리즘으로 예측 모델에 대한 결과를 설명하는 새로운 기법을 제공한다. Ribeiro, Marco Tulio, Sameer Singh, and Carlos Guestrin. “Why should i trust you?" Explaining the predictions of any classifier"[24] 논문에 처음 등장한 LIME은 모든 분류 및 예측 모델에 적용 가능한 XAI 방법론 중 하나로 이름 그대로 모델 전체에 대한 설명보다는[25] 단일 데이터나 범위가 작은 영역에 대한 설명력을 가진다. 예를들어, 감기를 예측하는 모형을 가정했을 때, 단순히 진료 결과가 감기라고 하는 것보다 그림 4와 같이 두통, 기침, 피로도 등 감기의 증상이 다음과 같이 있으므로 감기라고 진단하는 것이 의사결정과 이해를 돕는다는 방식이다.

Fig. 4.

LIME description

2.4.3 SHAP

Lundberg, Scott M., and Su-In Lee. "A unified approach to interpreting model predictions"[26] 논문에 처음 소개된 SHAP는 XAI의 알고리즘 중 하나로 Shapley Value를 기반으로 한다. Shapley Value는 협력적 게임 이론 그림 5의 중요한 개념 중 하나로, 다수의 플레이어가 협력하여 어떤 가치를 생성하는 경우 각 플레이어가 이 가치에 기여한 정도를 측정하는 데 사용된다. Shapley Value는 다양한 분야에서 사용된다. 예를 들어, 공정한 분배를 위해 조합적 노동에 대한 보상을 결정하거나, 기업의 주주나 참여자들 간에 이익을 분배하는 데 사용될 수 있다. 또한, 그래프 이론, 경제학, 컴퓨터 과학 등 다양한 분야에서의 협력적인 상황에서 중요한 개념으로 적용될 수 있다.

Fig. 5.

Cooperative game theory: The prisoner's dilemma[27]

2.4.4 XAI 적용 고려사항

첫째, 설명의 복잡성으로 XAI 모델이 제공하는 설명이 지나치게 복잡하여, 일반 사용자나 도메인 전문가가 이해하기 어려울 수 있다. 따라서 설명을 가능한 한 간단하게 제공하고 그래프, 차트, 시각화 도구 등을 사용해 설명을 시각적으로 표현함으로써 기술적 배경이 없는 사용자도 이해할 수 있도록 해야 한다. 둘째, 지역적 설명의 한계로 LIME 의 경우 개별 예측에 대해 지역적(local)으로 해석을 제공하므로, 전체 모델의 전역적(global) 동작 방식을 설명하는 데 한계가 있다. 이 문제를 해결하기 위해서 다양한 샘플링을 통해 여러 인스턴스에 대해 LIME을 적용하고, 이를 종합하여 모델의 전역적 동작 방식을 설명 하도록 해야 한다. 셋째, 계산의 복잡성으로 SHAP 값 계산은 특히 대규모 데이터 셋이나 복잡한 모델의 경우 매우 많은 시간이 소요될 수 있다. 그러므로 데이터를 샘플링하여 사용하거나 정확한 SHAP 값 대신 근사치(Approximate SHAP values)를 계산하는 방법을 사용한다. 예를 들어, TreeSHAP를 사용해 트리 기반 모델의 SHAP 값을 빠르게 계산할 수 있다. 넷째, 모델 무관성의 한계로 SHAP 값은 모델 무관적으로 적용될 수 있지만, 이는 모든 모델에 대해 항상 적절하거나 유효하지 않을 수 있다. 따라서 모델 특화 SHAP 기법(TreeSHAP, DeepSHAP 등)을 사용하여 각 모델에 최적화된 SHAP 값을 계산하는 방법이 필요하다.

Ⅲ. 기존 수주량 예측의 문제점과 대응 방안

3.1 문제점

관리자의 경험에 의한 기존 수주량 예측 방식은 다음과 같은 문제점을 가질 수 있다. 첫째, 주관적인 판단이다. 경험에 의한 예측은 개인의 주관과 경험에 크게 의존한다. 이로 인해 예측이 편향될 수 있으며, 다양한 변수나 요인을 객관적으로 고려하지 못할 수 있다. 둘째, 과거 경험에 한정된 예측이다. 경험에 의한 예측은 종종 과거의 패턴이나 경험을 기반으로 이루어진다. 이는 현재의 변화된 환경을 반영하지 못할 수 있으며, 새로운 상황에 대응하기 어려울 수 있다. 섯째, 정보의 부족으로 경험에 의한 예측은 종종 제한된 정보나 데이터에 기반하기 때문에 중요한 변수나 요인들을 놓칠 수 있다. 이로 인해 예측의 정확성이 저하될 수 있다. 넷째, 인과관계의 모호함을 들 수 있다. 경험에 의한 예측은 종종 인과관계를 명확하게 이해하지 못할 수도 있다. 따라서 부정확한 인과관계에 의한 예측이 발생할 수 있다.

3.2 대응방안 제시

고급 분석 기술의 도입 및 머신러닝 또는 딥러닝과 같은 인공지능 분석 기술을 도입하여 복잡한 패턴을 탐지하고 미래의 수주량을 예측할 수 있다. 또한, 다변량 분석 및 통계 모델링을 활용하면 수주량 예측에 영향을 미치는 다양한 변수를 포함하여 다변량 분석 및 통계 모델을 적용하여 예측 정확성을 높일 수 있다. 순차적으로 정량적 분석 및 모델링을 시도하여 수학적 모델링과 통계적 분석을 통해 예측을 수행하고, 정량적인 지표를 활용하여 예측의 정확성을 검증한다. 최종적으로 실시간 예측 및 모니터링을 수행하여, 실시간 데이터를 활용하여 예측 모델을 업데이트하고 실제 수주량을 모니터링하여 신속하게 대응할 수 있는 시스템을 구축하는 방법을 구현해 나가게 된다.

그러기 위해서는 통합 데이터 플랫폼 구현하여야 하는데, 다양한 데이터 소스를 통합하여 종합적인 정보를 활용할 수 있는 데이터 플랫폼을 구축 후 이를 통해 예측 모델에 입력 데이터 및 전문가 시스템에 학습되어야 한다. 수주량 예측 모델에 XAI알고리즘을 결합하여 도메인에 대한 깊은 이해와 고급 데이터 분석 기술을 융합하여 보다 정확한 설명 가능한 예측 결과를 도출할 수 있다.

이러한 방안은 기존의 비정량적인 경험 즉, 현장의 제조 노하우(경험)에 의한 수주량 예측 문제점을 개선할 수가 있다. 결국, 알고리즘 기반의 정확하고 정량적인 AI 예측 시스템 및 설명가능한 인공지능인 XAI 기반 수주량 예측시스템으로 전환이 가능하다는 점으로 기여 할 수 있다.

Ⅳ. 수주량 예측 연구

4.1 데이터 전처리

본 연구는‘사출성형 공급망 최적화 AI 모델’ 의 데이터 셋과 전처리 알고리즘을 사용한다. 전처리 전 데이터 셋은 표 1과 같다.

Table 1.

Dataset before preprocessing

표 2처럼 해당 데이터 셋에는 일자 및 시간대별 다양한 수주량 정보가 포함되어 있으며 이중 ‘T일 예정 수주량’ 정보를 종속변수로, 나머지 수주량 관련 정보들을 독립변수로 사용할 것이다.

Table 2.

Descriptive statistics of key variables

변수별 누락된 데이터의 확인, 불필요한 행 제거, 주요 변수 선정, 시계열 형태로 데이터 재배열 등의 데이터 전처리 과정을 통해 표 3과 같은 형태의 실험용 데이터 셋이 생성되었다.

Table 3.

Dataset after preprocessing

4.2 수주예측 모델 생성

본 절에서는 XGBoost 라이브러리의 XGBRegressor 알고리즘을 이용하여 모델을 학습시켰다[28]. 실험용 데이터는 학습데이터 70%, 평가데이터 30% 의 비율로 분리하여 사용했다. 모델의 평가지표는 평균절대오차(MAE, Mean Absolute Error)를 사용했다. 총 9,282 건의 실험 데이터를 학습 70%(6,497 건), 평가 30%(2,785건) 으로 분리하여 모델을 생성하고 학습시켰다. 학습된 모델을 통해 총 2,785 건의 평가 독립변수를 반영하여 동건의 예측값(종속변수)이 생성되었다. 생성된 모델을 평가하기 위해 sklearn.metrics 라이브러리를 활용하여 평균절대오차(MAE) 값을 측정하여 다음과 같은 값을 얻었다.

MAE : 11.892211082141639

마지막으로 실제 수주 수량과 모델의 예측 수량을 시각적으로 비교하였다. 그림 6은 평가 데이터 전체 2,785 건의 실제 수주량과 예측된 수주량을 비교한 것이다. 빨간색은 평가 데이터이고 파란색은 예측 데이터이다. 두 데이터가 거의 일치함을 알 수 있다.

Fig. 6.

Comparison of order volume data across all segments

그림 7은 좀 더 자세히 살펴보기 위해 평가 데이터 중 0 ~ 100 구간에 대해 실제 수주량과 예측된 수주량을 비교한 것이다. 이 구간에서도 두 데이터가 거의 일치함을 알 수 있다.

Fig. 7.

Comparison of order volume data for some sections 1

그림 8은 1100 ~ 1200 구간에 대해 실제 수주량과 예측된 수주량을 비교한 것이다. 이 구간에서도 두 데이터가 대부분 일치함을 알 수 있다.

Fig. 8.

Comparison of backlog data for selected segments2

4.3 LIME 알고리즘을 이용한 모델 분석

본 절에서는 XAI의 LIME 알고리즘 중 LimeTabularExplainer 클래스를 사용하여 모델을 분석했다. 생성된 LIME explainer에 단일 데이터를 입력하여 각 독립 변수들이 모델의 예측결과에 어느 정도의 영향을 주었는지 각각 시각화하여 고찰하였다[29]. 전처리된 70%의 학습데이터를 통해 생성된 6,497 row 중 3건의 단일 데이터를 입력하여 그림 9과 같은 설명 결과가 생성되었다.

Fig. 9.

Application of the LimeTabularExplainer class

그림에서 positive는 긍정적 영향을 준 독립변수이고 negative는 부정적 영향을 준 독립변수이다. 입력된 단일 데이터에 따라 다른 설명 결과가 나오는 것을 알 수 있다.

4.4 SHAP 알고리즘을 이용한 모델 분석

본 절에서는 XAI의 SHAP 알고리즘 중 TreeExplainer 클래스를 사용하여 Shapley Value를 생성했다. 생성된 Shapley Value의 단일, 부분, 전체 범위에 대하여 각 독립변수들이 모델의 예측결과에 어느정도 영향을 주었는지 각각 시각화하여 관찰해 보았다[30]. 전처리된 70%의 학습데이터를 통해 생성된 6,497 row의 Shapley Value를 단일, 부분(10 row), 전체(6,497 row) 범위를 대상으로 시각화하여 출력해 보았다. 그림 10에서 빨간색으로 표시된 부분은 모델의 결괏값에 긍정적인 영향을 준 독립변수들이다. 그 반대로 파란색 부분은 부정적인 영향을 끼친 독립변수들로 위의 그림에선 ‘T-1일 예정 수주량’ 가장 긍적적인 영향을 주었고 작년 ‘T-2일 예정 수주량‘ 이 가장 부정적인 영향을 주었음을 확인 할 수가 있다.

Fig. 10.

SHAP application results

그리고, 그림 10은 부분 데이터(10 row)에 대한 SHAP의 설명 결과를 시각화한 것이다. row 별로 다양하게 영향을 준 독립변수들을 시각화하여 표현해주고 있다. 특히 4~6 row 구간에는 모든 독립변수들이 부정적인 영향을 끼치고 있는 것을 알 수 있었다.

그림 11은 독립변수별 기여도를 모델 전체 범위로 확장하여 시각화한 것이다. 모델 전체 범위에서는 ‘작년 T-2일 예정 수주량’ 이 가장 긍적적인 영향을 주었고 ‘T-3일 예정 수주량’ 이 가장 부정적인 영향을 미친 것을 알 수 있다.

Fig. 11.

SHAP's description result #1

그림 12는 모델 전체 범위에 대한 독립 변수 별 기여도를 bar 형식으로 표현한 것이다[31].

Fig. 12.

SHAP's description results #2

Ⅴ. 결 론

본 논문은 제조업의 효율적인 재고관리를 위한 수주량 예측에 대한 연구이다. 기존에는 관리자의 경험이나 과거의 평균량을 산출하여 수주량 예측에 사용하였다. 하지만 이러한 방법들은 앞서 기술한 여러 가지 문제점이 발생할 수 있다. 이를 해결하기 위해 인공지능의 딥러닝 알고리즘을 도입하여 수주량 예측 모델을 생성하여 수주량 예측에 사용할 수 있는 방법을 소개하였으며, 실제 실험 후 결과를 도출하였다.

더 나아가 생성된 모델에 XAI의 LIME과 SHAP 알고리즘을 적용하여 모델의 예측 결과에 영향을 준 속성들을 파악하고 그 결과를 관찰하였다. 전처리 과정을 거친 9,282건의 데이터를 학습 70% (6,497건), 평가 30% (2,785건)으로 분리하여 XGBRegressor 알고리즘으로 수요 예측 모델을 학습 후 생성된 모델을 평가하기 위해 sklearn.metrics 라이브러리를 활용하여 평균절대오차(MAE)로 11.892211082141639의 값이 도출하였다. 그리고, 학습된 모델의 예측값과 평가 데이터의 실제 수주량을 비교하여 대부분의 데이터가 유사함을 확인하여 실제 재고관리 업무에 적용할 수 있음을 확인하였다. 최종적으로 XAI 의 LIME 알고리즘을 통해 단일 데이터에 대해 모델의 예측 결과에 긍정적 또는 부정적 영향을 미친 독립변수들을 파악하였고, SHAP 알고리즘을 통해 단일, 부분, 전체 데이터에 대해 긍정적 또는 부정적 영향을 준 독립변수들을 파악하였다. 본 논문의 학술 및 현업에서의 기여도로 중소 제조업체들의 재고관리 업무에 인공지능 알고리즘이 도입되어 실제와 유사한 예측값을 활용하하는 점으로, 본 논문의 실험을 통해 그 결과에 영향을 준 속성들까지 파악하여 제공하였다. 데이터 및 관련 파일은 https://github.com/bertter/xai/upload에서 활용가능하다.

향후 급변하는 현대 제조업 경영 전략 수립에 도움이 되었으면 하고, 지속적으로 더 다양한 데이터 셋과 다양한 인공지능 알고리즘 및 XAI 알고리즘을 통해 추가적인 연구를 진행할 예정이다.

Acknowledgments

이 논문은 2024년도 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원의 지원을 받아 수행된 연구임(No. RS-2024-00337489, 분석 모델의 성능저하 극복을 위한 데이터 드리프트 관리 기술 개발)

References

Sejong Law Firm, "AI Legislation Issues", Jun. 2023. https://www.shinkim.com/kor/media/newsletter/2145, [accessed: Aug. 22, 2024]
J. Hong, J. Kim, S. Kim, and S. Choi, "Injection Process Yield Improvement Methodology Based on eXplainable Artificial Intelligence (XAI) Algorithm", Journal of Korean Society for Quality Management, Vol. 51, No. 1, pp. 55-65, Mar. 2023. [https://doi.org/10.7469/JKSQM.2023.51.1.55]
B. V. Aken, B. Winter, A. Löser, and F. A. Gers, "How does bert answer questions? a layer-wise analysis of transformer representations", Proc. of the 28th ACM international conference on information and knowledge management, Beijing China, pp. 1823-1832, Nov. 2019. [https://doi.org/10.1145/3357384.3358028]
Z. Yang, P. Qi, S. Zhang, Y. Bengio, W. Cohen, R. Salakhutdinov, and C. D. Manning, "HotpotQA: A dataset for diverse, explainable multi-hop question answering", arXiv preprint arXiv:1809.09600, , Sep. 2018. [https://doi.org/10.48550/arXiv.1809.09600]
C. Yeh, B. Kim, S. Arik, C. Li, T. Pfister, and P. Ravikumar, "On completeness-aware concept-based explanations in deep neural networks", Advances in neural information processing systems, Vol. 33, pp. 20554-20565, Dec. 2020.
A. B.o Arrieta, et al., "Explainable Artificial Intelligence (XAI): Concepts, taxonomies, opportunities and challenges toward responsible AI", Information Fusion, Vol. 58, pp. 82-115, Jun. 2020. [https://doi.org/10.1016/j.inffus.2019.12.012]
S. Shekarpour, F. Alshargi, and M. Shekarpour, "Towards explainable question answering (xqa)", Proceedings of the AAAI Fall Symposium 2020 on AI for Social Goods, Vol. 2884, Nov. 2020.
M. Christoph, "Interpretable machine learning. A Guide for Making Black Box Models Explainable", Leanpub, Feb. 2020.
"Explainable AI (XAI) - How AI Works", YouTube, https://www.youtube.com/watch?v=ai-4wh7z5FY, [accessed: Aug. 22, 2024]
K. Simonyan, A. Vedaldi, and A. Zisserman, "Deep inside convolutional networks: Visualising image classification models and saliency maps", arXiv preprint arXiv:1312.6034, , Dec. 2013. [https://doi.org/10.48550/arXiv.1312.6034]
P. Liznerski, L. Ruff, R. A. Vandermeulen, B. J. Franks, M. Kloft, and R. A. Vandermeulen, "Explainable deep one-class classification", arXiv preprint arXiv:2007.01760, , Jul. 2020. [https://doi.org/10.48550/arXiv.2007.01760]
T. Chen and C. Guestrin, "Xgboost: A scalable tree boosting system", Proceedings of the 22nd acm sigkdd international conference on knowledge discovery and data mining, an Francisco California USA, pp. 785-794, Aug. 2016. [https://doi.org/10.1145/2939672.2939785]
H. Schuff, H. Adel, and N. T. Vu, "F1 is not enough! models and evaluation towards user-centered explainable question answering", arXiv preprint arXiv:2010.06283, , Oct. 2020. [https://doi.org/10.48550/arXiv.2010.06283]
B. Kim, M. Wattenberg, J. Gilmer, C. Cai, J. Wexler, F. Viegas, and R. Sayres, "Interpretability beyond feature attribution: Quantitative testing with concept activation vectors (tcav)", International conference on machine learning, PMLR, Stockholm, Sweden, pp. 2668-2677, Jul. 2018.
D. V. Carvalho, E. M. Pereira, and J. S. Cardoso, "Machine learning interpretability: A survey on methods and metrics", Electronics, Vol. 8, No. 8, pp. 832, Jul. 2019. [https://doi.org/10.3390/electronics8080832]
"CRM", ITwiki, https://itwiki.kr/CRM, [accessed: Aug. 22, 2024]
"Major AI-Related Bill Proposals and Policy Trends", SHIN&KIM, https://kr.linkedin.com/pulse/crmcustomer-relationship-managemen, [accessed: Aug. 22, 2024]
"Introduction to Boosted Trees", XGBoost, https://xgboost.readthedocs.io/en/stable/tutorials/model.html, [accessed: Aug. 22, 2024]
"A Brief History of AI", YouTube, https://www.youtube.com/watch?v=Grc7egfZP84&t=206s, [accessed: Aug. 8, 2024]
A. Das and P. Rad, "Opportunities and challenges in explainable artificial intelligence (xai): A survey", arXiv preprint arXiv:2006.11371, , Jun. 2020. [https://doi.org/10.48550/arXiv.2006.11371]
"How do Neural Networks Work?", YouTube, https://www.youtube.com/watch?v=77-UcmHbBIk&t=1s, [accessed: Aug. 6, 2024]
D. Gunning and D. Aha, "DARPA's explainable artificial intelligence (XAI) program", AI Magazine, Vol. 40, No. 2, pp. 44-58, 2019. [https://doi.org/10.1609/aimag.v40i2.2850]
B. Koo, "National Strategic Technology and Technology Sovereignty Brief: Safe and Trusted AI", Korea Institute for Science and Technology Planning and Evaluation, Apr. 2024.
M. T. Ribeiro, S. Singh, and C. Guestrin, "“Why should i trust you?” Explaining the predictions of any classifier", Proc. of the 22nd ACM SIGKDD international conference on knowledge discovery and data mining, pp. 1135-1144, San Francisco California USA, Aug. 2016. [https://doi.org/10.1145/2939672.2939778]
"CS 545 (Spring 2020) Lecture 21: XAI", YouTube, https://www.youtube.com/watch?v=3L1QbZvWoI0&t=1500s, [accessed: Aug. 1, 2024]
S. M. Lundberg and S. Lee, "A unified approach to interpreting model predictions", Advances in neural information processing systems, Vol. 30, pp. 4765-4774, Dec. 2017.
"Prisoners dilemma", Britannica, https://www.britannica.com/topic/prisoners-dilemma, [accessed: Aug. 22, 2024]
T. Chen and C. Guestrin, "Xgboost: A scalable tree boosting system", Proc. of the 22nd acm sigkdd international conference on knowledge discovery and data mining, San Francisco California USA, pp. 785-794, Aug. 2016. [https://doi.org/10.1145/2939672.2939785]
"Explainable AI (XAI) - Introduction with Simple Example", YouTube, https://www.youtube.com/watch?v=jnfthmZs0_w&list=TLPQMjQwMjIwMjSHTQyJmRKo6A&index=2, [accessed: Aug. 22, 2024]
Y.-G. Kim, "Model analysis by sharing LIME and SHAP models", Journal of the Institute of Internet, Broadcasting and Communications(IIBC), Vol. 24, No. 2, pp. 177-184, Apr. 2024. [https://doi.org/10.7236/JIIBC.2024.24.2.177]
M.-A. Lim, S.-Y. Hwang, and J.-J. Kim, "Deep learning-based custom problem recommendation algorithm to improve learning rate", The Journal of The Institute of Internet, Broadcasting and Communication (IIBC), Vol. 22, No. 5, pp. 171-176, Oct. 2022. [https://doi.org/10.7236/JIIBC.2022.22.5.171]

저자소개

정 연 수 (Yeonsu Jung)

2024년 8월 : 동국대학교 국제정보보호 대학원 정보보호학석사(인공지능보안)

2021년 8월 ~ 현재 : 자이오넥스 부장

관심분야 : 딥러닝, XAI

윤 철 희 (Yoon Cheol Hee)

2004년 2월 : 한성대학교 정보시스템학과(공학사)

2016년 8월 : 고려대학교 디지털포렌식학과(공학석사)

2023년 2월 : 연세대학교 기술정책(공학박사)

2024년 8월 : 극동대학교 인공지능보안학과(공학박사)

2017년 6월 ~ 현재 : 치안정책연구소 연구관

관심분야 : 데이터분석, 딥러닝

Column	Explanation	Data type	Number of lines
Product_Number	product type	string	34,617
Expected order volume for T ~ T+4 days	Planned quantity (order quantity)	int	34,617
Expected order volume from T to T+4 last year	Last year's quantity (order quantity)	int	34,617
Expected order volume for T ~ T+4 days	Expected quantity (order quantity) measured by the company	int	34,617
DateTime	Record time down to the second when measuring	object	34,617
DoW	Day of the week	object	34,617
Temperature	Temperature	float	34,617
Humidity	Humidity	float	34,617

Column	Data type	Count	Average	Standard deviation	Min. value	Median	Max. value
Expected order volume for T day	int	34617	101.468	168.004	0.0	2.0	30.0
Expected order volume for T+1 day	int	34617	67.014	131.213	0.0	0.0	5.0
Expected order volume for T+2 days	int	34617	48.758	115.2	0.0	0.0	0.0
Expected order volume for T+3 days	int	34617	51.889	115.112	0.0	0.0	0.0
Expected order volume for T+4 days	int	34617	60.856	123.275	0.0	0.0	1.0
Expected orders received on T last year	int	34617	63.71	127.47	0.0	0.0	1.0
Expected orders received on T-1 last year	int	34617	70.923	133.088	0.0	0.0	8.0
Expected orders received on T-2 last year	int	34617	89.927	146.436	0.0	0.0	28.0
Expected orders received on T-3 last year	int	34617	76.281	138.962	0.0	0.0	11.0
Expected orders received on T-4 last year	int	34617	55.156	120.927	0.0	0.0	0.0
Estimated order volume for T day	int	34617	71.218	134.574	0.0	0.0	5.0
Estimated order volume for T+1 day	int	34617	73.145	135.423	0.0	0.0	8.0
Estimated order volume for T+2 days	int	34617	71.893	135.46	0.0	0.0	5.0
Estimated order volume for T+3 days	int	34617	77.255	138.454	0.0	0.0	10.0
Estimated order volume for T+4 days	int	34617	76.309	138.171	0.0	0.0	6.0
Temperature	float	34617	18.06	5.222	8.191	13.41	19.544
Humidity	float	34617	35.618	80.93	11.53	21.799	28.932

Column	Explanation	Data type	Number of lines
Expected order volume for T day	dependent variable	int	9,282
Expected order volume for T-1 day	independent variable	int	9,282
Expected order volume for T-2 days	independent variable	int	9,282
Expected order volume for T-3 days	independent variable	int	9,282
Expected order volume for T-4 days	independent variable	int	9,282
Expected orders received on T last year	independent variable	int	9,282
Expected orders received on T-1 last year	independent variable	int	9,282
Expected orders received on T-2 last year	independent variable	int	9,282
Expected orders received on T-3 last year	independent variable	int	9,282
Expected orders received on T-4 last year	independent variable	int	9,282
Estimated order volume for T day	independent variable	int	9,282
Estimated order volume for T-1 day	independent variable	int	9,282
Estimated order volume for T-2 days	independent variable	int	9,282
Estimated order volume for T-3 days	independent variable	int	9,282
Estimated order volume for T-4 days	independent variable	int	9,282