[ Article ]

The Journal of Korean Institute of Information Technology - Vol. 23, No. 7, pp.49-55

ISSN: 1598-8619 (Print) 2093-7571 (Online)

Print publication date 31 Jul 2025

Received 25 Jun 2025 Revised 15 Jul 2025 Accepted 18 Jul 2025

DOI: https://doi.org/10.14801/jkiit.2025.23.7.49

인공지능 기반 중소 화장품 기업의 제조 공정 예측 모델 제안

강영식^*

; 정진우^**

; 곽명신^*

; 장경환^***

; 이한준^*

*명지대학교 경영정보학과 교수
**인프라시스템 상무
***리봄화장품(주) 기술연구소 수석연구원
*명지대학교 경영정보학과 교수(교신저자)

An AI-based Process Prediction Model for SMEs in the Cosmetics Manufacturing Industry

Youngsik Kang^*

; JinWoo Jung^**

; Mingxin Guo^*

; Gyeonghwan Jang^***

; Hanjun Lee^*

Correspondence to: Hanjun Lee Dept. of Management Information Systems, Myongji University, Korea Tel.: +82-2-300-0772, Email: hjlee1609@gmail.com

초록

본 연구는 인공지능(AI) 기반 공정 예측 기술을 활용하여 중소 화장품 제조기업이 직면한 공정 품질 변동성과 낮은 AI 활용률 문제를 해결하고자 한다. 이에 실제 기업의 ERP 및 MTS 시스템에서 수집된 온도, 교반 속도(RPM) 등 다차원 공정 데이터를 기반으로, XGBoost 모델을 활용한 예측 모델을 구축하였다. 데이터 전처리, 이상치 제거, 라벨 인코딩, 정규화를 거친 후, Optuna 기반 베이지안 최적화 기법으로 하이퍼파라미터 튜닝을 수행하였다. 분석 결과, XGBoost 모델은 온도 예측에서 74.29%, RPM 예측에서 78.45%의 정확도를 기록하였으며, 공정 시간 백분율과 생산량이 핵심 변수로 도출되었다. 본 연구는 전통적 머신러닝 모델로도 중소기업 제조 공정에서의 실시간 예측이 가능함을 입증하였으며, 이는 향후 중소기업의 스마트 제조 도입 촉진과 품질·비용 효율성 제고에 기여할 수 있을 것으로 기대된다.

Abstract

This study aims to address the challenges of process quality variability and the low utilization of artificial intelligence in small and medium-sized cosmetics manufacturing enterprises. To this end, a predictive model was developed using the XGBoost algorithm, based on multidimensional process data—such as temperature and RPM—collected from actual ERP and MTS systems. The data underwent preprocessing, outlier removal, label encoding, and normalization, followed by hyperparameter tuning using Bayesian optimization with the Optuna framework. As a result, the XGBoost model achieved prediction accuracies of 74.29% for temperature and 78.45% for RPM, with process duration percentage and production quantity identified as key influencing factors. This research demonstrates that even traditional machine learning models can effectively enable real-time process prediction in SME manufacturing environments, thereby facilitating the adoption of smart manufacturing practices and improving both quality and cost efficiency.

Keywords:

AI, cosmetic manufacturing, XGBoost, machine learning, SME

Ⅰ. 서 론

식약처에서 2023년 발표한 2023년 화장품산업 통계자료에 따르면, 국내 화장품 산업은 2023년 총 생산액 14조 5,102억 원을 기록하여 전년 대비 6.8% 성장하며, 4,567곳의 제조업체와 3만 1,524곳의 책임판매업체가 “4만 영업자 시대”를 열었다. 이 산업 생태계의 대부분은 종사자 300명 미만의 중소·벤처기업으로, 전체 생산 물량의 3분의 2 이상을 담당하고 있다[1]. 그러나 맞춤형·소량 다품종 시장으로 고도화되고 원료별 열·유변학 특성이 복잡해지면서, pH(산도)와 유화제 함량(Emulsifier ratio)이 미세하게 벗어나도 유·수상 분리나 보존제 효능 저하 등 제품 안정성에 심각한 문제가 발생하고 있다[2]. 이러한 복잡성에도 불구하고, 다수의 사업장은 여전히 경험 의존적 의사결정과 개별 설비 자동화 수준에 머물러 있으며, 2024년 정부 조사에 따르면 스마트공장 도입률은 19.5%였으나 제조 인공지능을 본격 활용하는 기업은 0.1%에 불과한 것으로 나타났다. 이로 인해 품질 편차로 인한 재작업 및 폐기 부담 증가와 에너지 비용 상승이 발생하며, 디지털 전환 격차는 곧 수익성 격차로 이어지고 있다. 특히 원자재 가격 변동과 ESG 규제 강화 속에서 실시간 데이터 기반의 열·교반 최적화는 기업의 생존을 위한 필수적인 전략이 되고 있다.

기존 화장품 제조 방식은 숙련된 연구원의 경험과 이론적 지식에 의존하여 최적의 공정을 찾는 방식으로 진행되어 왔으며, 이는 상당한 시간과 비용을 수반하고 인간의 주관적인 판단에 의한 오류 가능성을 내포한다. 인공지능은 단순한 데이터 처리를 넘어 공정 최적화, 품질 검사, 마케팅 전략 수립 등 다양한 역할을 수행할 수 있으며, 특히 자원이 제한적인 중소기업의 경우 인공지능을 도입하여 데이터를 분석함으로써 한정된 자원의 효과를 극대화할 수 있다[3]. 실시간 데이터 처리를 통해 생산 공정 중 발생할 수 있는 오류를 사전에 감지하고 수정함으로써 원재료 낭비를 줄이고 전반적인 생산 효율성을 향상시키는 사례들이 보고되고 있으며[4], 이는 중소 화장품 제조기업의 품질 경쟁력 강화와 비용 절감을 위해 설명형 인공지능 기반의 실시간 공정 관리 체계를 구축하고 활용할 필요가 있음을 시사한다.

이에 본 연구의 목적은 중소 화장품 제조 현장에서 데이터 기반 의사결정을 구현하여 공정 품질과 수익성을 동시에 향상시키는 것에 있다. 이를 통하여 본 연구는 중소 화장품 제조기업이 직면한 공정 변동성 문제를 완화하고 데이터 기반 스마트 제조로 전환하는 방안을 제시하고자 한다.

Ⅱ. 선행연구

2.1 인공지능 개요

인공지능(AI, Artificial Intelligence)은 과거에 정해진 규칙을 기반으로 작동하던 시스템에서 진화하여 컴퓨터가 데이터를 통해 스스로 학습하고 인간의 지능적인 행동을 모방 및 수행하게 하는 포괄적인 개념이다[5]. 최근 제4차 산업혁명과 함께 인공지능 기술은 화장품 산업에서도 자동화 생산, 트렌드 분석, 연구개발(R&D) 등에 적극적으로 도입되고 있다[3][5]-[7].

머신러닝은 지도 학습, 비지도 학습, 강화 학습의 세 가지 유형으로 구분된다[5]. 지도 학습은 레이블링된 대량의 데이터가 필요하다는 한계가 있지만, 비지도 학습은 사전 레이블 없이 패턴을 학습하며, 강화 학습은 시행착오를 통해 최적의 행동을 찾아간다. 화장품 산업에서는 머신러닝을 활용하여 제품 개발 및 생산 공정을 최적화하고, 성분 선택, 제조 공정 조정, 성능 평가 등을 효율화하며, 생산 일관성 유지 및 자원 낭비 감소에 기여한다.

딥러닝은 화장품 산업에서 소비자 맞춤형 화장품 개발, 품질 관리 및 생산 공정 최적화, 마케팅 및 소비자 트렌드 분석에 활용되고 있다. 특히 딥러닝 기반 자연어 처리(NLP, Natural Language Processing) 기술은 소셜 미디어, 온라인 리뷰 분석 등에 도입되고 있으며, 대형 언어 모델(LLM, Large Language Model)은 맞춤형 화장품 추천 및 가상 메이크업 기능, 제품 개발 및 마케팅 전략 수립에 유의미한 인사이트를 제공한다.

2.2 중소기업 화장품 산업에서의 인공지능 기술 도입 현황

인공지능은 공정 최적화, 품질 검사, 마케팅 전략 수립 등 다양한 역할을 수행하며, 특히 자원이 제한된 중소기업에게 한정된 자원의 효과를 극대화하는 데 중요하다. 복잡한 데이터 처리나 자율 학습 능력이 필수적인 분야에서는 기존 자동화 기술의 한계를 극복하기 위해 인공지능 도입이 필요하며, 실시간 데이터 처리를 통해 원재료 낭비를 줄이고 생산 효율성을 향상시키는 사례들이 보고되고 있다. 기존 머신러닝 모델은 비선형적 변수 상호작용이나 복잡한 데이터 구조를 다루는 데 한계가 있어, 딥러닝 기술이 비정형 데이터를 효과적으로 처리하고 예측 정확도를 향상시키는 대안으로 부상하고 있다.

화장품 제조 산업에서는 딥러닝과 머신러닝을 활용한 공정 최적화 및 품질 예측 연구가 활발히 진행되고 있으며, 피부분석, 소비자 맞춤형 시스템 추천, 마케팅 전략 수립 외에 배합 최적화, 실험 자동화, 품질 예측 및 공정 제어 영역으로 확대되고 있다. [3]의 연구에서는 인공지능 기반 자동화 시스템이 피부 분석 속도를 92% 향상시키고 오류를 최소화함을 입증했으며, [6]의 연구에서는 머신러닝을 활용한 원료 개발 및 성능 예측 연구를 수행했다. [7]의 연구에서는 인공지능과 로봇 시스템을 결합하여 화학 제품 및 공정 설계를 최적화했으며, [8]의 연구에서는 딥러닝 기반으로 화장품 젤의 물리적 특성을 분석하여 공정 최적화를 지원했다. [9]의 연구에서는 머신러닝으로 샴푸 배합을 최적화하고 자동화 실험을 통해 고속 데이터셋을 구축했으며, [5]의 연구에서는 인공지능, RPA(Robotic Process Automation), 프로세스 마이닝을 연계한 초자동화 시스템이 업무 속도와 정확도를 향상시킴을 보였다. 그러나 중소기업의 인공지능 도입에는 여러 장애 요인이 존재한다[10]. 높은 초기 투자 비용, 특수 소프트웨어 및 고성능 하드웨어 도입 비용, 지속적인 유지보수 비용은 중소기업에 큰 부담으로 작용한다. 또한, 데이터 과학, 머신러닝, 딥러닝 분야의 전문 인력 부족과 데이터 관리 시스템 부재가 기술 적용 및 최적화에 어려움을 초래한다. 아울러, 경영진과 직원들 사이의 기술에 대한 인식 부족 및 수용성 문제, 그리고 중소기업 규모에 적합한 맞춤형 솔루션 부족도 주요 장애 요인으로 지적된다. 따라서 본 연구는 이미 운영 중인 기업의 내부 시스템 데이터를 활용하고, 오픈소스 기반의 경량 머신러닝 모델과 자동 하이퍼파라미터 탐색을 통하여 고가 장비·전문 인력 의존도를 최소화한다. 아울러 측정과 수집이 용이한 핵심 항목에 집중한 단계적 도입 로드맵을 제시함으로써, 중소기업이 직면한 초기 투자 비용 부담, 데이터 및 인력 부족, 맞춤형 솔루션 부재 등의 제약을 실질적으로 완화하고 스마트 제조로의 연착륙 경로를 구체적으로 제안하고자 한다.

Ⅲ. 연구 방법

3.1 연구 개요

본 연구는 중소 화장품 제조 현장에서 데이터 기반 의사결정을 통해 공정 품질 및 수익성 제고를 목표로 한다. 연구 프로세스는 그림 1과 같이 데이터 수집, 전처리, 모델링, 성능 분석의 4단계로 구성된다.

Fig. 1.

Research process flow

본 연구는 R기업의 생산 공정 데이터를 활용했으며 이는 ERP(Enterprise Resource Planning) 및 MTS(Manufacturing Tracking System) 시스템에 축적된 정보를 기반으로 한다. 데이터셋은 공정 정의(Dsc_Proc), 10초 단위 온도값(CHV_MTemp), 10초 단위 RPM값(CHV_HMRPM) 세 가지 주요 파일로 구성된다. 데이터는 제품 제형, 작업지시, 품목코드, 작업 유형, 세부 작업 설명, 작업 순서 키, 30가지 이상의 원료 투입 여부, 생산량, 가마 용량, 지속시간, 실제 측정된 RPM 및 온도, 공정 시간 백분율 등 다양한 변수를 포함한다.

3.2 데이터 전처리

데이터 전처리 과정은 총 다섯 단계로 진행되었다. 먼저 1단계(데이터 불러오기 및 정제)에서는 SQL DB에서 데이터 추출, 로그 기록, 문자열 공백 제거, 데이터 형식 통일, 불필요한 열 제거, MainTemp ≤ 0 또는 HomoRPM ≤ 10인 비정상 값 제거를 통해 데이터의 일관성과 신뢰성을 확보했다. 다음으로 2단계(데이터 그룹화)에서는 공정 정의 데이터를 기준으로 특성을 선별하고, HomoRPM 및 MainTemp 데이터와 병합하여 최종 학습용 데이터셋을 구성했다. 3단계(데이터 피처링)에서는 idx 컬럼 생성(SEQKEY, OPRDSC_1, OPRDSC_2 조합), IQR 기법을 통한 이상치 제거, Duration_100 변수를 0~1 범위의 비율 데이터로 변환했다. 4단계(데이터 인코딩 및 정규화)에서는 TypeJH, OPRDSC_1, OPRDSC_2 특성에 LabelEncoder 적용, 모든 수치형 특성에 MinMaxScaler를 적용하여 스케일 차이를 줄였다. 5단계 (데이터셋 구성)에서는 2024년 11월 20일 데이터를 사용하여 RPM을 예측하기 위한 521,971개, Temp(온도)를 예측하기 위한 679,430개 데이터를 분석에 활용했으며, 학습(80%), 검증(10%), 테스트(10%) 비율로 분할하여 데이터 누수를 방지했다.

3.3 모델링

화장품 제조 공정 데이터는 시간 의존성이 강하며 이를 고려하여 XGBoost 모델을 주요 학습 모델로 선정했다. XGBoost는 비시계열적 특성과 희소한 범주형 데이터 처리에 강점을 보인다[11]. 또한, 트리 기반 구조를 활용하여 중요한 특성을 효과적으로 식별할 수 있다. 과적합 방지를 위해 검증 손실 기준으로 성능 개선이 없을 시 학습을 자동 중단하게 된다.

시계열 데이터의 순차성과 데이터 누수 방지를 위해 전체 데이터를 Train, Validation, Test 세트로 분할하여 고정된 검증 기반 학습 방식을 채택했다. 모델은 Validation Set에서의 예측 성능을 기준으로 튜닝되었으며, 최종 모델은 Test Set으로 평가되었다.

하이퍼파라미터 최적화를 위하여 XGBoost 단일 모델에 대해 Optuna 라이브러리의 TPE 알고리즘을 활용하여 주요 하이퍼파라미터의 최적값을 탐색했다. 베이지안 최적화는 효율적이고 수렴이 빠르기 때문에 선택되었다. RMSE, MAE, Accuracy(±2 허용 오차 기준)를 종합적으로 고려하여 최적 파라미터 조합을 도출했다. 각 파라미터의 튜닝 범위는 표 1과 같다.

Table 1.

Tuning ranges for hyperparameter optimization

Ⅳ. 연구 결과

구축한 XGBoost 모델의 Temp 및 RPM 예측 성능은 표 2에 제시하였다. XGBoost는 모든 주요 지표에서 대체로 우수한 성능을 보였으며, 특히 RPM 예측에서 RMSE 276.86, 정확도 78.45%, Temp 예측에서 RMSE 5.7, 정확도 74.29%를 기록했다. 양 모델의 R²값이 각각 0.912, 0.85로서 높은 것은 모델이 각 목표 변수의 변동성을 잘 설명함을 보여준다. 모델별로 도출된 최적 파라미터값은 표 2와 같다.

Table 2.

Performance of the proposed models

표 3은 두 모델에 대한 최적 파라미터를 나타낸다. Temp 예측의 max_depth가 RPM 예측보다 현저히 높은 96으로 나타나, 온도 예측에 더 복잡한 변수 관계가 있음을 시사한다.

Table 3.

Optimal hyperparameters by models

끝으로 본 연구에서는 그림 2 및 3과 같이 변수중요도 분석을 진행하였다. 변수중요도 분석은 예측 모델에서 각 독립변수의 종속변수에 대한 영향력의 크기를 정략적으로 평가하는 기법이다[12]. 두 예측 과제 모두에서 Duration_100(공정 시간 백분율)과 SORCURQ(생산량) 변수가 공통적으로 가장 높은 중요도를 나타내어, 공정 시간과 투입량이 화장품 제조 공정의 핵심 결정 요인임을 확인할 수 있었다. 이러한 결과는 특정 화장품 제품이나 공정 단계에 관계없이, 작업 지속 시간과 재료의 정밀한 투입량이 원하는 온도 및 교반 프로파일을 유지하는 데 가장 중요한 매개변수임을 의미한다. 이는 모든 화장품 제조 공정에 적용될 수 있는 보편적인 실행 가능한 지침을 제공하며, 시간 관리 및 수량 제어 시스템에 대한 투자가 광범위한 이점을 가져올 것임을 시사한다. 이 두 변수는 공정 제어의 가장 강력한 지렛대 역할을 함을 확인하였다.

Fig. 2.

Feature importance(Temp prediction)

Fig. 3.

Feature importance(RPM prediction)

Ⅴ. 결론 및 시사점

본 연구의 결과를 요약하면 다음과 같이 정리할 수 있다. 본 연구는 화장품 제조 공정 데이터를 기반으로 온도 및 교반 속도 예측을 위한 XGBoost 모델을 성공적으로 구축했으며, 하이퍼파라미터 최적화를 통해 현업에서 활용가능한 수준의 예측 정확도를 달성하였다. 또한 XGBoost는 시계열 예측 문제에서 우수한 일반화 성능을 보였으며, 정적 범주형 변수와 연속 변수의 복합 상호작용 학습에 강점을 보였다.

본 연구 결과는 중소 화장품 기업이 데이터 기반 스마트 제조로 전환하기 위한 구체적이고 실질적인 로드맵을 제시한다.

특히 '공정 시간 백분율(Duration_100)'과 '생산량(SORCURQ)'이 온도 및 RPM 예측의 핵심 변수임이 밝혀진 점은 스마트 제조 도입을 위한 명확한 시작점을 제공한다. 이는 제한된 자원과 전문 인력으로 고민하는 중소기업이 모든 공정 데이터를 한 번에 관리하려 하기보다, 이 두 가지 핵심 지표를 우선적으로 디지털화하고 집중 관리하는 것만으로도 품질 안정성과 생산 효율성을 크게 개선할 수 있음을 시사한다.

따라서 본 연구가 제시하는 스마트 제조 전환 방안의 첫 단계는 ERP 및 MTS에 축적된 데이터를 활용해 '공정 시간'과 '생산량'을 정밀하게 추적하고, XGBoost와 같은 전통적 머신러닝 모델로 예측 시스템을 구축하는 것이다. 이 접근법은 전통적 머신러닝 모델로도 안정적인 공정 변수 예측이 가능함을 보여 중소기업의 AI 도입 장벽을 낮추며 , 실시간 공정 변화를 예측하고 이상 징후를 사전에 감지하는 기반을 마련해 준다. 이를 통해 숙련된 작업자의 경험에만 의존하던 기존 방식에서 벗어나 데이터에 근거한 선제적 조치를 취함으로써 품질 편차로 인한 재작업 및 폐기 부담을 줄이고 , 디지털 전환의 실질적인 첫걸음을 내디딜 수 있다. 결국 본 연구는 '어떤 변수에 집중해야 하는가'와 '어떤 기술로 시작해야 하는가'라는 중소기업의 근본적인 질문에 대한 해답을 제공하여, 막연하게 느껴졌던 스마트 제조 도입의 구체적인 이정표를 제시했다는 점에서 실무적 의의를 가진다.

후속 연구는 다음과 같은 방향으로 확장될 필요가 있다. 첫째, 단일 변수 예측에서 점도, pH 등 다양한 공정 품질 변수를 다중 예측하는 모델로 확장한다. 둘째, 정적 파일 기반 예측에서 실시간 센서 데이터 스트리밍을 활용한 예측 시스템으로 고도화하여 실시간 공정 제어 기반을 마련하고, 단기 시계열 예측에 최적화된 기법을 접목한다. 셋째, 예측 정확도 외에 연산 시간, 모델 복잡도, 연산 자원 효율성 등 다양한 평가 지표를 고려하여 실제 산업 환경에서의 적용 가능성을 정밀하게 평가한다. 넷째, 제안 모델을 다른 기업의 공정 데이터에도 적용하여 성능과 범용성을 검증하고, 다양한 생산 환경에서의 안정적 확장을 가능하게 한다. 끝으로, 모델의 예측 성능 제고를 위하여 추가적인 머신러닝 및 딥러닝 알고리즘을 적용한다.

References

CNCNEWS, "AI leads a seismic shift in the cosmetics industry", http://www.cncnews.co.kr/news/article.html?no=9561, . [accessed: Jan. 30, 2024]
J. S. Choi and B. S. Jin, "Changes in rheological properties of O/W emulsion formulations depending on the type of non-ionic surfactant and emulsion stabilizer", Applied Chemistry for Engineering, Vol. 30, No. 4, pp. 415-420, Aug. 2019. [https://doi.org/10.14478/ace.2019.1047]
H. J. Kang, "Analysis of the application and effectiveness of artificial intelligence technology in the manufacture of customized skincare cosmetics", M.S. thesis, Graduate School of Convergence Industry, Hanyang University, Feb. 2024.
Korea Economic Daily, "Cosmecca reduces defect rate by 70% with AI technology", https://v.daum.net/v/20250122172602675?f=p, . [accessed: Jan. 22, 2024]
J. W. Jung, "A study on the development of hyperautomation methodology for small and medium enterprises: Focused on the linkage of RPA, process mining, and artificial intelligence", Ph.D. thesis, Department of Management Information Systems, Myongji University, Feb. 2024.
H. Xin, A. S. Virk, S. S. Virk, F. Akin-Ige, and S. Amin, "Applications of artificial intelligence and machine learning on critical materials used in cosmetics and personal care formulation design", Current Opinion in Colloid & Interface Science, Vol. 73, pp. 101847, Oct. 2024. [https://doi.org/10.1016/j.cocis.2024.101847]
L. Cao, "Combining artificial intelligence and robotic system in chemical product/process design", Ph.D. thesis, University of Cambridge, Apr. 2021.
J. H. Sim, J. Yoo, M. L. Lee, S. H. Han, S. K. Han, J. Y. Lee, and Y. S. Yang, "Deep Learning Model for Cosmetic Gel Classification Based on a Short-Time Fourier Transform and Spectrogram", ACS Applied Materials & Interfaces, Vol. 16, No. 20, pp. 25825-25835, May 2024. [https://doi.org/10.1021/acsami.4c03675]
A. Chitre, R. C. Querimit, S. D. Rihm, D. Karan, B. Zhu, K. Wang, and A. A. Lapkin, "Accelerating formulation design via machine learning: Generating a high-throughput shampoo formulations dataset", Scientific Data, Vol. 11, No. 728, Jul. 2024. [https://doi.org/10.1038/s41597-024-03573-w]
J. Schwaeke, A. Peters, D. K. Kanbach, S. Kraus, and P. Jones, "The new normal: The status quo of AI adoption in SMEs", Journal of Small Business Management, Vol. 63, No. 3, pp. 1297-1331, May 2024. [https://doi.org/10.1080/00472778.2024.2379999]
T. Chen and C. Guestrin, "XGBoost: A scalable tree boosting system", Proc. of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, San Francisco, California, USA, pp. 785-794, Aug. 2016. [https://doi.org/10.1145/2939672.2939785]
M. Lee, J. Lee, and H. Lee, "Cognitive dysfunction prediction model with lifelog dataset based on Random Forest and SHAP", Journal of KIIT, Vol. 22, No. 1, pp. 1-8, Jan. 2024. [https://doi.org/10.14801/jkiit.2024.22.1.1]