Home

The Journal of Korean Institute of Information Technology - Vol. 21 , No. 12


[ Article ]
The Journal of Korean Institute of Information Technology - Vol. 21, No. 12, pp. 23-33
Abbreviation: Journal of KIIT
ISSN: 1598-8619 (Print) 2093-7571 (Online)
Print publication date 31 Dec 2023
Received 19 Oct 2023 Revised 06 Nov 2023 Accepted 09 Nov 2023
DOI: https://doi.org/10.14801/jkiit.2023.21.12.23
건설 도면의 지속적 디지털화를 위한 MLOps 시스템
조찬호^* ; 고찬혁^* ; 오아림^* ; 홍대의^ ; 화지민^*
*(주)몬드리안에이아이 연구원
**(주)몬드리안에이아이 대표이사
***(주)몬드리안에이아이 기술이사(교신저자)
MLOps System for the Continuous Digitalization of Construction Drawings
Chanho Cho^* ; Chanhyeok Ko^* ; Arim Oh^* ; Daeui Hong^ ; Jimin Hwa^*



Correspondence to : Jimin Hwa Dept. 113, Landmark-ro, Yeonsu-gu, Incheon, Republic of Korea Tel.: +82-32-713-7984, Email: hwa@mondrian.ai



Funding Information ▼ Ministry of Land, Infrastructure and Transport Korea Agency for Infrastructure Technology Advancement Korea Expressway Corporation RS-2020-KA156050

초록

건설 도면은 프로젝트의 핵심적인 정보를 포함하고 있어 체계적인 관리가 필수적이나 현재 많은 건설 도면이 단순히 스캔되어 이미지 파일로 저장되어 관리가 어렵다. 최근 딥러닝 기반의 OCR 기술 발전은 표제의 텍스트 정보를 인식해 디지털화를 가능하게 하지만 도면 양식의 다양성은 이러한 디지털화 기술을 활용한 도면의 관리 과정에서 지속적인 표제 인식의 성능 저하를 유발할 수 있으므로 지속적 유지보수 체계가 요구된다. 따라서 본 논문은 딥러닝 기반의 건설 도면 표제 디지털화 알고리즘을 포함하여 이를 지속적으로 유지보수 할 수 있는 MLOps 시스템을 제안한다. 또한, 본 논문에서 구현한 MLOps 시스템을 통해 건설 도면 디지털화 알고리즘을 지속적이고 효율적으로 운영할 수 있음을 확인한다.

Abstract

Construction drawings contain critical information for a project, so systematic management is essential, but many construction drawings are currently simply scanned and stored as image files, making them difficult to manage. Recent advances in OCR technology based on deep learning have enabled digitization by recognizing textual information in titles, but the diversity of drawing styles can cause performance degradation of continuous title recognition in the process of managing drawings using such digitization technology, so a continuous maintenance system is required. Therefore, this paper proposes an MLOps system that includes a deep learning-based construction drawing title digitization algorithm and can continuously maintain it. In addition, we confirm that the construction drawing digitization algorithm can be operated continuously and efficiently through the MLOps system implemented in this paper.


Keywords: MLOps, deep learning, optical character recognition, smart-construction, construction drawings

Ⅰ. 서 론

건설 도면은 프로젝트의 설계부터 유지보수에 이르기까지 핵심적인 정보를 담고 있어 체계적인 관리가 필수적이다. 그러나 많은 도면들이 단순 스캔을 통해 이미지 파일로 변환되며, 이렇게 변환된 이미지 형식의 도면은 디지털 데이터로의 활용에 제한이 있어 효율적인 관리에 어려움을 겪고 있다.

도면에는 구조적 세부사항, 재료 명세, 설계사의 정보 등 다양한 데이터가 포함되어 있으며 이 중 도면의 표제에는 프로젝트 이름, 도면 번호, 수정 이력, 작성 및 검토 일자와 같은 핵심 정보가 집약되어 있다. 따라서, 도면의 표제와 같은 핵심 정보를 디지털화하게 되면, 파일 검색과 버전 관리 등을 훨씬 더 원활하게 수행할 수 있어 전반적인 건설 도면 관리의 효율성을 높일 수 있다.

건설 도면의 표제 정보를 디지털로 변환하기 위해서는 이미지 내 텍스트를 컴퓨터가 인식 가능한 형태로 전환해야 한다. 텍스트 정보의 디지털화의 초기 연구에서는 광학 문자 인식(OCR) 기술이 주로 사용되었다[1]. OCR은 일반적인 정형 텍스트 인식에는 우수한 성능을 보이나, 건설 도면의 독특한 형식, 폰트, 그리고 필기체 등의 특성을 가진 텍스트에 대해서는 인식률이 상대적으로 낮았다. 이에 따라, 더욱 정확하게 이러한 텍스트를을 인식할 수 있는 방안에 대한 연구가 필요하였다.

딥러닝 기술의 발전과 함께 OCR 분야에서도 딥러닝 기반의 연구가 활발히 진행되었다. 특히, CNN(Convolutional Neural Networks)과 LSTM(Long Short-Term Memory networks) 같은 딥러닝 알고리즘은 이미지와 시퀀스 데이터의 복잡한 패턴을 깊게 학습하며, 이를 통해 텍스트 인식의 정밀도를 크게 향상시켰다[2][3].

그럼에도 불구하고, 건설 도면의 디지털화에서는 표준의 갱신, 기업별 도면 형식의 차이, 텍스트 패턴의 변동 등 다양한 요소들이 디지털화 성능에 영향을 미친다. 이런 변화를 신속하게 모델에 반영하기 위해서는 지속적인 데이터 업데이트와 모델 재학습이 필수적이다. 이에 따른 모델 유지보수는 추가적인 노력과 인적 자원을 필요로 하게 되어, 단순히 딥러닝에 의존하는 것만으론 지속 가능한 모델 운영이 어려워진다. 이러한 배경 아래, 통합적이며 지속 가능한 건설 도면 디지털화 방안의 중요성이 대두되고 있다.

본 논문에서는 이러한 문제를 해결하기 위해 딥러닝 기반의 건설 도면 표제 디지털화 알고리즘과 이에 대한 지속적인 유지보수를 수행할 수 있는 MLOps 시스템을 제안한다. 이 두 가지 접근법을 통합함으로써, 건설 도면의 디지털화에서 발생할 수 있는 다양한 문제점들을 해결하고, 지속 가능한 건설 도면 관리 체계를 구축할 수 있다. 결과적으로, 건설 산업의 디지털화 업무를 개선하고 건설 도면 관리의 효율성을 향상시킬 것으로 기대된다.

본 논문은 총 다섯 장으로 구성되어 있다. 2장에서는 광학 문자 인식, 딥러닝 기반 OCR, MLOps에 관한 기존 연구를 검토하고, 3장에서는 제안하는 MLOps 시스템의 주요 구성요소와 설계를 상세히 설명한다. 4장에서는 이러한 시스템의 구현 및 검증 과정을 다루며, 마지막으로 5장에서는 건설 도면 표제의 디지털화를 위한 MLOps 시스템의 도입이 가져올 기대효과, 한계점, 그리고 향후 연구 방향에 대해 깊이 있는 논의를 진행한다.

Ⅱ. 관련 연구

2.1 광학 문자 인식

텍스트의 디지털화 기술은 이미지의 텍스트를 인식하고 분류하는 알고리즘 연구에 주로 중점을 두었다. 이 중에서도 광학 문자 인식은 도면에서 텍스트 정보를 추출하는데 가장 널리 사용된 방법 중 하나였다[1]. OCR은 이미지 또는 스캔된 문서에서 문자를 인식하고 디지털 텍스트로 변환하는 기술로, 특정 부분의 설명, 치수, 표기법 등의 텍스트 정보를 자동으로 추출할 수 있다.

그러나, 텍스트의 디지털화가 필요한 이미지에는 국가별, 기업별 다양한 데이터 형식과 텍스트 폰트, 필기체 사용 등으로 이루어져 텍스트의 패턴을 반영하는 것이 쉽지 않다. 이외에도 텍스트의 노이즈, 불규칙한 글씨체, 흐릿한 인쇄 등 다양한 요인으로 인해 OCR의 인식 정확도에 제약이 있었다[4].

따라서, OCR을 이용한 도면의 디지털화는 초기에는 큰 기대감을 갖고 시작되었으나, 실제 적용 과정에서 다양한 한계점들에 부딪혔다.

2.2 딥러닝 기반 OCR 모델

기존의 OCR 기술의 한계를 극복하기 위한 노력으로, 딥러닝 기반의 접근법이 주목받기 시작하였다. 딥러닝은 여러 계층의 신경망 구조를 통해 복잡한 패턴을 학습하고, 이를 바탕으로 높은 정확도의 인식 능력을 제공한다. 딥러닝 기반 OCR은 주로 글자 검출과 글자인식의 두가지 과정으로 진행된다.

첫번째 단계인 글자 검출에는 주로 CNN을 기반으로 한 "EAST(Efficient and Accurate Scene Text Detector)"와 "CRAFT(Character Region Awareness For Text detection)"가 글자 검출에 높은 성능을 보인다[5][6]. EAST는 다양한 형태와 크기의 텍스트를 빠르게 검출할 수 있는 장점이 있으며, 특히 복잡한 배경에서도 텍스트 영역을 정확하게 파악한다. 반면 CRAFT는 문자 각각의 영역을 인식하는 방식으로, 문자 간 겹침이나 근접한 영역에서도 뛰어난 성능을 보인다.

두번째 단계인 글자 인식에는 "CRNN(Convolutional Recurrent Neural Network)" 및 "DTRB(Deep Text Recognition Benchmark)"와 같은 LSTM 기반 알고리즘이 사용된다[7][8]. CRNN은 CNN과 RNN의 조합으로, 이미지 내의 문자를 연속적으로 인식하는 데 특화되어 있다. CNN은 이미지에서 특징을 추출하는 역할을 담당하며, 이후 RNN이 시퀀스 데이터로서의 텍스트를 처리하게 된다. 특히, LSTM 계층을 활용한 RNN은 긴 텍스트 시퀀스에서도 정보 손실을 최소화하며 연속된 문자를 정확하게 인식한다. DTRB는 여러 딥러닝 기반의 텍스트 인식 모델들을 표준화된 벤치마크에서 평가하고 비교하는 프레임워크로, SOTA(State-Of-The-Art) 모델들을 이용하여 텍스트 인식을 수행할 수 있다.

이러한 딥러닝 기반 OCR의 등장으로, 금융, 건설 등 다양한 산업 분야에서 딥러닝 기반 OCR 모델을 도입하려는 수요가 급격히 증가하고 있다. 그러나 딥러닝 모델을 산업에 도입하려면 데이터의 변화에 따라 지속적인 성능을 유지할 수 있어야 한다[9]. 이러한 배경 하에, 딥러닝 모델을 산업에 성공적으로 도입하기 위해 모델에 대한 지속적이고 체계적인 유지보수 관리 체계의 필요성이 부각되고 있다[10][11].

2.3 MLOps

딥러닝은 대량의 데이터에서 복잡한 패턴을 학습하여 이미지 인식, 자연어 처리, 예측 등의 분야에서 뛰어난 성능을 발휘하고 있으며, 다양한 산업 분야에서 혁신적인 기술로 인정받고 있다[12]. 그러나 딥러닝을 실제 산업에 효과적으로 적용하기 위해서는 몇 가지 핵심 요소를 고려해야 한다[13]. 데이터 변동에 따른 전처리 기능의 추가, 오류 발생 시의 대응 전략, 그리고 모델의 지속적인 유지보수는 특히 중요한 고려 사항이다.

이에 따라, MLOps라는 개념이 등장하여 머신러닝의 전체 생명주기, 즉 모델의 개발부터 학습, 배포, 모니터링, 유지보수에 이르기까지의 과정을 체계적으로 관리하고 최적화하는 방안이 제안되었다[14]. MLOps는 기계학습(Machine learning)에 DevOps의 개발 프로세스 자동화 원칙을 적용한 방법론으로, 산업 내의 기계학습 도입의 어려움을 극복하는 효과적인 접근법을 제시한다[15]. MLOps는 모델의 지속적인 품질과 안정성을 보장하는 동시에, 실시간 변화하는 데이터와 요구사항에 빠르게 대응하는 유연성을 제공한다. 따라서, MLOps는 산업 내에서 기계학습 모델의 지속적인 품질 유지와 빠른 변화에의 대응력을 강화하는 핵심 전략으로서 그 중요성이 갈수록 부각되고 있다[16].

Ⅲ. 건설 도면 디지털화를 위한 MLOps 시스템

3.1 데이터 수집

본 논문에서 학습 및 검증에 사용된 데이터는 한국도로공사로부터 연구 목적으로 특별 승인을 통해 확보한 건설 도면 데이터이다. 이 데이터셋은 건설 프로젝트의 여러 단계, 즉 계획부터 완료까지의 도면 정보를 포함하고 있다.

특히, 건축물의 설계도, 구조 도면, 단면도, 설비도와 같은 다양한 유형의 세부 도면이 포함되어 있다. 각 도면은 프로젝트의 특성과 요구사항에 따라 세밀하게 작성되어 복잡한 구조와 패턴을 보유하고 있다. 또한, 도면에는 디지털로 인쇄된 내용 외에도 현장에서 필기로 추가된 주석, 수정 내용, 설명 등 다양한 스타일의 텍스트가 포함되어 있다. 이러한 복잡한 텍스트를 효과적으로 인식하기 위해, AIHub의 한국어 공개 데이터셋을 추가로 활용하여 문자 인식 모델을 학습시켰다[17].

3.2 데이터 전처리

건설 도면의 표제에는 도면 유형에 따라 다양한 정보가 포함되어 있으며, 이런 정보가 노이즈와 혼재되기도 하여 모델의 인식률에 영향을 미칠 수 있다. 이를 해결하기 위해 데이터 전처리 단계에서 몇 가지 영상 처리 기반 접근법을 적용하였다. 먼저, 원본 이미지의 확장자를 확인하고, PNG 또는 JPG 형식으로 변환하여 전처리를 용이하게 한다. 이어서 이미지는 그레이스케일(Greyscale)로 변환하여 계산의 복잡성을 줄이고, 가우시안 블러링(Gaussian blurring)과 중앙값 필터링(Median filtering)을 통해 노이즈를 제거한다. 모든 이미지는 일관된 분석을 위해 동일한 크기로 조정되고 픽셀 값은 [0,1] 범위로 정규화된다. 추가로, 테이블 탐지(Table detection) 알고리즘을 사용하여 도면의 핵심 정보가 포함된 부분을 정확하게 파악하고 글자 인식의 정확성을 향상시킨다. 그림 1에서는 이 전처리 과정의 결과를 확인할 수 있다. 이런 방식으로 전처리를 진행함으로써 기계 학습 모델의 학습과 추론 성능을 개선했다.

Fig. 1.
Drawing title table detection preprocessing results

3.3 딥러닝 기반 OCR

건설 도면 표제의 디지털화를 목표로, 본 연구에서는 그림 2에 따라 텍스트 검출(Text detection) 모델과 텍스트 인식(Text recognition) 모델을 연계하였고, 추가적인 전처리 및 후처리 과정을 통해 딥러닝 기반의 OCR 모델을 설계하였다. 특별히, 객체 검출 분야에서 VGG-16 기반의 CRAFT 모델과 텍스트 인식 분야에서의 DTRB 모델을 선택하였는데, 이들은 각각 Scene Text Detection과 텍스트 인식에서 우수한 성능을 보이는 모델로 알려져 있다. 이렇게 선택된 모델을 통해 건설 도면의 다양한 정보를 정밀하게 인식하였다.

Fig. 2.
Deep learning-based OCR pipeline structure

CRAFT 모델은 다양한 형태와 크기의 텍스트를 효과적으로 검출하기 위해 고안되었으며, 기존의 검출 방법들과는 달리 픽셀 단위의 정밀한 예측을 수행한다. 이 모델의 핵심 기능은 입력 이미지의 각 픽셀에 대해 Region score와 Affinity score를 예측하는 것이다. Region score는 해당 픽셀이 얼마나 텍스트 문자의 중심에 가까운지를 나타내는 확률 값으로, 이를 통해 각 문자의 중심 위치를 파악한다. 반면, Affinity score는 해당 픽셀이 인접한 두 문자 중심 사이에 위치할 확률을 나타내는데, 이 점수를 활용하면 문자들이 서로 어떻게 그룹화되어 있는지, 즉 어떤 문자들이 같은 단어나 문장에 속하는지를 파악할 수 있다.

이러한 특성 덕분에 CRAFT는 건설 도면에서의 복잡한 배치와 다양한 스타일의 텍스트, 기울어진 텍스트, 밀집된 텍스트, 그리고 다양한 크기의 텍스트 등의 복잡한 환경에서도 텍스트 영역을 정밀하게 검출할 수 있어, 건설 도면의 텍스트 검출에 매우 적합하다.

텍스트 정보가 성공적으로 검출된 후에는, 해당 영역 내의 텍스트를 정확하게 인식하기 위해 clovaai에서 제공하는 DTRB 모델을 활용하였다. DTRB(Deep Text Recognition Benchmark)는 clovaai에서 제공하는 텍스트 인식 모델로, 다양한 네트워크 레이어 옵션을 제공하여 주어진 상황에 맞게 최적화할 수 있다. 본 연구에서는 DTRB의 여러 구조 중 'Best Accuracy'로 평가된 TPS-VGG-BiLSTM-Attn 모델을 선택하였다.

그림 3은 TPS-VGG-BiLSTM-Attn 모델을 이용한 텍스트 인식 구조이며 첫번째 단계에서는 Thin-Plate Spline Spatial Transformer Network(TPS-STN)를 사용하여 이미지를 정규화한다. 이 단계는 왜곡된 텍스트나 회전된 텍스트를 바로 잡는 역할을 하며, 특히 건설 도면에서는 정확한 텍스트 위치와 구조를 파악하는 데 중요하다.

Fig. 3.
Text recognition with the TPS-VGG-LSTM-Attn model

다음 단계에서는 VGG 네트워크를 활용하여 텍스트 이미지의 특징을 깊이 있게 추출한다. VGG는 이미지 내부의 복잡한 패턴과 관계를 파악하여 텍스트의 특성을 잘 포착한다.

마지막으로, 양방향 LSTM(BiLSTM)과 Attention 메커니즘을 도입하여 텍스트 인식의 정확도를 높인다. BiLSTM은 시퀀스 데이터의 앞뒤 정보를 모두 고려하여 글자간의 관계를 정확하게 해석하며, Attention 메커니즘은 중요한 부분에 집중하여 텍스트 인식의 정확도를 향상시킨다.

이러한 구조 덕분에, TPS-VGG-BiLSTM-Attn 구조는 노이즈가 많거나 복잡한 배경, 다양한 폰트 스타일의 텍스트를 포함한 건설 도면에서도 뛰어난 인식률을 보여준다. 건설 도면은 다양한 정보와 기호, 텍스트 스타일을 포함하고 있기 때문에, 이러한 높은 정확도와 유연성은 도면의 디지털화에 큰 이점을 제공한다.

건설 도면은 정확하고 일관된 정보 전달이 중요하기 때문에, 텍스트 인식 후 단어 보정 메커니즘을 도입하였다. 이 메커니즘은 Levenshtein distance, 즉 편집 거리 알고리즘을 활용하여 인식된 단어와 사전에 등록된 기준 단어 간의 형태적 유사도를 측정한다. 예컨대, "설계도먼"과 같이 잘못 예측된 단어가 나타나면, 이 알고리즘은 "설계도면"과 같은 기준 단어와의 편집 거리를 계산한다. 해당 거리가 특정 임계값 이하로 판단되면, 잘못된 예측은 기준 단어인 "설계도면" 으로 수정된다. Levenshtein distance를 활용한 보정 메커니즘은 건설 도면 표제의 디지털화 과정에서 텍스트 인식의 정확도 및 일관성을 향상 시킬 수 있다.

3.4 MLOps 시스템

그림 4는 본 논문에서 제안하는 건설 도면 표제의 지속적인 디지털화 위한 MLOps 시스템의 전체 구조를 나타낸다. 전체 구조는 크게 데이터 저장소, 파이프라인 워크플로우, 모델 저장소, 그리고 로깅 및 모니터링 기능을 포함한 MLOps 시스템을 오픈소스 프레임워크를 활용하여 구축하였다.

Fig. 4.
MLOps system structure for continuous digitization of construction drawings

건설 도면 표제의 디지털화는 대용량 이미지, 텍스트 데이터, 모델 파일 등 다양한 형식의 데이터를 다룬다. 따라서 다양한 형식의 데이터를 효율적으로 저장하고 관리하기 위해, Minio S3를 이용한 File storage를 구현하였다. 다양한 형식의 데이터를 안정적으로 저장하고, 데이터의 확장성과 관리 측면에서도 유연함을 제공할 수 있다.

또한 데이터의 전처리부터 모델 학습, 검증 및 배포까지의 복잡한 프로세스를 효과적으로 관리하기 위해 Apache Airflow을 이용한 파이프라인 워크플로우를 도입하였다.

그림 5는 Airflow를 이용한 OCR 파이프라인의 워크플로우 구성을 보여준다. 파이프라인의 자동화를 위해 Airflow의 DAG(Directed Acyclic Graph) 구조를 이용하여, 각 단계별로 작업 의존성과 순서를 정의하여 자동화된 프로세스를 구성하였다.

Fig. 5.
Configuring a learning pipeline with Airflow

파이프라인에서 학습되는 모델의 다양한 버전과 성능 지표를 효과적으로 관리하기 위해 MLflow를 사용하였다. 그림 6에서 보여지듯이 파이프라인을 통해 학습된 각 모델은 검증 후 MLflow의 모델 저장소에 저장된다. 이를 통해 그림 7과 같이 다양한 버전의 모델을 시스템적으로 관리하며, 필요한 경우 모델 운영 환경에 빠르게 배포할 수 있다.

Fig. 6.
Model repository structure for model management

Fig. 7.
Model versioning with model repositories

Ⅳ. 실 험

4.1 건설 도면 디지털화 파이프라인

건설 도면 디지털화와 같은 특정 도메인에 특화된 문제에서는, 기본적인 바닐라 모델을 그대로 적용하기보다는 도메인의 특성에 맞게 모델을 튜닝하고 파이프라인을 만들어 각 단계가 올바르게 동작하는지 꾸준히 평가하고 검증하는 과정이 필수적이다. 건설 도면의 디지털화를 위해 본 연구는 CRAFT와 DTRB의 바닐라 모델을 사용하였고 건설 도면이라는 도메인에 적합하도록 기계학습 파이프라인을 구축하고 평가하였다. 표 1은 파이프라인 구성을 통한 건설 도면 인식률을 비교한 결과를 보여준다. 전처리나 후처리 단계가 없는 바닐라 모델을 적용했을 때의 최종적인 텍스트 인식 정확도는 약 74.4%로 측정되었다. 낮은 인식률을 개선하기 위하여, 도면 표제 내의 텍스트 검출을 위한 전처리, 테이블 검출 및 인식 단어를 보정하는 후처리 단계까지의 파이프라인 컴포넌트를 구성했고 각 컴포넌트를 추가한 단계의 파이프라인의 성능을 표 1로 정리하였다.

Table 1.
Improving construction drawing information recognition with pipeline configuration

Pipeline Version	Pipeline components						Overall Acc.(avg)
Pipeline Version	Data ETL	Pre- process	Table Detection	Craft	DTRB	Post- process	Overall Acc.(avg)
Vanilla	○	X	X	○	○	X	74.4%
pipeline-V1	○	○	X	○	○	X	79%
pipeline-V2	○	○	○	○	○	X	87.2%
pipeline-V3	○	○	○	○	○	○	95.8%

MLOps 관점에서 이러한 파이프라인 구성은 단순한 정확도 향상 뿐만 아니라 확장성, 재현 모니터링 및 유지보수 관점에서 효율성을 제공하며 지속적인 개선과 최적화의 가능성을 제시한다.

4.2 시나리오 기반 MLOps 시스템 검증

건설 산업에서는 건설 도면 표제 데이터의 업데이트와 수정이 불가피하다. 건설 기술의 발전, 전문가들의 피드백, 환경적 요인 등으로 인해 도면의 형식과 구조는 지속적으로 변화할 수 있으며, 이러한 변화를 고려한 시나리오를 설정하여 본 논문에서 제안한 MLOps 시스템의 효율성을 검증하려 한다.

시나리오는 다음과 같은 3가지로 정의한다:

Case 1: 데이터 변화로 인해, 건설 도면의 모델의 업데이트 후 업데이트 모델의 오류로 인한 서비스 장애 발생

Case 2: 새로운 도면 데이터가 업데이트되면서, 기존 모델의 성능 저하가 지속적으로 발생

Case 3: 새로운 도면 형식이 들어왔을 시 후처리 과정으로 인한 성능 저하

표 2와 같이, 본 논문에서 제안한 건설 도면의 지속적 디지털화를 위한 MLOps 시스템을 이용하여 앞서 제시한 시나리오에서 발생하는 문제점들을 효과적으로 해결 할 수 있는 메커니즘을 검증하고자 한다. 아래에서는 각 시나리오별 예상되는 문제와 MLOps 시스템을 이용한 해결 방안 및 결과를 상세하게 제시한다.

Table 2.
Responding with a scenario-based MLOps system

	Model drift			Overall Acc.
	Acc.	cause	solution	Overall Acc.
case 1	-	Operation error	Version roll-back	95.8%
case 2	82.1%	Decreased recognition rate	Additional model training	92.3%
case 3	68.3%	Change drawing format	Modify data-processing	93.6%

Case 1: 파이프라인의 로그 모니터링으로 모델의 문제로 인한 오류를 확인하였고, 모델의 버전을 관리하는 모델 저장소를 통해 오류가 발생한 모델 이전 버전의 모델로 롤백하여 서비스 장애를 해결하였다.

Case 2: 새로운 도면 데이터의 지속적인 업데이트로 건설 도면 표제 인식 모델의 성능 저하가 발생하는 상황에서, MLOps 시스템의 로그 모니터링 기능으로 모델의 예측 성능 저하를 실시간으로 탐지하였다. 이를 통해 문자 인식 모델의 성능 저하를 발견하고 모델의 추가 학습을 통해 모델을 재학습 및 재배포하였다.

Case 3: 새로운 도면 형식이 입력되는 상황에서, 기존 도면과 동일하지 않은 형식으로 인해 단어 매칭 및 글자 보정 과정이 적합하지 않아 건설 도면내 문자 인식률이 저하됨을 발견하였다. 새로운 도면 형식에 적합하도록 기계학습 파이프라인의 후처리 컴포넌트를 업데이트 및 배포하여 문자 인식 성능을 향상시켰다.

본 연구에서 설정한 시나리오를 통해 MLOps의 도입이 문제의 신속한 파악 및 대응에 큰 도움이 되었음을 확인하였다. 로그 모니터링을 활용하면 성능 저하의 원인을 즉각적으로 파악할 수 있으며, 모델 저장소를 이용해 이전 버전의 모델로 즉시 되돌릴 수 있다. 이후에는 새로운 데이터를 통한 모델 재학습 또는 파이프라인의 수정을 통해 성능을 최적화할 수 있다는 것을 알 수 있었다.

Ⅴ. 결론 및 향후 과제

본 논문에서는 딥러닝 기반 건설 도면 표제의 디지털화 알고리즘과 이를 지속적으로 운영할 수 있는 MLOps 시스템의 구현 및 검증에 대한 연구를 수행하였다. 개발된 딥러닝 알고리즘은 건설 도면의 다양한 표제 형식과 텍스트를 효과적으로 인식하여 도면의 핵심 정보를 정확하게 디지털화하는 데 중요한 기여를 하였으며, 데이터 관리부터 모델관리, 파이프라인 및 로그 모니터링까지의 전반적인 MLOps 시스템을 체계적으로 구축하여 건설 도면 디지털화의 지속적이고 효율적인 운영을 가능하게 하였다.

본 연구에서 구현한 MLOps 시스템은 데이터 처리, 모델 학습, 추론 등의 기능의 확장성을 향상시키고 연구의 재현성을 보장한다. 이 시스템의 핵심 구성 요소는 산업 현장에서의 모델 적용을 보다 실용적으로 만들며, 로그 저장소는 모델의 실시간 모니터링과 디버깅을 지원하여 모델의 안정성 및 신뢰성을 강화한다. 결과적으로, MLOps 시스템은 건설 도면의 지속적인 디지털화에서 효과적으로 활용 할 수 있음을 보였다.

그러나, 본 시스템의 구현에 있어 개선의 여지가 존재한다. 현재 시스템은 모델의 재학습 및 재배포를 수동으로 수행해야 하므로 데이터 변화나 모델 드리프트에 즉각 대응하는 것이 쉽지 않다. 또한, 본 연구는 실제 건설 도면 표제의 디지털화에서 발생하는 다양한 상황과 요구사항에 대한 실험적 검증을 충분히 수행하지 않았다. 따라서, 본 연구 결과를 실제 환경에 적용하기 전에 한계점을 보완한 추가 연구가 필요하다.

향후 연구는 이런 한계점들을 극복하는 방향으로 진행될 예정이다. MLOps 시스템의 자동화와 확장성 향상을 중심으로, 다양한 건설 도면 데이터를 기반으로 한 실험을 통해 시스템의 표준화 및 자동화를 더욱 강화하는 방안을 모색할 것이다.

Acknowledgments

이 연구는 국토교통부/국토교통과학기술진흥원이 시행하고 한국도로공사가 총괄하는 “스마트건설기술개발 국가R&D사업 (과제번호 RS-2020-KA156050)”의 지원으로 수행하였습니다.

References


1.	G. Nagy, T. A. Nartker, and S. V. Rice, "Optical character recognition: An illustrated guide to the frontier", Document recognition and retrieval VII, Vol. 3967, pp. 58-69, Dec. 1999.
2.	Y. Lecun, L. Bottou, Y. Bengio, and P. Haffner, "Gradient-based learning applied to document recognition", Proceedings of the IEEE, Vol. 86, No. 11, pp. 2278-2324, Nov. 1998.
3.	S. Hochreiter and J. Schmidhuber, "Long Short-Term Memory", Neural Computation, Vol. 9, No. 8, pp. 1735-1780, Nov. 1997.
4.	J. V. Toro, A. Wiberg, and M. Tarkian, "Optical character recognition on engineering drawings to achieve automation in production quality control", Frontiers in Manufacturing Technology, Vol. 3, Mar. 2023.
5.	X. Zhou, C. Yao, H. Wen, Y. Wang, S. Zhou, W. He, and J. Liang, "East: an efficient and accurate scene text detector", Proc. of the IEEE conference on Computer Vision and Pattern Recognition, Honolulu Hawaii, pp. 5551-5560, 2017.
6.	Y. Baek, B. Lee, D. Han, S. Yun, and H. Lee, "Character region awareness for text detection", Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, Long Beach California, pp. 9365-9374, 2019.
7.	B. Shi, X. Bai, and C. Yao, "An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition", IEEE transactions on pattern analysis and machine intelligence, Vol. 39, No. 11, pp. 2298-2304, Nov. 2017.
8.	J. Baek, G. Kim, J. Lee, S. Park, D. Han, S. Yun, and H. Lee, "What is wrong with scene text recognition model comparisons? dataset and model analysis", Proc. of the IEEE/CVF international conference on computer vision, Seoul Korea, pp. 4715-4723, 2019.
9.	A. K. Tyagi and G. Rekha, "Challenges of applying deep learning in real-world applications", Challenges and applications for implementing machine learning in computer vision, IGI Global, pp. 92-118, 2020.
*10.*	Y. Zhang, et al., "A big data analytics architecture for cleaner manufacturing and maintenance processes of complex products", Journal of cleaner production, Vol. 142, No. 2, pp. 626-641, Jan. 2017.
*11.*	S. Mäkinen, H. Skogström, E. Laaksonen, and T. Mikkonen, "Who needs MLOps: What data scientists seek to accomplish and how can MLOps help?", In 2021 IEEE/ACM 1st Workshop on AI Engineering-Software Engineering for AI (WAIN), Madrid, Spain, pp. 109-112, May 2021.
*12.*	M. I. Jordan and T. M. Mitchell, "Machine learning: Trends, perspectives, and prospects", Science, Vol. 349, No. 6245, pp. 255-260, Jul. 2015.
*13.*	M. Khan, X. Wu, X. Xu, and W. Dou, "Big data challenges and opportunities in the hype of Industry 4.0", 2017 IEEE International Conference on Communications (ICC), Paris, France, pp. 1-6, May 2017.
*14.*	D. Kreuzberger, N. Kühl, and S. Hirschl, "Machine learning operations (mlops): Overview, definition, and architecture", IEEE Access, pp. 31866-31879, Mar. 2023.
*15.*	S. Alla, et al., "What is mlops?", Beginning MLOps with MLFlow: Deploy Models in AWS SageMaker, Google Cloud, and Microsoft Azure, pp. 79-124, Dec. 2020.
*16.*	A. Chatterjee, B. S. Ahmed, E. Hallin, and A. Engman, "Quality Assurance in MLOps Setting: An Industrial Perspective", arXiv preprint arXiv:2211.12706, Nov. 2022.
*17.*	AIhub Open Dataset, "Korean font image", https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=realm&dataSetSn=81 [accessed: Oct. 23, 2022]