중소기업의 AI 서비스를 위한 Abyss Storage 기반 다양한 산업 영역의 Appliance 연구
초록
ICT 분야는 IoT, BigData, Cloud Computing, DX(Digital transformation), Robot, 그리고 AI 등의 다양한 첨단 기술들이 대두되고 있는 환경이다. 이러한 기술들을 지원하기 위한 하나의 전략으로 중소기업에 AI 서비스를 제공하기 위한 CDA(Connected Data Architecture) 기반 대용량 Abyss Storage Ⅰ의 프로토타입을 연구 및 개발을 진행하고 있다. 본 연구에서는 효율적인 분산 대용량 스토리지 활용을 위해 CDA에 의한 다른 스토리지 또는 퍼블릭 클라우드를 사용하여 스토리지 및 컴퓨팅 자원의 확장성을 제공할 수 있으며, 다양한 IoT 서비스를 지원하기 위한 기술을 제안하였다. 또한 다양한 산업 분야에 AI 서비스를 위한 다수의 비즈니스 모델을 연구하였다. 세부적으로 스마트 팩토리/스마트 팜, 산업현장과 재해 피해 분석, 그리고 검색 엔진 영역에 활용하고자 한다.
Abstract
The ICT field is an environment where various cutting-edge technologies such as IoT, Big Data, Cloud Computing, Digital transformation(DX), Robot, and AI are emerging. As a strategy to support these technologies, we are researching and developing a prototype of large-capacity Abyss Storage Ⅰ based on Connected Data Architecture(CDA) to provide AI services to small and medium-sized businesses. In this study, scalability of storage and computing resources can be provided by using other storages or public cloud by CDA to utilize distributed large-capacity storage efficiently, and a technology to support various IoT services was proposed. Also, we studied a number of business models for AI services in various industries. In detail, it is intended to be used in the areas of smart factory/smart farm, industrial sites and disaster damage analysis, and search engine.
Keywords:
abyss storage, connected data architecture, neural search, multi-task deep learningⅠ. 서 론
18세기 기계화 혁명의 1차 산업혁명을 시작으로 전기를 이용한 대량 생산 혁명의 2차 산업혁명, 20세기 후반의 지식 정보 혁명의 3차 산업혁명을 지나서 21세기 현재는 4차 산업혁명 시대이다. 4차 산업혁명의 특징들은 초연결(Hyper-connectivity), 초지능(Hyper-intelligence), 초융합(Hyper-convergence)으로 응축되며, 초연결은 사물인터넷의 진화와 디지털로 인해 사물과 공간, 인터넷의 상호의존성이 증폭되고 제품과 서비스의 연결성이 확장되는 것을 의미한다. 초지능은 인간의 지능과 인공지능이 협력하여 더 스마트한 서비스를 제공하는 것을 의미하며, 초융합은 이종의 산업 및 기술이 결합되어 새로운 융합 산업 또는 서비스가 촉진되는 것을 의미한다. 디지털 트랜스포메이션(DX, Digital transformation)은 디지털 기술을 활용하여 기존 산업의 운영 및 생산의 효율성과 경쟁력을 높이는 프로세스의 변화를 의미한다. 즉 다양한 디지털 기술의 융합으로 아날로그 사회를 디지털 사회로 전환시키는 것이며, 대표적인 사례가 스마트 팩토리이다. 디지털 트랜스포이션은 기존 비즈니스 모델뿐만 아니라 고객의 경험을 변화시키고 추가적인 수익 흐름을 창출하여 새로운 방식으로 산업을 변화시킬 수 있다[1].
4차 산업혁명은 디지털 트랜스포메이션과 더불어 빅데이터, IoT, 클라우드 컴퓨팅, 로봇 그리고 AI 등이 ICT 분야의 메가트렌드로 부상하고 있는 상황이다. 4차 산업혁명의 초지능 측면에서 빅데이터와 인공지능 기반 AI 서비스들의 기술 개발과 다양한 산업 영역으로 융합 및 확산되고 있다. ICT 분야 융합에 따른 BI(Business Intelligence), IA(Intelligent Analysis, BI + AI), AIoT(Artificial Intelligence of Things), AIOPS(Artificial Intelligence for IT Operations), RPA 2.0(Robotic Process Automation + AI)등의 세부화된 기술 발전으로 급속한 디지털 전환(Digital transformation)이 진행되고 있는 추세이다[2].
따라서 본 연구에서는 4차 산업혁명의 초지능 측면의 빅데이터, AI 기술과 초융합 측면의 디지털 트랜스포메이션을 통한 중소기업의 AI 서비스를 지원하기 위한 인프라로 Abyss Storage Ⅰ의 프로토타입을 연구 및 개발하고자 하며, 이러한 인프라를 기반으로 컴퓨팅 자원의 확장을 위한 CDA(Connected Data Architecture)와 다양한 산업 분야에 AI 서비스를 제공하기 위한 Appliance 비즈니스 모델을 제안하고자 한다.
Ⅱ. 관련 연구
2.1 데이터 레이크
데이터 레이크(Data lake) 개념은 2010년 미국 비즈니스 인텔리전스 기업인 ‘펜타호’ 공동창업자인 제임스 딕슨이 제안했으며, 데이터 레이크는 조직에서 수집한 정형·반정형·비정형 데이터를 원시 형태(Raw data)로 저장하는 단일한 데이터 저장소이다[3]. 온갖 유형의 빅데이터를 관리하는 데 최적화돼 있으며, ‘데이터를 원시 형태로 저장한다’는 의미는 ‘데이터를 특정 목적을 위해 처리하지 않고, 원래 형태 그대로 저장한다’는 것이다.
데이터 웨어하우스에 데이터를 저장하기 전에는 데이터에 어떤 형태와 구조(스키마)가 있어야 하며, 데이터 레이크에 데이터를 저장할 때는 스키마가 필요가 없다. 데이터를 원시 형태로 두고, 나중에 이를 사용할 때, 데이터에 형태와 구조를 부여한다. 데이터 레이크의 특징은 데이터 웨어하우스와 비교(그림 1 참조)하여 첫째, 데이터 레이크에서는 데이터를 저장하기 전 이를 정제하지 않는다. 둘째, 데이터 레이크에는 정형·반정형·비정형 데이터를 저장할 수 있다. 셋째, 데이터 레이크에는 미리 정의된 목적이 없는 데이터를 저장할 수 있다. 넷째, 데이터 레이크에서는 즉시 데이터를 수집할 수 있다. 다섯째, 데이터 레이크는 데이터 과학자가 주로 이용하며, 데이터 웨어하우스는 비즈니스 애널리스트가 주로 사용한다. 여섯째, 데이터 레이크 환경설정은 유연하다는 특징을 갖고 있다[5].
2.2 오픈 소스 Ceph
오픈소스 Ceph은 소프트웨어 정의 스토리지(SDS, Software Defined Storage) 시스템이며, 하나의 통합 스토리지 시스템으로 객체(Object), 블록과(Block) 파일(File) 스토리지를 모두 지원하며, 스토리지의 미래라고 언급되고 있다[6].
Ceph는 기존 시스템이 할 수 없는 스케일 아웃(Scale out) 방식의 확장성과 성능을 지원하며, 지능적이며 안정적인 고가용성 스토리지 소프트웨어를 통해 다양한 데이터 비즈니스를 위한 우수한 운영성을 제공한다. Ceph은 많은 장점들을 갖고 있지만, 확장성, 안정성, 그리고 성능이라는 세 가지 기능으로 간략하게 요약된다. Ceph은 고급 CRUSH 알고리즘[7]을 사용하여 확장성 문제를 극복하고 규모에 맞게 유연하고 탄력적인 스토리지를 지원하며, 다른 스토리지 솔루션과 비교하여 가동 중지 시간 없이 빠르게 확장할 수 있다. 스토리지에서 핵심인 데이터는 대체할 수 없으므로 스토리지 시스템의 신뢰성과 정밀한 관리가 무엇보다 중요하다. 스토리지 클러스터 내에서 Ceph Monitor 및 Manager 데몬(Daemon)은 상호 연결된 시스템 전체의 안정성과 데이터 가용성을 높이기 위해 조정된다. CRUSH 알고리즘은 단일 장애 지점, 성능 병목 현상 및 확장성 제한의 위험을 완화하여 안정적인 고성능 스토리지 솔루션을 제공한다. Ceph의 구성 및 배포는 성능 저하 없이 사용자의 요구에 맞춤화될 수 있으며, 기존 스토리지 시스템의 지연 시간, 복잡한 데이터 중복 프로세스, 특정하고 유연하지 못한 물리적 인프라의 어려움에 대해 Ceph은 스토리지 인프라에 관계 없이 성능과 확장성, 그리고 효율성을 극대화하도록 설계되었다.
2.3 AIaaS
AIaaS(Artificial Intelligence as a Service)는 AI 아웃소싱을 위한 제품이며, 개인과 기업은 대규모 초기 투자 없이 위험을 낮추면서 다양한 목적으로 AI를 실험할 수 있다[8]. AIaaS는 즉시 사용 가능한 플랫폼을 제공하고 설정이 쉬우므로 다양한 퍼블릭 클라우드 플랫폼, 서비스 및 ML(머신러닝) 알고리즘을 간단하게 테스트할 수 있다. AI에는 로봇, 컴퓨터 비전, 인지 컴퓨팅, ML 모델, 자연어 처리(NLP) 등 다양한 기술이 포함된다.
Ⅲ. Abyss 스토리지의 프로토타입
대용량 분산 Abyss Storage는 스토리지 기능을 수행하기 위한 저장 매체로 구성된 하드웨어 노드들과 네트워크를 통한 분산 스트리지 클러스터를 Scale-Out 방식으로 구축되었으며, 이러한 하드웨어 인프라 위에 오픈소스 Ceph 기반으로 구현되었다[9]. 다양한 스토리지 매체들과 네트워크 본딩(Bonding)을 통한 성능 테스트를 완료하였으며, 스토리지의 구성도는 그림 3과 같다.
3.1 스토리지의 매체 테스트
최초의 기계적인 스토리지 저장 매체는 바로 1800년대 초반에 직물을 짜는 기계에서 사용한 천공카드이며, 여기서 아이디어를 얻어 1800년대 후반 전기적으로 천공을 인식하여 몇 개의 카드에 저장된 숫자를 테이블로 만들어 내는 시스템이 만들어졌다. 다음으로 나온 저장 매체가 마그네틱테이프(Magnetic tape)며 그 이후 현재까지 컴퓨팅 산업의 발전과 함께 저장 매체도 마그네틱 디스크 그리고 최신의 Flash 반도체 기술에 기반을 둔 SSD(Solid State Drive)에 이르기까지 눈부신 발전을 함께 이룩해 왔다. 스토리지 매체는 데이터와 매체 비용 측면에서 균형점을 설정해야 하며, 연구에 따르면 데이터의 활용은 반드시 특정 데이터군에 대해 집중되며 이러한 부분을 데이터 활용 특성 (Data skew 또는 Data access pattern)이라 한다. Abyss 스토리지의 매체 테스트를 진행하였으며, SSD 매체의 Read/ Write 테스트를 진행한 결과는 그림 4와 같이 나타냈다.
3.2 스토리지의 내외부 네트워크 테스트
Abyss Storage의 클러스터링을 구성하기 위한 네트워크는 외부 네트워크와 내부 네트워크로 구분되며, Ceph 네트워크의 다양한 옵션(데이터 복제, 재조정, self-healing, Self-managing 기능 등)으로 스토리지 클러스터 내의 네트워크 트래픽의 최적 성능과 데이터의 안정성을 보장할 수 있다. 그림 5는 Iperf3[10]를 이용한 네트워크 성능 테스트 결과를 그래프로 나타낸 것이며, 그래프를 살펴보면 스토리지의 외부 네트워크의 성능에 비해서 내부 네트워크의 성능이 더 우수함을 확인할 수 있다.
Ⅳ. 스토리지 어플라이언스를 지원하기 위한 CDA & Multi-task 딥러닝 기법
Abyss 스토리지의 활용한 다양한 AI 서비스를 지원하기 위해서는 부가적으로 CDA 기술과 멀티-태스트 딥러닝 기법을 적용하고자 한다.
4.1 Connected data architecture
기존의 Data lake 프레임워크의 장점을 기반으로 다양한 응용 영역의 멀티 사이트들을 통합하고, 데이터 라이프 사이클을 관리하기 위한 Abyss Storage 기반 Data lake 프레임워크의 Connected Data Architecture(CDA)가 크게 중요하다. 중소기업의 AI 서비스를 제공하기 위한 CDA 기반 Storage Appliance 기술을 그림 6과 같이 제안하였다[11].
4.2 Multi-task deep learning
딥러닝은 계산복잡도(Computational complexity), 다항식 시간 알고리즘(Polynomial time algorithm), 차원의 저주(Curse of dimensionality), 휴즈 현상(Hughes phenomenon), 과적합(Overfitting) 등의 문제를 가지고 있는 딥러닝의 문제점을 해결하기 위해 다단계 모델을 제안하였다.
복잡한 딥러닝 모델을 몇 개의 간단한 하위 작업으로 나누어 Glue-Code와 Integration-Module의 각 기능에 대한 통합 절차를 수행하였으며, Multi-task Deep Learning의 설계를 그림 7과 같이 나타내었다[12].
Ⅴ. Abyss storage의 어플라이언스 연구
AI 서비스를 위한 스토리지 어플라이언스 연구에서는 그림 8과 같이 인공지능의 5대 기능의 수익 모델 중에서 주로 인식(Recognition), 예측(Prediction), 자동화(Automation) 분야에 집중하고자 하며, 산업 영역별로는 스마트 팩토리/스마트 팜, 산업현장 및 재해 피해 분석, 위성 분석과 검색 등 분야에 활용하고자 한다.
5.1 스마트 팩토리와 스마트 팜
스마트 팩토리 분야에서는 공장 내의 자동화를 위해 작업장 내의 위험요소 탐지시스템(그림 9 참조)과 보호필름 공정의 제품 결함 탐지시스템(그림 10 참조)에 활용이 가능하다.
스마트 팜 분야에서는 과실의 생육 관리 측면에서 그림 11과 같이 사과 과실의 생육 관리(적화, 전정, 적과)와 딸기의 성숙도 선별에 활용이 가능하며, 추가적으로 그림 12에 나타낸 것과 같이 딸기 성숙도 선별의 오류 추적을 위한 이미지 처리 기반의 XAI(eXplainable Artificial Intelligence)[16] 기법의 적용이 가능하다[17].
5.2 산업현장과 재해 피해 분석
산업현장에서의 AI 서비스로는 타워크레인의 디지털 트윈(그림 13 참조) 구현과 전기차 충전 및 광고 시스템(그림 14 참조)에 활용이 가능하다. 또한 위성사진 분석을 통한 재해 지역의 피해 분석(그림 15 참조)에 활용할 수 있다.
5.3 검색 분야
검색(Search)은 모든 정보 시스템(IT system)에서 항상 중요한 부분이며, 사용자에게 올바른 정보를 제공하는 것은 매우 필수적인 항목이다. 키워드 집합(Set of keyword)으로 구성되는 사용자 쿼리(User query)는 사용자의 필요한 정보를 완벽하게 나타낼 수 없고, 전통적인 심볼릭 검색(Symbolic search)은 사용자가 키워드 기반 검색(Keyword-based search)을 수행할 수 있도록 개발되어 있다. 최근 딥러닝과 AI의 발전으로 모든 종류의 데이터를 벡터로 인코딩하고 두 벡터 간의 유사성을 측정할 수 있게 되었다. 이를 통해 사용자는 모든 종류의 데이터로 쿼리를 만들고 모든 종류의 검색 결과를 얻을 수 있다(그림 16 참조). 이에 따라, 정보검색(Information retrieval)과 신경망 검색의 개념 확립과 여러 장점을 통한 전통적인 심볼릭 기반 검색의 단점을 극복하고자 한다.
Ⅵ. 결 론
4차 산업혁명의 특징들은 초연결, 초지능, 초융합으로 응축되며, 디지털 트랜스포메이션은 디지털 기술을 활용하여 기존 산업의 운영 및 생산의 효율성과 경쟁력을 높이는 프로세스의 변화를 의미한다. 또한, 디지털 트랜스포메이션은 기존 비즈니스 모델뿐만 아니라 고객의 경험을 변화시키고 추가적인 수익 흐름을 창출하여 새로운 방식으로 산업을 변화시킬 수 있다. 본 논문에서는 퍼블릭 클라우드를 통한 스토리지 및 컴퓨팅 자원의 확장성을 제공할 수 있는 기술로 CDA 기반의 중소기업 AI 서비스를 위한 다양한 Storage appliance를 연구 및 소개하였다. 또한, 스토리지 기술과 AI 기술의 융합을 통한 세부적으로 스마트 팩토리/스마트 팜, 산업현장과 재해 피해 분석, 그리고 검색 엔진 영역에 다양한 AI 서비스를 활용하고자 한다.
Acknowledgments
이 논문은 2022학년도 조선대학교 학술연구비의 지원을 받아 연구되었음.
References
- J. Lee, "Python big data analysis based on data science", Hanbit Academy, 2020.
- L. Owen, "Hyperparameter Tuning with Python", Packt Publishing, 2022.
- Data lake, https://en.wikipedia.org/wiki/Data_lake, [accessed: Jan. 01, 2024]
- Data lake, https://aws.amazon.com/ko/compare/the-difference-between-a-data-warehouse-data-lake-and-data-mart, [accessed: Jan. 01, 2024]
- Data lake, https://www.samsungsds.com/kr/insights/big_data_lake.html, [accessed: Jan. 01, 2024]
- Ceph, https://ceph.io/en/, [accessed: Jan. 01, 2024]
- Crush Algorithm, https://docs.ceph.com/en/quincy/rados/operations/crush-map, [accessed: Jan. 01, 2024]
- AIaaS, https://www.run.ai/guides/machine-learning-in-the-cloud/ai-as-a-service#:~: text=Artificial%20Intelligence%20as%20a%20Service,a%20large %20up%2Dfront%20investment, [accessed: Jan. 01, 2024]
- B. R. Cha, et al., "KOREN based Domestic and International Verification Test of Mass Abyss Storage", Smart Media Journal, Vol. 6, No. 1, pp. 9-15, Mar. 2017.
- Iperf3, https://iperf.fr/iperf-download.php, [accessed: Jan. 01, 2024]
- B. R. Cha, S. Park, and S.-Y. Oh, "Draft Design of AI Services through Concept Extension of Connected Data Architecture", Smart Media Journal, Vol. 7, No. 4, pp. 25-31, Dec. 2018.
- B. R. Cha, "Deep learning system and method for expanding intelligence in computer vision", Patent application number: 10-2608304, Nov. 2023.
- D. Jeong, "AI Business Model", CheongLim press, Jul. 2020.
- B. R. Cha, S. Park, B. C. Shin, and J. W. Kim, "Draft Design of Image Object Detection Technique for Risk Item in Smart Factory", 2020 Smart Media Journal Spring Proceedings, pp. 424-425, May 2020.
- B. R. Cha, S. Park, S. H. Lee, B. C. Shin, and J. W. Kim, "The Design of Application Model using Manufacturing Data in Protection Film Process for Smart Manufacturing Innovation", Smart Media Journal, Vol. 8, No. 3, pp. 95-103, Sep. 2019. [https://doi.org/10.30693/SMJ.2019.8.3.95]
- eXplainable Artificial Intelligence (XAI), https://www.darpa.mil/program/explainable-artificial-intelligence, [accessed: Jan. 01, 2024]
- E. J. Jeon, Y. S. Cha, S. Y. An, and B. R. Cha, "Comparison and Analysis of YOLO Object detection according to Image quality clarity", The Korean Institute of Communications and Information Sciences Conference, Nov. 2021.
- S. Y. An, J. Y. Park, H. Y. Jung, B. C. Shin, and B. R. Cha, "Design and Testing of AIOps Prototype to Support DX of Tower-Cranes Based on Visual-AI Safety Operations", JITAE, Vol. 12, No. 1, pp. 37-49, Apr. 2022. [https://doi.org/10.22733/JITAE.2022.12.01.004]
- B. R. Cha, G. Y. Choi, N. H. Kim, S. H. Lee, S. Park, B. C. Shin, and J. Kim, "Design of Charging Platform for an Electric Vehicle using Electric Pole to support Location-based Services", Smart Media Journal, Vol. 9, No. 1, pp. 67-74, Mar. 2020. [https://doi.org/10.30693/SMJ.2020.9.1.67]
- B. R. Cha, et al, "Concept Design of Digital Transformation for Remote Sensing Integration based on Image Recognition", 2021 Smart Media Society Spring Proceedings, May 2021.
2004년 2월 : 목포대학교 컴퓨터공학과(공학박사)
2023년 3월 ~ 현재 : 조선대학교 IT연구소 연구교수
관심분야 : 정보보안, 빅데이터, SDS, 인공지능
1999년 2월 : 서강대학교 전자공학과(공학박사)
2005년 3월 ~ 현재 : 조선대학교 전자공학과 교수
관심분야 : 바이오인식, 영상처리