Home | JKIIT Archives | About the JKIIT | E-SUBMISSON |
Sorry.
You are not permitted to access the full text of articles.
If you have any questions about permissions,
please contact the Society.
죄송합니다.
회원님은 논문 이용 권한이 없습니다.
권한 관련 문의는 학회로 부탁 드립니다.
[ Article ] | |
The Journal of Korean Institute of Information Technology - Vol. 19, No. 7, pp. 1-7 | |
Abbreviation: Journal of KIIT | |
ISSN: 1598-8619 (Print) 2093-7571 (Online) | |
Print publication date 31 Jul 2021 | |
Received 31 May 2021 Revised 24 Jun 2021 Accepted 27 Jun 2021 | |
DOI: https://doi.org/10.14801/jkiit.2021.19.7.1 | |
학습콘텐츠 자동분류를 위한 액티브러닝 성능 비교 | |
강은숙*
; 고대식**
| |
*목원대학교 지능정보융합과 박사과정 | |
**목원대학교 전자공학과·지능정보융합과 교수(교신저자) | |
Comparison of Active Learning Performance for Automatic Classification of Learning Contents | |
Eun-Sook Kang*
; Dae-Sik Ko**
| |
Correspondence to : Dae-Sik Ko Dept. of Electronic Engineering, Mokwon University, 88 Doanbuk-ro, Seo-gu, Daejeon, Korea. Tel.: +82-42-829-7652, Email: kds@mokwon.ac.kr | |
최근 비대면 교육시스템은 사회적으로도 필수적인 인프라로 부상하였고, 개인별 맞춤형 학습에 대한 필요성이 대두되고 있다. 본 연구에서는 개인화된 맞춤 학습 플랫폼을 구축하기 위해 액티브러닝 기반의 딥러닝을 이용한 학습콘텐츠를 자동분류하는 기법을 비교 연구하였다. 학습데이터를 선별하는 접근법이 핵심인 액티브러닝의 불확실성 접근법과 다양성 접근법의 대표적인 Core-set 접근법을 실험하고, 머신러닝과 딥러닝 분류 결과도 비교 실험하였다. 머신러닝을 이용한 분류모델에 비해, 딥러닝을 이용한 분류모델의 성능이 우월하고 Core-set 접근법을 적용한 액티브러닝이 딥러닝 기준선(Baseline) 정확도 97.5% 이상을 도달하기 위한 시간 절감이 90.7%의 효과로 나타났다. 따라서 Core-set 접근법을 적용한 액티브러닝을 이용하여 정확하고 빠른 학습콘텐츠 자동분류가 가능하여 개인화 학습플랫폼 서비스에 핵심적인 기술로 활용될 것으로 기대한다.
Recently, the untact education system has emerged as a socially essential infrastructure and the need for personalized learning has been on the rise. In this paper, a method of automatically classifying learning contents using deep learning based on active learning has been studied and classified in order to build a personalized learning platform. Uncertainty approach of active learning, where the approach to screening learning data is the key and Core-set approach representative of diversity approach have been tested. Compared to the classification model using machine learning, the performance of the classification model using deep learning is superior and active learning applying the core-set approach showed an effect of 90.7% in reducing the time required to reach the deep learning baseline accuracy of 97.5% or higher. Therefore, as possible to automatically classify learning contents accurately and quickly using active learning-based deep learning, it is expected that it will be used as a core technology for personalized learning platform services.
Keywords: deep learning, active learning, automatic classification, semi-supervised learning, personalized learning |
제4차 산업혁명, 지능정보사회 도래와 더불어 포스트 코로나 등 급속한 환경 변화 속에 개인·기업수준의 자기 주도학습을 위한 비대면 온라인교육의 폭발적인 증가와 더불어 다양한 서비스 방식이 요구되고 있으며[1], 획일적인 콘텐츠의 일방적인 전달식 교육이 아닌 개개인의 필요에 따른 맞춤형 학습의 필요성이 인식되고 있다[2]. 학습자 중심의 맞춤 교육 시스템에서는 무엇보다 학습자에게 맞는 최적의 콘텐츠를 추천할 수 있고 쉽게 검색이 가능해야 하며 학습자의 직무와 관심분야에 맞게 추천하기 위해서 학습콘텐츠에 대한 체계적인 자동 분류의 필요성이 제기되고 있다.
자동분류의 최적의 성능을 보여주는 머신러닝의 지도학습 방식은 정확하게 레이블링(Labeling)된 데이터를 기반으로 학습한다. 따라서 정확한 분류를 위해 지도학습을 활용하기 위해서는 해당분야의 전문가가 다수의 학습 데이터에 해당 학습데이터가 어떤 분류에 속하는지 레이블을 추가하는 작업이 필요하다[3]. 따라서 레이블링 하는 비용을 최소화하고 높은 성능을 구축하는 것이 무엇보다 중요한 문제이다.
이에 대해 Settles(2009)는 모델 학습에 유용한 데이터를 선정하여 우선적으로 레이블링을 한 뒤 학습 데이터에 추가하는 액티브러닝(Active learning)기법을 제안하였다[4][5]. 액티브러닝은 모델 학습에 필요한 데이터를 준비할 때 모델이 분류하기 어려운 데이터 등 특징적인 초기 데이터를 선별하여 학습하게 함으로써 적은 훈련시간으로 더 좋은 성능의 모델을 만들기 위한 방법론이다.
본 연구에서는 개인 맞춤형 서비스에 중점을 둔 학습 플랫폼을 구축하기 위해 전통적인 기계학습 모델에 비해 자동분류에 우수한 성능을 보이고 있는 액티브러닝 기반의 딥러닝을 이용한 학습콘텐츠를 자동분류 하는 기법을 비교 연구하고 최적의 모델을 제시하였다. 학습콘텐츠 자동분류 범위와 학습데이터를 구성하였고 액티브러닝 기반의 딥러닝을 이용한 학습콘텐츠 자동분류 모델을 제시하였다. 일반적인 딥러닝 텍스트분류와 데이터를 무작위 추출한 뒤 액티브러닝을 적용한 비교 실험을 통해 정확도 및 레이블링 소요시간에 대한 기준선(Baseline)을 확보하였다. 또한 액티브러닝의 데이터 접근 전략은 다양하나, 딥러닝에 적합하고 검증이 된 전략 중 액티브러닝의 두가지 관점인 Uncertainty 접근법의 Uncertainty Entropy와 Diversity의 대표적인 기법인 Core-set 접근법을 비교 실험하였다. 제시한 자동 분류모델에 대한 액티브러닝의 적합성을 확인한 뒤 마지막으로 자동분류 모델을 최적화 하고 성능평가를 진행하였다.
본 연구에서 제안하는 액티브러닝 기반의 딥러닝 을 이용한 효율적인 학습콘텐츠 자동분류모델은 개방형 학습플랫폼에서 개인 맞춤형 학습서비스를 더욱 정교하고 확대 가능하게 할 것으로 기대한다.
학습콘텐츠 자동분류시스템은 그림 1과 같이 크게 2가지로 나눌 수 있다. 초기 학습콘텐츠 메타정보를 활용하여 최적화된 자동분류 모델을 만들어야 한다. 데이터 수집관리, 전처리, 학습관리, 모델 관리, 재학습 등의 자동분류를 위한 학습 프로세스 모듈로 구성되게 된다. 이러한 자동 분류 모델이 완성되면, 자동분류 모델을 활용한 추론 서비스를 구성할 수 있다. 학습콘텐츠가 유입되는 경우 첫 번째 온라인 학습 관리시스템에 학습콘텐츠를 등록한다. 온라인 학습관리시스템에서는 학습콘텐츠 메타 정보를 관리하게 되고 이 메타 정보를 학습콘텐츠 자동분류시스템의 추론 서비스에 보내게 되고 해당 학습콘텐츠 메타 정보를 통해 자동 분류된 결과를 온라인 학습관리시스템으로 제공하게 된다. 모델에 맞지 않은 새로운 콘텐츠 유입 증가 등 요인으로 주기적으로 모델을 재학습할 수 있다.
자동분류에 오랫동안 연구되고 사용했던 머신러닝 기반의 전통적인 텍스트 분류모델은 키워드 중심으로 새로운 분유와 업무에 맞지 않아 딥러닝 모델의 등장으로 점차 적용분야가 줄어들고 있다.
자동분류에 오랫동안 연구되고 사용했던 머신러닝 기반의 전통적인 텍스트 분류모델은 키워드 중심으로 새로운 분유와 업무에 맞지 않아 딥러닝 모델의 등장으로 점차 적용분야가 줄어들고 있다. 표 1과 같이 딥러닝 분류모델의 대표적인 BERT 모델이 전통적 분류모델에 비해 장점이 훨씬 우월하다.
Coneventional text classification model | BERT-based classification model | |
---|---|---|
Category | - Machine learning-based model · SVM, Naïve Bayesian etc |
- Deep learning model · text deep learning model showing high performance |
Learning methord | - Keyword centered · document classification in a simple pattern · not considering word or sentence order |
- Context centered · learning word order and context patterns · similar to human’s way of understanding |
Model expandibility | - Recognition of pre-selected words only - Difficult in processing new words |
- Capable of flexibly processing words without prior learning |
Distinction | - Less time necessary for learning - Not required for many learning resources |
- Much time necessary for learning - Required for many learning resources |
액티브러닝은 레이블링이 된 데이터의 양이 작거나 레이블링 비용이 클 때 전체 데이터를 잘 대표하는 데이터 또는 모델이 잘 모르는 세부 데이터를 샘플링 하는 방식으로 주어진 레이블링 시간과 비용 내에서 가장 높은 성능을 도출하기 위해 레이블링을 부여한 데이터를 선택하는 최적의 전략 방법론이다. 즉 제한된 레이블링 환경에서의 딥러닝 모델의 효율적인 학습을 위한 방법론 연구이며, 정확도 개선에 크게 기여하는 데이터 식별 및 레이블링을 통한 재학습 체계이다.
첫 번째 레이블링된 데이터을 활용하여 모델을 학습한다. 두 번째 학습된 모델을 통해서 레이블링 되지 않은 데이터를 선별하며, 세 번째 사람(Human annotator)이 직접 레이블링한다. 네 번째로 새로 레이블링 된 데이터를 기존 데이터 셋과 합친다. 목표성능에 도달할 때까지 첫 번째부터 네 번째 과정을 반복한다. 새로 레이블링된 데이터를 기존 데이터 셋과 합친다. 목표성능에 도달할 때까지 첫 번째부터 네 번째 과정을 반복한다.
전체 과정은 그림 2와 같은 흐름으로 진행된다. 먼저 레이블이 없는 데이터 셋에서 샘플링 알고리즘을 통해 전체 데이터의 순위를 정하고 높은 순위부터 일정한 수의 샘플 데이터를 선택한다. 어노테이터는 선택된 샘플에 대한 레이블링을 진행한다. 레이블링된 샘플 데이터(Labeled sample data)를 기반으로 모델을 학습하고 다음 학습에 용이한 샘플 데이터를 추출한다. 해당 과정을 반복하면서 레이블이 추가된 학습 데이터가 축적되게 된다.
액티브러닝은 모델 학습에 필요한 데이터를 준비할 때 모델이 분류하기 어려운 데이터 등 특징적인 초기 데이터를 선별하여 학습하게 함으로써 적은 훈련시간으로 더 좋은 성능의 모델을 만들기 위한 방법론이다. Settles(2009)는 모델 학습에 유용한 데이터를 선정하여 우선적으로 레이블링하여 학습 데이터에 추가하는 액티브러닝(Active learning)기법을 제안하였다[4][5]. 이러한 액티브러닝 방법론을 활용하기 위해서 필수적으로 고려되어야 하는 핵심은 학습을 위한 샘플링을 추출하는 접근법이다. 액티브러닝의 학습을 위한 데이터 샘플링 추출 접근법은 1) 모델이 분류하기 어려운 불확실성(Uncertainty) 접근법, 2) 데이터의 실제 분포와 유사하도록 데이터를 선별하는 다양성(Diversity)접근법, 3) 모델이 학습에 영향을 많이 받게 되는 데이터를 선별하는 Expected Model Change 세가지 접근법으로 나눌 수 있다[6]-[8]. 세 번째 접근법인 딥러닝이 적용된 Expected Model Change의 대표적인 방법론인 EGL 방법론은 모델에 영향을 많이 받고, 다른 실험에서 가장 낮은 성능을 보였다는 실험결과가 있으며[7], 액티브러닝을 연구하는 최근 논문에서는, 비교실험에서 제외되었다[6][8]. 따라서 액티브러닝의 데이터 접근 전략은 다양하나, 딥러닝에 적합하고 검증이 된 전략 중 액티브러닝의 두가지 관점인 Uncertainty의 Entropy Uncertainty와 Diversity의 대표적인 기법인 Core-set을 비교 실험하였다. Entropy Uncertainty 접근법은 딥러닝 모델에서도, 우선적으로 사용해보는 기준선(Baseline) 접근법이며 적용된 연구가 많이 이루어지고 있으며 텍스트 분야에서도 적용된 연구가 있다[9]. Core-set 접근법은 이미지 관련 딥러닝에 액티브러닝을 적용한 연구논문이 발표된[10], 이후 딥러닝을 활용한 액티브러닝으로 많은 비교실험 및 연구가 진행되고 있다. Core-set 접근법을 간단히 요약하면, 각 문서 Representation Vector들의 거리를 계산하고, K-Center Problem 알고리즘으로 Center에 해당하는 문서를 대표 문서로 정한다.
학습콘텐츠 분류를 위한 대상 데이터는 정부 및 공공에서 제작되는 내부 학습콘텐츠와 민간 등 외부에서 Open API 등으로 수집되는 외부 학습콘텐츠이다. 학습콘텐츠에서 콘텐츠 제목, 개요(요약), 내용 등 학습에 활용할 수 있는 데이터를 추출 로직에 의해 추출하여 학습 데이터로 활용하게 된다. 학습데이터 70%, 검증데이터 15%, 테스트 15%의 비율로 나누었다. 이렇게 학습 데이터 준비가 완료되면, 액티브 러닝을 적용하는 프로세스를 진행하게 된다.
그림 3과 같이 액티브러닝을 활용하는 경우, 첫 번째 중요 데이터 탐색을 하게 된다. 사전에 최초 분류 모델을 만들기 위해서 사용되는 학습데이터는 무작위 추출(Random sampling)로 진행한다. 그 다음부터는 중요 데이터를 탐색한 뒤, 액티브 러닝 데이터 접근 전략 중 대표적인 접근법인 ① Uncertainty 접근법과 ② Core-set 접근법으로 데이터를 추출한다. 두 번째, 추출된 해당 데이터에 대해서는 사람이 직접 레이블링을 하게 된다. 세 번째, 레이블링 된 데이터를 적용하여 분류모델을 학습한 뒤, 네 번째 정확도에 대한 목표치 확보 등 모델 성능개선을 위한 작업을 반복하게 된다[11].
모델의 성능에 대한 검증은 모델의 정확도 비교, 데이터 수 대비 정확도 비교, 모델의 학습 시간 비교 등으로 진행할 수 있다. 이렇게 검증되고 평가된 액티브러닝을 활용한 자동분류 모델은 학습콘텐츠 자동분류시스템에 탑재하여 학습 플랫폼에서 학습콘텐츠 자동분류를 위한 추론서비스로 사용하게 된다. 학습콘텐츠의 변화 등 주기적으로 모델을 재학습 할 수 있다.
학습 데이터의 원천 시스템인 온라인 학습 시스템에서 학습데이터의 메타 정보를 추출하였다. 이 메타정보를 전처리 한 뒤 실험하기 위한 통제된 클라우드 환경의 학습 서버로 이관하였다. 학습콘텐츠 메타정보는 형태소 분석 처리를 하게 된다. 문장을 형태소 분석을 통해 의미 단위로 분리하게 되는데 예를 들어 “내장산국립공원 대표관광지”의 경우 → “내장산/NNP 국립/NNG 공원/NNG 대표/NNG 관광지/NNG”로 단어를 토큰화 한다. 또한 단어를 더 작은 단위로 분리하여 Out-Of-Vocabulary가 줄어들도록 한다. 또 다른 예를 들면 “인천신공항단지” 의 경우 → “인천@@ 신@@ 공항@@단지”로 분리 한 뒤 단어사전에 추가하고 도메인 데이터에서 빈도수 높은 단어를 추가한다.
액티브러닝의 적합성 비교를 위한 기준선(Baseline)을 위해 첫 번째 Random Sampling 방식, 두 번째 AI 모델이 분류하기 어려운 데이터를 선택하는 Uncertainty 접근법, 세 번째 데이터 셋 전체를 대표하는 텍스트를 선택하는 Core-set 접근법, 이 세가지 방식으로 실험을 진행하였다.
표 2와 같이 액티브러닝 성능 비교 때는 이 방식을 적용하였다. 표 2에서 나오는 지표에서 수렴 Iteration은 기준선(Baseline) 성능에 도달하여, 더 이상의 액티브러닝이 불필요한 시점을 의미한다. 또한 총 액티브러닝의 학습시간은 (중요 데이터 탐색 + 모델학습시간) × Iteration 횟수이다.
Base line | Random | Uncertainty | Core-set | |
---|---|---|---|---|
Test accuracy(%) | 97.56% | 96.16% | 97.49% | 97.85% |
Convergence Iteration | - | > 10Iter | = 10 Iter | ≤ 8 Iter |
Active learning time | > 3 hours 30 Min | 2 hours 30 min~ 3 hours | 1hour 45min~ 2 hours 10 min |
액티브러닝의 성능 비교에서 액티브러닝의 목표는 1. 적은 데이터(= 적은 Iteration)로 ‘기준선(Baseline)’(빨간 점선)성능에 도달하고, 2. Random Sampling(검은 선)보다 높은 정확도이다.
성능 및 정확도 비교 실험 결과 표 2, 표 3과 같이 Random Sampling보다 액티브러닝이 적용된 성능이 뛰어나며, Core-set 접근법이 Uncertainty 접근법보다 더 높은 성능을 가지고 있다.
AL Iteration (%) | 1 | 2 | 3 | 4 | 5 |
---|---|---|---|---|---|
Random sampling | 81.9 | 90.0 | 92.6 | 94.2 | 94.1 |
Uncertainty(Entroy) | 81.9 | 88.5 | 93.2 | 94.9 | 96.2 |
Core-set | 81.5 | 93.7 | 95.5 | 965 | 97.0 |
AL Iteration (%) | 6 | 7 | 8 | 9 | 10 |
Random sampling | 94.3 | 94.8 | 94.7 | 95.3 | 96.2 |
Uncertainty(Entroy) | 96.3 | 96.8 | 97.0 | 96.8 | 97.5 |
Core-set | 97.5 | 97.5 | 97.9 | 97.5 | 97.5 |
액티브러닝을 위한 레이블링은 키워드 기반 묶음(머신러닝)으로 업무 전문지식이 있는 어노테이터가 2주간 8시간, 총 80시간 작업을 하였다. 또한 약 7% 데이터 만으로도 기준선(Baseline)의 성능에 도달 및 상회할 수 있음을 확인하였다. 즉 액티브러닝의 적용을 통하여, 레이블링 비용을 매우 효과적으로 줄일 수 있음을 확인하였다. 머신러닝을 사용하지 않거나 키워드 기반이 아닌 레이블링을 진행할 경우 훨씬 더 많은 시간이 소요된다. 표 4와 같이 액티브러닝을 사용할 경우 레이블링 시간이 91% 단축 가능함(80시간 → 약 6시간)을 알 수 있으며, 무작위로 샘플링하여 레이블링 하는 것보다 다른 액티브러닝의 효과가 좋은 것으로 분석되었다. 감안해야 될 사항으로 데이터의 난이도가 증가할 경우 Test Accuracy가 낮아질 가능성이 높으며, 레이블링 및 액티브러닝 학습 시간이 증가할 수 있다. 그러나 전체 데이터 레이블링 < 무작위 샘플링 <액티브러닝 기법이 상대적으로 효율성이 있다는 점은 변하지 않는다.
Baseline | Random | AL Baseline | |
---|---|---|---|
Test accuracy(%) | 97.56 % | 97.09 % | 97.51 % |
Total amount of time | 80hours | 25hours 47minutes(32.2%) | 7hours 17minutes(9.1%) |
Number of convergence(use) data | 16,842 | 3,800 | 1,200 |
Total AL learning time | - | 7hours 44minutes | 1hour 35minutes |
Labeling data(use data) | 2weeks × 8hours = 80hours | 18hours 3minutes(22.6%) | 5hours 42minutes(7%) |
본 연구에서는 개인별 맞춤형 학습이 가능한 개방형 학습 플랫폼을 구축하기 위해 액티브러닝(Active-learning) 기반의 딥러닝을 이용한 학습콘텐츠를 자동 분류하는 시스템을 연구·분석하였다.
자동분류 성능평가 결과, 본 연구에서 제안한 액티브러닝 접근 방법 중 Core-set 접근법을 적용한 액티브러닝이 약 7%의 데이터로 Uncertainty Entropy 접근법의 경우 12% 데이터를 사용하는데 비해 일반적인 딥러닝 텍스트 분류 모델 기준선(Baseline) 성능에 도달함을 확인하였다. 또한 실험에 사용하기 위한 훈련데이터 16,842건을 분류하기 위한 시간(80시간)에 비해 1,200건(7시간 추정)으로 동일한 정확도를 달성하는 Core-set 접근법을 적용한 액티브러닝 방식이 90.7% 시간 절감으로 동일한 모델에 대한 정확도를 보여 액티브러닝의 우월한 성능을 확인하였다.
또한 연구에서 제안한 액티브러닝 기반의 딥러닝을 이용한 학습콘텐츠 자동분류 모델은 동일한 정확도 성능을 유지하기 위해서 Core-set 접근법을 적용한 액티브러닝이 성능개선을 위한 여러 가지 실험에서도 Core-set 접근법이 우월한 성능을 나타내는 것을 알 수 있었다.
따라서 액티브러닝 기반의 딥러닝을 이용한 학습콘텐츠 자동분류모델이 개인화 학습 플랫폼에 적용하여 효율적인 서비스 확대가 가능하다는 것을 알 수 있었다.
본 논문의 일부는 강은숙의 박사학위 논문(21.8.31 졸업예정)을 인용하였음을 밝힙니다.
1. | http://edu.chosun.com/site/data/html_dir/2020/05/11/2020051101475.html. [accessed: Mar. 05, 2021] |
2. | http://edu.chosun.com/site/data/html_dir/2020/05/25/2020052503111.html. [accessed: Mar. 05, 2021] |
3. | Ren, Xiang, "Building structured databases of factual knowledge from massive text corpora", Proceedings of the 2017 ACM International, May 2017. |
4. | Settles, B, "Active learning literature survey", Computer Sciences Technical Report 1648, University of Wisconsin–Madison, Jan. 2009. |
5. | Settles, B, "Active Learning Literature Survey", University of Wisconsin Madison, Jul. 2010. |
6. | Donggeun Yoo and In So Kweon, "Learning Loss for Active Learning", IEEE/CVF Conference on Computer Vision and Pattern Recognition, May 2019. https://arXiv.org/cs/arXiv:1905.03677. |
7. | Daniel Gissin and Shai Shalev-Shwartz, "Discriminative Active Learning", https://arXiv.org/cs/arXiv:1907.06347. |
8. | Culotta, Aron and Andrew McCallum, "Confidence estimation for information extraction", Proceedings of HLT-NAACL 2004: Short Papers. Association for Computational Linguistics, Boston, Massachusetts, USA, pp. 109–112, May 2004. |
9. | https://arxiv.org/pdf/2008.07267.pdf. [accessed: Mar. 09, 2021] |
10. | Sener, Ozan, and Silvio Savarese, "Active learning for convolutionalneural networks: A Core-set approach.", International Conference onLearning Representations, Feb. 2018. |
11. | Eun-Sook Kang, "Automatic Classification Model of Learning Contents Using Deep Learning Based on Active Learning", 2021. |
2001년 8월 : 동국대학교 경영정보학과(경영정보석사)
2018년 3월 ~ 현재 : 목원대학교 지능정보융합과 박사과정
관심분야 : 지능정보기술, 머신러닝, 빅데이터, 텍스트마이닝, 자동분류
1982년 2월 : 경희대학교 전자공학과 졸업(공학사)
1991년 2월 : 경희대학교 전자공학과(공학박사)
1994년 ~ 1995년 : UCSB Post-Doc
2011년 1월 ~ 2012년 12월 : 한국정보기술학회 회장
1989년 ~ 현재 : 목원대학교 전자공학과·지능정보융합과 교수
관심분야 : ICT융합, 사물인터넷, 신호처리