[ Article ]

The Journal of Korean Institute of Information Technology - Vol. 21, No. 2, pp.9-17

ISSN: 1598-8619 (Print) 2093-7571 (Online)

Print publication date 28 Feb 2023

Received 18 Nov 2022 Revised 09 Dec 2022 Accepted 12 Dec 2022

DOI: https://doi.org/10.14801/jkiit.2023.21.2.9

한국인 표정 검출을 위한 딥 러닝 모델 구조

이지영^*

; 김지호^* ; 이은아^* ; 이홍철^**

*고려대학교 산업경영공학과
**고려대학교 산업경영공학과 교수(교신저자)

Deep Learning Model Structure for Korean Facial Expression Detection

Jiyoung Lee^*

; Jiho Kim^* ; Euna Lee^* ; Hongchul Lee^**

Correspondence to: Hongchul Lee Dept. of Industrial Management Engineering Korea University Seoul 02841, Korea Tel.: +82-2-3290-3389, Email: hclee@korea.ac.kr

초록

다양한 딥 러닝 기술의 발달은 여러 응용 분야에 적용되어 뛰어난 성과를 달성하고 있다. 이러한 일면에서, 사용자의 표정을 검출하여 적절한 피드백과 서비스를 제공하는데 기반이 되는 이미지 감성 분석에도 딥 러닝의 활용이 지속해서 시도되고 있다. 하지만 현실에서 생성되는 데이터는 지나치게 높은 해상도와 일관된 규격이 없는 특징을 가지며, 다른 객체가 포함되어 분류 결과 성능을 저하하는 문제들이 존재한다. 또한, 표정은 문화와 생김새에 영향을 받으나 기존 연구들에서 사용된 데이터는 대부분 서양인의 얼굴로 구성되어있다. 따라서 본 연구는 다양한 크기와 배경을 담고 있는 이미지에서도 얼굴 영역을 효과적으로 검출하는 딥 러닝 기반의 전처리 방법과 한국인의 여러 가지 표정 검출을 위한 강건한 딥 러닝 모델을 제안하고자 한다. 본 연구는 객체 검출 모델을 전이 학습하여 전처리 모델로 사용하고, K-EmotionNet을 분류 모델로 사용하여 한국인 감정인식을 위한 복합 영상 데이터 세트에서 정확도 84.37에 달하는 성능을 달성하였다.

Abstract

The development of various deep learning techniques have been applied in various applications and achieved excellent performance. On the other hand, deep learning is continuously being used for image sensibility analysis, which can detect user's facial expression and provide appropriate feedback and service. However, the data that actually occurs has excessively high resolution, non-consistent features, and includes other objects, which degrades the performance of classification results. Also, facial expressions are influenced by culture and liveliness, but many existing studies consist mostly of Western faces. Therefore, in this study, we propose a deep learning-based pre-processing method that effectively detects face regions even in images with various sizes and backgrounds, and develop a robust deep learning model for detecting various facial expressions of Koreans. In this study, the proposed method achieved a performance of 84.37 in the dataset for Korean emotion recognition.

Keywords:

facial expression recognition, face detection, deep learning, computer vision, object detection

Ⅰ. 서 론

인간의 표정 인식은 대인관계나 비언어적 의사소통에서 중요한 역할을 한다[1]. 더불어 개개인의 해석에 따라 다르게 표정을 인식할 수 있을 정도로 표정을 해석하는 것은 인식하는 사람의 사고와 문화에 영향을 받는다. 오래전부터 인간의 표정으로 감성을 분류하고자 하는 연구는 계속되었다. Ekman과 Friesen은 심리학 연구를 바탕으로 표정을 체계적으로 분류하기 위한 기준으로 FACS(Facial Action Code System)를 사용할 것을 제안하며 분노, 혐오, 두려움, 행복, 슬픔, 놀람의 6가지 기본 감정을 정의하여 표정 분류가 가능함을 보였다[2].

최근 다양한 인공지능 기술은 여러 응용 분야에서 높은 성능을 달성하였다. 이러한 일면에서, 많은 연구자가 이미지 및 영상 감정인식을 위한 기계학습 및 딥 러닝 모델을 제안하였다. 대부분의 다양한 표정에 관한 감정인식 연구는 얼굴 이미지의 특징을 추출한 후 서포트 벡터 머신(SVM, Support Vector Machine), 은닉 마르코프 모델(HMM, Hidden Markov Mode), 의사 결정 나무(Decision tree)와 같은 고전적인 기계학습 모델을 활용하였다[3]. 최근 들어서는 다양한 딥 러닝 모델이 제안됨에 따라, 딥 러닝 모델을 활용하여 여러 분야의 문제를 해결하고자 하는 연구들이 등장하였다. 대표적으로 합성곱 신경망(CNN, Convolutional Neural Networks) 기반 딥 러닝 모델들은 이미지 데이터의 객체 인식, 분류에 높은 성능을 입증하며 현재까지도 널리 사용되고 있다[4][5].

본 논문에서는 CNN 기반의 분류 모델을 사용하여 이미지 감성 분류를 위한 모델을 제안한다. 많은 종류의 분류 모델이 입력 이미지의 가로, 세로 크기가 같아야 한다는 조건을 가지고 있다. 또한, 현실에서 사용되는 HD 이상의 해상도를 가진 입력 이미지를 연산할 경우 연산량이 너무 커지기 때문에 그대로 사용할 수 없다는 한계점을 가지고 있다. 본 논문에서는 다양한 규격을 가지는 이미지를 효과적으로 분류하기 위한 딥 러닝 기반의 전처리 방법을 제안한다. 이를 해결하기 위해 데이터 세트의 원본 이미지에서 얼굴 영역을 검출한 후 인식된 영역에 대해서 이미지를 잘라 분류 모델의 입력 이미지로 사용하였다. 이 과정에서 정밀한 얼굴 검출을 위해서 Yolo Face v2 모델을 사용하였다[6].

모델 학습을 위해서는 데이터가 필수 요소이다. 얼굴 이미지 감정인식 분야에서는 CK+나 AFEW 데이터 세트가 주로 사용되고 있다[7][8]. 이들 데이터 세트의 공통점은 서양인의 얼굴을 담고 있다는 것이다. 하지만, 인종에 따른 얼굴의 생김새와 사회에 따른 감정의 표현과 표정이 다르다. 또한, 감정 표현에는 문화적인 특징이 반영되므로 서양 얼굴 데이터만을 사용할 경우 한국인에 적합한 모델을 구축하기 어렵다는 한계를 가진다. 이를 위해서는 한국인의 표정 데이터를 학습한 모델과 효과적인 학습 프로세스가 필요한 실정이다. 본 연구에서는 한국지능정보사회진흥원이 운영하는 통합 플랫폼인 AI 허브(AI-hub)에서 제공하는 한국인 감정인식을 위한 복합 영상 데이터를 활용하였다[9]. 제공되는 다양한 한국인 감정 이미지를 전처리하고 얼굴 검출을 하여 감정 분류를 하는 일련의 감정 분류 프로세스를 제안하고 그 효과를 평가해보고자 하였다.

본 논문에서는 제안하는 프로세스를 통해 한국인의 얼굴에 맞는 모델의 필요성과 중요성을 보이고자 한다. 따라서, 본 논문의 기여는 다음과 같다. 먼저, 대부분의 실제 이미지는 규격이 매우 크고 규칙 없이 생성된다. 이미지 감정 분석은 사람의 얼굴 영역이 중요한 분석 영역이나, 이를 효과적으로 반영한 연구는 많지 않았다. 본 연구는 표정 검출을 위해 딥 러닝 기반의 효과적인 전처리 프로세스를 제안하였다. 이를 통해, 일관되지 않은 해상도와 규격을 가지는 다양한 이미지를 통합적으로 분석하는 프로세스를 제안하였다. 이러한 프로세스의 제안은 다양한 실데이터 분석에 대한 강건성을 제고 할 수 있다. 더하여, 얼굴 감정인식은 생김새 및 문화적인 특징에 높은 연관성을 가지나 기존 연구는 서양인의 얼굴에만 초점이 맞추어져 있었다. 본 연구는 이러한 연구 공백을 채우고자 한국인의 여러 가지 표정 검출을 위한 딥 러닝 모델을 제안한다.

본 논문은 다음과 같이 구성되었다. 2장은 관련 연구로 객체 검출 모델을 사용한 얼굴 검출과 얼굴 감정인식 연구에 대하여 지금까지 연구되었던 방법론에 대하여 논한다.

3장에서는 본 논문에서 제안하는 한국인 얼굴 검출과 감정 인식모델에 대하여 자세히 논한다. 4장에서는 제안하는 프로세스와 기본 모델들에 대해 한국인 얼굴 데이터로 학습을 진행하고 성능 평가 결과를 기술한다. 마지막으로 5장에서는 전체 연구에 대해 정리하고 결과와 향후 연구에 대해 논한다.

Ⅱ. 관련 연구

2.1 얼굴 검출(Face detection) 연구

얼굴 검출은 컴퓨터 비전 분야에서 활발히 연구되어왔다. 얼굴 검출은 이미지에서 경계 상자를 통해 얼굴의 공간적 위치를 검출해주는 것으로 얼굴인식, 표정 인식에서 첫 번째 프로세스로 사용된다[10]. 잘 가공된 데이터 세트가 아닌 경우 이미지에 사람 외에도 다양한 객체들이 존재하기 때문에 전처리 단계로 얼굴 부위만 검출할 때 사용된다.

객체 검출 연구는 2단계를 가진 검출 모델과 하나의 단계의 구조를 가진 검출 모델로 나뉘어 연구되었다. 그중 단일 단계 구조를 가진 검출 모델은 속도와 정확도의 균형 때문에 널리 사용되고 있다. 얼굴 검출 모델은 객체 검출 모델을 기반하므로 위의 두 가지 구조가 주로 연구되고 있다. 2단계 모델의 대표적인 예로는 Face R-FCN 모델이 있다[11]. Face R-FCN은 기존의 모델에서 position-sensitive average pooling과 다중 스케일 학습을 사용하여 얼굴 검출 성능을 높인 모델이다. 하지만, 이런 2단계 모델의 발전에도 경계 상자를 이용한 얼굴 검출에서는 예측 클래스가 하나이기 때문에 단일 단계 모델의 성능이 크게 떨어지지 않으며, 속도의 측면에서도 단일 단계 모델이 더 우수하다. 따라서 최근에는 단일 단계 얼굴 검출 모델이 더 활발히 연구되고 있다. 본 논문에서는 단일 단계 얼굴 검출 모델을 사용한다. Yolo v5 모델은 마스크 착용 모니터링과 같은 다양한 객체 검출 분야에서 활발히 사용되고 있다[12]. Yolo Face v2는 단일 단계 얼굴 검출 모델로 Yolo v5 모델을 기반으로 한다[13]. Yolo Face v2는 얼굴이 머리카락, 모자, 안경, 마스크 등과 같은 다른 물체로 가려져 있는 경우에도 얼굴 검출이 원활하도록 SEAM 모듈과 반발 손실을 사용하는 것을 제안하였고, 이미지상 존재하는 얼굴의 크기가 다른 것을 완화하기 위해 RFE 모듈을 설계하여 수용 필드를 향상시켰다. 본 논문에서는 적은 양의 데이터로 더 좋은 성능을 내기 위한 방법으로 Face Yolo v2를 전이 학습하여 사용하였다[14].

2.2 얼굴 감정인식 연구

얼굴 감정인식은 이미지에 존재하는 표정의 특징을 추출하여 감정 클래스로 분류하는 것을 의미한다. 얼굴 감정인식 연구는 두 가지 방법론으로 나눌 수 있다. 첫 번째로 고전적인 방법론이다. 이미지의 특징을 추출하고 고전적인 기계학습 모델을 분류기로 사용하는 방법으로 분류기에는 서포트 벡터 머신, k-근접 이웃, 의사 결정 나무, 은닉 마르코프 모델이 사용된다. 이 방법론은 2010년대 초반까지 많이 연구되었다. 두 번째는 딥 러닝 기반 모델이다. CNN으로 구성된 모델로 특징 추출과 분류를 같이 하는 방법으로 최근 딥 러닝 기술과 하드웨어의 발전으로 딥 러닝 기반 모델이 활발히 연구되고 있다. Kai는 CNN과 Self-Attention 구조를 이용하여 AffectNet, FERPlus등의 데이터 세트에서 좋은 성능을 보였고, Yousif 또한, CNN 모델을 사용하여 FER2013 데이터 세트에서 좋은 성능을 보였다[15][16]. 하지만 여전히 딥 러닝 모델을 사용하는 연구가 많지 않으며, 특히 동양인 얼굴 이미지를 사용하는 연구는 많지 않다. 본 논문에서는 CNN 기반 딥 러닝 네트워크로 한국인 데이터에 대해 학습함으로써 이와 같은 한계점을 해결해보고자 한다.

Ⅲ. 방법론

3.1 전체 프로세스

본 연구에서는 그림 1과 같이 한국인 표정 데이터 세트를 활용한 감정인식 프로세스를 제안하고자 한다. 제안하고자 하는 전체 프로세스는 크게 두 가지이다. 첫 번째는 얼굴 검출로 한국인 데이터 세트를 입력으로 하여 학습된 Yolo 기반 얼굴 검출 모델을 이용하여 얼굴 영역만을 잘라 이미지를 전처리한다.

Fig. 1.

Emotion recognition process using Korean facial expression dataset

이 전처리는 분류 모델이 얼굴 영역에 대해 집중할 수 있도록 도움을 준다. 두 번째는 제안하는 모델인 K-EmotionNet으로 이미지에 존재하는 얼굴의 감정 분류를 한다. 연구의 구체적인 내용은 다음 장에 자세히 기술하였다.

3.2 데이터 수집 및 전처리

본 연구에서는 AI 허브에 공개된 한국인 감정인식을 위한 복합 영상 데이터 세트의 50만 장의 데이터를 두 종류의 모델을 위해 추출하여 사용하였다. 얼굴 검출 모델의 학습 및 검증에는 3,500장을 추출하여 사용하였다. 얼굴 감정 분류를 위해서는 49,000장을 사용하였으며, 표 1과 같이 분노, 슬픔, 불안, 상처, 당황, 기쁨, 중립(무표정)의 7개 클래스에 대해 클래스 불균형이 발생하지 않도록 균일하게 7,000장씩 분포하도록 데이터를 무작위 추출하여 구성하였다.

Table 1.

Constitution of data sets for classification model

그림 2와 같이 데이터는 연기자와 일반인의 이미지가 혼합되어 있어 간혹 표정을 어느 한 클래스로 분류하기 어려운 경우가 존재하였고, 정답 라벨이 오 분류 된 경우가 존재하였다. 이에 대한 영향을 최소화하기 위해 데이터 세트의 JSON 파일에 담겨있는 어노테이터의 3명의 의견이 모두 일치하는 이미지를 우선순위로 포함하였다.

Fig. 2.

Examples of invalid labels and background objects

3.3 얼굴 검출 모델

현재 사용하고 있는 데이터는 1인 셀프카메라 시점의 이미지로 HD 화질 이상의 이미지들을 대상으로 한다. 이미지마다 해상도 크기가 달랐으며 이미지의 해상도가 2000이 넘어가는 경우가 빈번하였다. 이렇게 큰 이미지의 경우 그림 3에서처럼 분류 모델에 크기 변환만 하여 입력 이미지로 사용하기에 왜곡으로 인한 한계가 있으며 변환 시 정보 손실이 발생한다. 또한, 다양한 장소에서 촬영된 이미지로 배경에 여러 객체가 담겨있고 간혹 연예인 광고물, 행인, 인간 형태의 동상, 벽화 등의 사람 얼굴 형태의 객체들도 혼재되어 있다. 이미지에서 배경이 담고 있는 정보를 별도로 고려하지 않는 경우 배경이 분류 모델에 잡음으로 작용하여 분류 성능에 영향을 미칠 수 있다.

Fig. 3.

Example of resize and crop

따라서, 제안하는 프로세스에서는 감정 분류 모델의 입력으로 들어가는 이미지가 얼굴 부위에 대한 정보를 집중적으로 담을 수 있도록 전체 이미지에서 얼굴이 존재하는 부분을 검출하고 해당 부분을 잘라서 분류 모델의 입력 이미지로 사용하였다. 또한, 경험적으로 얼굴 영역만 모델에 들어가는 경우 과적합이 발생할 수 있음을 우려하여 검출된 얼굴 주변에 적절한 배경을 포함하도록 데이터를 구성하였다. 이 과정에서 500x500으로 얼굴 비율에 왜곡이 생기지 않도록 마진을 주어 가공하여 사용하였다.

셀프카메라 이미지 특성상 전체 이미지에서 얼굴이 차지하는 비율이 최소 10%에서 최대 40%로 균일하지 않고, 인물의 각도와 인물의 위치가 이미지마다 다르므로 딥 러닝 모델을 사용하여 얼굴 검출 후 영역을 자르는 과정이 필요하였다.

본 논문에서 제안하는 프로세스에서 사용된 검출 모델은 Yolo Face v2 모델이며, 이는 Yolo v5를 기반으로 얼굴을 검출하기 위해 변형된 모델이며 얼굴 벤치마크 데이터 세트인 Wider Face에서 SOTA(State-of-the-Art) 성능을 내었다[17]. 이와 비교를 하기 위해 Open CV 라이브러리의 Cascade classifier 메소드를 사용하여 CNN 구조를 사용하지 않은 경우도 비교하고자 하였다.

3.4 얼굴 감정 분류 모델

얼굴 감정 분류 모델은 CNN 구조로 되어 있는 딥 러닝 모델을 사용하고자 하였고, 그 중 ResNet 구조를 기반하여 bottle neck 구조를 넣지 않은 54층 레이어를 가진 네트워크를 제안하는 프로세스의 분류 모델로 사용하였다.

3.5 평가 지표

본 연구의 태스크는 객체 검출과 분류로 나눠서 볼 수 있다. 따라서 각각에 대한 평가 지표를 사용한다. 평가 지표를 계산하기 위해 혼동 행렬(Confusion matrix)을 사용하였다. 객체 검출에 대한 평가 지표로는 가장 많이 사용되는 mAP를 사용한다. AP(Average Precision)는 정밀도(Precision)-재현율(Recall) 그래프의 아래 면적을 계산한 값이다[18]. 면적을 계산할 때는 계산의 편의성을 위해 식 (2), (3)과 같이 보간법을 적용하여 계산한다. 객체 인식에서 정밀도(식 (4))와 재현율(식 (5))은 식 (1)의 IoU 값이 임계치를 넘었을 경우 정답으로 보고 구할 수 있다. mAP는 각 클래스의 AP 값들의 평균으로 구할 수 있다. 본 논문에서 사용한 mAP@0.5는 IoU(Intersection Over Union)가 0.5 이상인 경우 TP(True Positive)로 분류하여 mAP를 계산한 것이다. mAP@0.5:0.95는 IoU가 0.5 이상인 경우부터 0.05씩 증가시켜 0.95까지의 수치에 대해 mAP를 구하여 평균으로 계산한 것이다. 분류에 대한 평가 지표로는 정확도를 사용한다. 정확도는 전체 샘플에서 정 분류된 비율을 의미한다. 정확도는 식 (6)을 통해 구할 수 있다.

I o U = a r e a B p ∩ B g t a r e a B p ∪ B g t

(1)

A P a l l = ∑ n R n + 1 - R n P i n t e r p R n + 1,

(2)

P i n t e r p R n + 1 = m a x R ~ : R ~ ≥ R n + 1 P R ~ .

(3)

P r e c i s i o n = T P T P + F P = T P a l l d e t e c t i o n s

(4)

R e c a l l = T P T P + F N = T P a l l g r o u n d t r u t h s

(5)

A c c u r a c y = T P + T N T P + T N + F N + F P

(6)

Ⅳ. 실험 결과

4.1 실험의 구성

표 2는 사용하는 데이터 세트의 구성을 보인다. AI 허브의 한국인 감정인식을 위한 복합 영상 데이터 세트 50만 장에서 무작위 추출과 전처리를 통해 데이터 세트를 구축하였고, 8:1:1의 비율로 나누어 실험하였다.

Table 2.

Constitution of experimental data set

실험을 위해 Nvidia RTX 3090 24GB 한 대를 사용하였다. 요약된 실험 환경은 표 3을 통해 확인할 수 있다. 학습 에포크는 최대 150으로 맞췄으며 학습 중 검증 데이터의 정확도를 통해 가장 성능이 좋은 모델을 저장하였다. 옵티마이저는 Adam을 사용하였으며, 학습 데이터의 과적합을 막기 위해 Random Erasing을 적용하여 데이터 증강을 시도하였다[19].

Table 3.

Experimental environment settings

4.2 얼굴 검출 모델의 성능 평가

본 논문에서는 Yolo Face v2 모델을 전이 학습하여 사용하였다. 서양 얼굴로 학습된 가중치를 한국인 얼굴 데이터 세트로 재학습하였고, 그 결과 mAP@0.5:0.95의 수치가 4.49 상승하였다. 검출 모델의 요약된 결과는 표 4에서 확인할 수 있다. 이렇게 학습된 모델을 사용하여 다음 단계인 얼굴 감정 분류 모델의 입력 이미지를 가공하였다.

Table 4.

Performance of the yolo face v2

4.3 전체 프로세스 비교 성능 평가

본 논문에서는 얼굴 감정 분류 모델로 ResNet18, VGG19, K-EmotionNet을 사용하였다[20][21]. 실험은 얼굴 검출 전처리 종류를 변경하여 3가지 경우에 대해 진행하였다. 첫 번째로 AI 허브 한국인 감정인식을 위한 복합 영상 데이터의 원본 이미지를 모델의 입력 크기에 맞게 그림 3과 같이 이미지 크기 변경만 하여 모델을 학습하였다. 두 번째로 Yolo Face v2 모델 적용 구조와 비교하기 위해 Open CV의 Cascade classifier를 사용하여 얼굴 검출한 이미지로 모델을 학습하여 성능을 평가하였다. 마지막으로 한국인 이미지에 대해 학습한 Yolo Face v2 모델로 얼굴 검출을 한 이미지로 학습하여 성능 평가를 하였다.

반복 실험의 결과는 표 5에서 확인할 수 있다. 성능은 본 논문에서 제안하는 프로세스인 Yolo Face v2 모델로 전처리 후 K-EmotionNet을 사용한 경우의 정확도가 84.37%로 가장 우수했다. 그림 4는 제안하는 프로세스의 혼동행렬이다.

Table 5.

Experimental results

Fig. 4.

Confusion matrix of proposed architecture

각 클래스에 대한 분류 성능을 확인할 수 있으며 불안과 상처, 슬픔과 상처 클래스가 다른 클래스들에 비해 혼동되는 것을 확인할 수 있다. 이는 분류에 사용된 데이터가 슬픔과 상처, 불안과 당황, 상처 클래스들의 표정이 유사한 특징을 갖고 있기 때문이다.

Ⅴ. 결론 및 향후 과제

컴퓨터 비전 분야는 현대 사회의 많은 분야에서 인간의 시각을 대신하는 역할을 하고 있다. 표정 검출 기술은 이해한 사용자의 감정을 바탕으로 다양한 서비스와 개인 맞춤형 서비스를 제공하는 등 더 높은 가치를 제시할 수 있을 것이다. 그러나 현재 한국인 얼굴 감정인식에 관한 연구는 활발히 진행되지 않았다. 더욱이 규격에 맞추어 전처리가 된 이미지가 아닌 실제 촬영된 다양한 이미지에서의 감정인식은 딥 러닝 모델이 학습하기에 더욱 어려운 문제이다.

이러한 요구사항에 따라 본 논문은 인간의 얼굴 외 다른 정보들이 담겨있는 이미지 경우에도 효과적으로 표정을 분류할 수 있는 일련의 프로세스를 제안하였다. 이를 위해 얼굴을 검출하는 딥 러닝 모델을 선행하여 분류 대상 영역을 좁힌 후 감정 분류 모델을 수행하는 프로세스를 구현하였다. 얼굴 검출 모델을 전이 학습시켜 전처리 모델로 사용하였으며, 성능 비교를 위해 다른 비교 모델을 각각 학습시켜 정확도를 비교해봄으로 제안한 프로세스가 기존의 모델보다 정확도 84.37%로 성능이 향상되었음을 확인하였다.

국내 서비스에 적합한 한국인의 표정을 대상으로 연구하였다는 점과 해상도가 높고 정형화되지 않은 이미지 내에서도 분노, 슬픔, 불안, 상처, 당황, 기쁨, 중립 등의 7가지 감정인식이 가능하도록 프로세스를 제안한다는 점에서 본 연구의 의의를 찾을 수 있다. 하지만, 육안으로도 슬픔, 상처, 불안 클래스의 이미지를 분류해내기 어려운 이미지들이 데이터에 포함되어 있어 이들 클래스에 대한 정확도가 다른 클래스에 비해 낮은 점, End-to-End 모델이 아닌 Two-Stage 모델 구조를 제안했다는 점에서 본 연구에 한계라고 볼 수 있다.

향후 연구 과제로는 더 많은 정 분류 라벨이 존재하는 이미지 데이터에서 표정 이외에도 배경 속의 장소 맥락과 같은 다른 정보를 고려하는 멀티 모달 모델에 관한 연구를 수행해 보고자 한다. 또한, 현재 적용된 두 종류의 모델을 하나의 모델로 대체하여 이미지상의 분류 대상을 검출함과 동시에 분류하는 모델에 관한 연구가 필요할 것으로 생각된다.

Acknowledgments

본 연구는 4단계 두뇌한국21에 의해 지원되었습니다

References

Y. Ji and K. Idrissi, "Automatic facial expression recognition based on spatiotemporal descriptors", Pattern Recognit, Vol. 33, No. 10, pp. 1373-1380, Jul. 2012. [https://doi.org/10.1016/j.patrec.2012.03.006]
P. Ekman and W. V. Friesen, "Facial action coding system", Environmental Psychology & Nonverbal Behavior, 1978. [https://doi.org/10.1037/t27734-000]
R. I. Michael and W. R. S. Emmanuel, "A survey on human face expression recognition techniques", Journal of King Saud University-Computer and Information Sciences, Vol. 33, No. 6, pp. 619-628, Jul. 2021. [https://doi.org/10.1016/j.jksuci.2018.09.002]
S. Moon and S. B. Kim, "Multimodal Deep Learning Model for Korean Video Sentiment Classification", Proc. of the Fall Conference of the Industrial Engineering Society of Korea, pp. 2944-2955, Nov. 2020.
Y. Cho, M. Jung, and K. Kim, "Emotion recognition from human from movements using multimodal deep learning: A pilot study", Korean HCI Conference, pp. 336-340, Feb. 2022.
Z. Yu, H. Huang, W. Chen, Y. Su, Y. Liu, and X. Wang, "YOLO-FaceV2: A Scale and Occlusion Aware Face Detector", arXiv preprint, 2022. [https://doi.org/10.48550/arXiv.2208.02019]
P. Lucey, J. F. Cohn, T. Kanade, J. Saragih, Z. Ambadar, and I. Matthews, "The extended cohn-kanade dataset (ck+): A complete dataset for action unit and emotion-specified expression", computer society conference on computer vision and pattern recognition-workshops IEEE, pp. 94-101, Aug. 2010. [https://doi.org/10.1109/CVPRW.2010.5543262]
A. Dhall, R. Goecke, S. Lucey, and T. Gedeon, "Acted Facial Expressions in the Wild Database", Australian National University, Canberra, Australia, Technical Report TR-CS-11, Vol. 2, No. 1. Sep. 2011.
AI Hub, Complex image data set for Korean emotion recognition, https://aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&dataSetSn=82, [accessed: Oct. 31, 2022]
Y. Feng, S. Yu, H. Peng, Y. R. Li, and J. Zhang, "Detect Faces Efficiently: A Survey and Evaluations", IEEE Transactions on Biometrics, Behavior, and Identity Science, Vol. 4, No. 1, pp. 1-18, Jan. 2022. [https://doi.org/10.1109/TBIOM.2021.3120412]
Y. Wang, X. Ji, Z. Zhou, H. Wang, and Z. Li, "Detecting faces using region-based fully convolutional networks", arXiv preprint, Sep. 2017. [https://doi.org/10.48550/arXiv.1709.05256]
K. T. Kim, S. J. Park, D. H. Seo, C. H. Lim, and B. W. Oh, "Deep learning based mask wearing monitoring system", Proc. of KIIT Conference, Jeju, korea, pp. 531-535, Jun. 2021.
Yolo v5, https://docs.ultralytics.com, [accessed: Oct. 31, 2022]
Y. Byun and G. Kwak, "Transfer Learning and Performance Comparison of Deep Learning Model for Pedestrian Classification in Vehicle Driving Environment", Journal of KIIT., Vol. 16, No. 10, pp. 83-92, Oct. 2018. [https://doi.org/10.14801/jkiit.2018.16.10.83]
K. Wang, X. Peng, J. Yang, S. Lu, and Y. Qiao, "Suppressing uncertainties for large-scale facial expression recognition", In Proc. of the IEEE/CVF conference on computer vision and pattern recognition, pp. 6897-6906, Mar. 2020. [https://doi.org/10.48550/arXiv.2002.10392]
Y. Khaireddin and Z. Chen, "Facial emotion recognition: State of the art performance on FER2013", arXiv preprint, May 2021. [https://doi.org/10.48550/arXiv.2105.03588]
Y. Shuo, et al., "Wider face: A face detection benchmark", Proc. of the IEEE conference on computer vision and pattern recognition, pp. 5525-5533, Jun. 2016. [https://doi.org/10.48550/arXiv.1511.06523]
R. Padilla, S. L. Netto, and E. A. B. D. Silva, "A survey on performance metrics for object-detection algorithms", International Conference on Systems, Signals and Image Processing(IWSSIP), Niteroi, Brazil, pp. 237-242, Jul. 2020. [https://doi.org/10.1109/IWSSIP48289.2020.9145130]
Z. Zhun, et al., "Random erasing data augmentation", Proc. of the AAAI conference on artificial intelligence, Vol. 34, No. 7, pp. 13001-13008, Jul. 2020. [https://doi.org/10.1609/aaai.v34i07.7000]
S. Karen and A. Zisserman, "Very deep convolutional networks for large-scale image recognition", The 3rd International Conference on Learning Representations(ICLR), pp. 1-14, Apr. 2015. [https://doi.org/10.48550/arXiv.1409.1556]
K. He, X. Zhang, S. Ren, and J. Sun, "Deep Residual Learning for Image Recognition", IEEE Conference on Computer Vision and Pattern Recognition(CVPR), pp. 770-778, 2016. [https://doi.org/10.1109/CVPR.2016.90]

저자소개

이 지 영 (Jiyoung Lee)

2015년 3월 : 경기대학교 산업경영공학과(학사)

2020년 9월 ~ 현재 : 고려대학교 산업경영공학과 석사과정

관심분야 : 산업 인공지능, 컴퓨터 비전

김 지 호 (Jiho Kim)

2015년 8월 : 서울과학기술대학교 글로벌융합산업공학과(학사)

2015년 9월 ~ 현재 : 고려대학교 산업경영공학부 석박사통합과정

관심분야 : 인공지능, 자연어처리, 비즈니스 인텔리전스

이 은 아 (Euna Lee)

2009년 : 울산대학교 수학과(학사)

2013년 : 고려대학교 산업경영공학과(석사)

2023년 : 고려대학교 산업경영공학과(박사 과정)

2012년 ~ 현재 : 한국국방연구원 국방자원연구센터 선임연구원

관심분야 : NAS, 3D CNN, 수요예측

이 홍 철 (Hongchul Lee)

1983년 : 고려대학교 산업공학부(학사)

1988년 : University of Texas Arlington, Industrial Engineering(M.S.)

1993년 : Texas A&M University, Industrial Engineering(Ph.D.)

1996년 ~ 현재 : 고려대학교 산업경영공학부 교수

관심분야 : 인공지능, 생산·물류 시스템, 시뮬레이션

Class type	Count
Happy	7,000
Angry	7,000
Sad	7,000
Anxious	7,000
Embarrassed	7,000
Hurt	7,000
Expressionless	7,000
Sum	49,000

	Face detection data	Facial expression recognition data
Dataset	Complex image data set for Korean emotion recognition
Class	1	7
Format	JPG	JPEG, JPG
Train	2,800 (80%)	39,200 (80%)
Valid	350 (10%)	4,900 (10%)
Test	350 (10%)	4,900 (10%)

OS	Ubuntu 18.04
CUDA	11.3
CPU	Intel(R) Core(TM) i9-10980XE CPU
GPU	Nvidia RTX 3090 24GB x1
Language	Python
Framework	Pytorch-1.10.2

Metrics	mAP@0.5:0.95	mAP@0.5
Model	mAP@0.5:0.95	mAP@0.5
Yolo face(original)	82.23	98.4
Yolo face(fine-tune)	86.72(+4.49)	99.4(+1.0)

Pre-processing	Classification model	Accuracy
Resize	VGG19	14.3(±0.42)
	ResNet18	15.60(±0.3)
	K-EmotionNet	15.09(±0.23)
OpenCV face crop	VGG19	58.95(±0.45)
	ResNet18	60.35(±0.43)
	K-EmotionNet	61.81(±0.55)
Yolo Face v2	VGG19	82.76(±0.37)
	ResNet18	81.72(±1.06)
	K-EmotionNet	84.37(±0.17)