| Home | JKIIT Archives | About the JKIIT | E-SUBMISSON |
Sorry.
You are not permitted to access the full text of articles.
If you have any questions about permissions,
please contact the Society.
죄송합니다.
회원님은 논문 이용 권한이 없습니다.
권한 관련 문의는 학회로 부탁 드립니다.
| [ Article ] | |
| The Journal of Korean Institute of Information Technology - Vol. 23, No. 9, pp. 33-43 | |
| Abbreviation: Journal of KIIT | |
| ISSN: 1598-8619 (Print) 2093-7571 (Online) | |
| Print publication date 30 Sep 2025 | |
| Received 19 Jun 2025 Revised 01 Sep 2025 Accepted 04 Sep 2025 | |
| DOI: https://doi.org/10.14801/jkiit.2025.23.9.33 | |
| STT 기반 감정 인식 모델의 성능 비교 분석 | |
김규석*
; 김유성**
; 김주희***
| |
| *서울대학교 도시계획학 박사/한국폴리텍대학 AI금융소프트웨어과 부교수 | |
| **㈜이루티 대표이사 | |
| ***계명대학교 컴퓨터공학 박사수료/한국폴리텍대학 스마트소프트웨어과 교수(교신저자) | |
A Comparative Study of Emotion Recognition Models based on STT-Transcribed Text | |
Kyuseok Kim*
; Yusung Kim**
; Juhee Kim***
| |
| Correspondence to : Juhee Kim Dept. of Smart Software, Korea Polytechnics Tel.: +82-42-670-0604, Email: juhkim@kopo.ac.kr | |
본 연구는 음성 인식 기반 감정 인식 시스템의 성능을 비교·평가하고자, 한국어 영화 리뷰 감정 데이터셋(KMRE)을 활용하여 실험을 설계하였다. KMRE에서 6가지 감정(분노, 혐오, 공포, 기쁨, 슬픔, 놀람)별로 100개씩 총 600개의 문장을 무작위로 추출하고, 이를 gTTS(google TTS)를 사용해 음성(mp3) 데이터로 변환하였다. 생성된 음성은 Whisper 모델을 이용해 텍스트로 전사하였으며, 전사된 문장은 DistilRoBERTa, MiniLM, DeBERTa, Multilingual BERT 기반 감정 분석 모델 4종을 통해 감정을 분류하였다. 분석 결과, 감정 유형 및 모델의 언어 특성에 따라 분류 정확도에 차이가 발생하였으며, 영어 전용 모델과 다국어 모델 간에도 정확도 및 일치율에서 유의미한 차이를 보였다. 본 연구는 음성 기반 감정 인공지능(AI) 시스템 개발에 있어 효과적인 모델 선택에 참고할 수 있는 실증적 근거를 제시한다는 점에서 의의가 있다.
This study aims to compare the performance of speech-based emotion recognition systems by utilizing the Korean Movie Review Emotion dataset. A total of 600 sentences were randomly sampled, with 100 instances for each of the six emotion categories: anger, disgust, fear, happiness, sadness, and surprise. These sentences were converted into Korean audio files using Google TTS. The generated speech data were transcribed into text using the Whisper model, and the transcribed texts were analyzed using four emotion classification models: DistilRoBERTa, MiniLM, DeBERTa, and a Multilingual BERT-based model. The analysis revealed that classification accuracy varied depending on the emotion type and linguistic characteristics of each model. Significant differences were also observed in sensitivity and agreement rates between monolingual English models and multilingual models. This study provides empirical evidence to support the effective selection of emotion classification models in the speech-based emotion AI systems.
| Keywords: speech-to-text, STT, speech recognition, whisper, multilingual model, emotion classification |
|
감정 인식 기술은 최근 인간-컴퓨터 상호작용(HCI, Human-Computer Interaction) 및 사용자 경험(UX, User Experience) 설계에서 핵심 기술로 주목받고 있다. 특히 음성은 억양, 강세, 말의 속도 등 다양한 비언어적 정보를 포함하고 있어 인간의 감정을 정교하게 포착할 수 있는 중요한 채널로 간주된다[1]. 이에 따라 음성 기반 감정 인식 기술은 대화형 AI, 스마트 상담 시스템, 정신건강 관리, 차량 내 인터페이스 등 다양한 응용 분야에서 활용되고 있다[2].
음성 감정 인식 기술의 핵심 구성 요소 중 하나는 자동 음성 인식(STT, Speech-to-Text)이다. 최근에는 음성 신호를 직접적으로 분석하는 방법뿐만 아니라, 음성을 텍스트로 변환한 후 자연어 처리(NLP, Natural Language Processing) 기반 감정 분석 모델에 연계하여 감정을 분류하는 방식이 널리 사용되고 있다[3]. 이러한 STT 기반 접근 방식은 구현의 용이성과 텍스트 모델의 다양성 측면에서 장점을 가지지만, 음성-텍스트 변환 과정에서의 정보 손실이나 오인식은 감정 분류의 정확도에 영향을 줄 수 있다.
국내에서도 다양한 음성 감정 인식 연구가 진행되고 있으며, 하이브리드 딥러닝 모델을 활용한 음성 감정 분류 정확도 향상 방안이나 HCI 기반 감성 인터페이스 설계 연구 등이 대표적이다[4][5]. 그러나 대부분의 기존 연구는 단일 모델 성능 분석에 집중되어 있으며, STT 기반으로 변환된 텍스트를 활용한 다중 감정 인식 모델 간의 성능 비교는 상대적으로 부족한 상황이다.
이에 본 연구는 음성인식기(STT)를 통해 한국어 음성 데이터를 텍스트로 변환하고, 이를 다양한 감정 분석 모델에 적용하여 성능을 비교·평가하고자 한다. 실험에는 한국어 영화 리뷰 감정 데이터셋(KMRE, Korean Movie Review Emotion)에서 6가지 감정(분노, 혐오, 공포, 기쁨, 슬픔, 놀람)별로 추출한 문장을 Google TTS를 통해 음성화하고, Whisper 모델을 사용하여 다시 텍스트로 변환하였다.
이후 DeBERTa, DistilRoBERTa 기반 영어 감정 분류 모델, MiniLM 및 Multilingual BERT (Bidirectional Encoder Representations from Transformers) 기반 다국어 감정 분석 모델을 활용하여 감정 분류 결과를 도출하였다. 이를 통해 STT 기반 감정 인식 시스템에서 감정별 성능 차이와 모델의 언어 특성에 따른 영향을 실증적으로 분석하고자 하며, 향후 실용적인 음성 기반 감정 인공지능(AI, Artificial Intelligence) 시스템 개발을 위한 기초 자료를 제공하는 것을 목적으로 한다.
제2장에서는 본 연구와 관련된 선행연구 및 감정 인식 기술의 이론적 배경을 고찰하고, 제3장에서는 실험에 사용된 데이터셋, 음성 변환 절차, 감정 분석 모델에 대한 설명과 함께 전체 분석 절차를 제시한다. 제4장에서는 각 감정 분류 모델별 성능 비교 결과를 제시하고, 감정별 특성과 오인식 패턴에 대한 분석을 수행한다. 마지막으로 제5장에서는 연구 결과를 요약하고, STT 기반 감정 인식 시스템의 한계점과 향후 연구 방향에 대해 논의한다.
음성 감정 인식(SER, Speech Emotion Recognition)은 인간의 음성 신호로부터 감정 상태를 추출하는 기술로, 인간-컴퓨터 상호작용(HCI), 스마트 기기, 의료 및 상담 분야 등에서 폭넓게 응용되고 있다.
음성은 억양(intonation), 속도(rate), 강세(stress) 등 다양한 비언어적 정보를 포함하고 있어 감정 상태를 효과적으로 전달할 수 있는 주요 수단이다[4]. 기존 연구들은 주로 음성 신호 자체의 음향학적 특징을 기반으로 감정을 분류하거나, 이를 기계 학습 혹은 딥러닝 모델에 적용하는 방식으로 발전해왔다[6].
최근에는 CNN(Convolutional Neural Network), RNN(Recurrent Neural Network), LSTM(Long Short-Term Memory) 등 다양한 딥러닝 구조가 음성 감정 인식에 활용되고 있다. 이러한 구조들은 음성 데이터의 시간적, 공간적 패턴을 효과적으로 포착할 수 있어 SER 성능 향상에 기여하고 있다.
예를 들어, H. S. Shin and J. K. Hong[4]는 음성 특징 필터를 활용한 딥러닝 모델이 높은 감정 분류 정확도를 보인다고 보고하였으며, A. H. Jo et al.[7]은 음성 스펙트로그램을 기반으로 한 다중특징 융합 CNN 모델이 효과적임을 입증하였다. 또한 H. J. Noh and Y. J. Lim[5]은 감정 데이터의 클래스 불균형이 감정 분류 성능에 미치는 영향을 실험적으로 분석하였다.
한편, 음성 신호를 직접 분석하는 방식과 달리, 음성을 텍스트로 변환한 후 자연어 처리(NLP) 모델로 감정을 분석하는 접근도 활발히 연구되고 있다. STT 기술이 고도화됨에 따라 텍스트 기반 감정 분석의 적용 범위도 확대되고 있다.
Whisper, Google Speech API 등 다양한 STT 기술이 텍스트 정확도를 높이며, 텍스트 기반 감정 분석 모델들과의 결합 가능성이 커지고 있다[8-9]. 이러한 방식은 특히 비정형 대화, 리뷰, 인터뷰 음성 등에서 유용하게 활용된다.
감정 분석 모델은 언어적 특성과 학습 방식에 따라 분류된다. 대표적인 영어 기반 모델로는 DistilRoBERTa가 있으며, 이들은 감정 분류 성능과 처리 속도 측면에서 강점을 가진다. 다국어를 지원하는 모델로는 Multilingual BERT 계열이 있으며, 이는 한국어, 일본어, 프랑스어 등 다양한 언어에서 감정 예측을 가능하게 한다. 그러나 STT를 통해 변환된 텍스트를 입력으로 사용하는 경우, 음성 인식 품질과 언어 불일치로 인한 성능 저하가 발생할 수 있다[10]. 특히 비정형 화법이나 억양이 강한 발화에서는 STT 오류가 누적되어 감정 분석 결과의 정확도에 영향을 줄 수 있다.
그 외에 LLM(Large Language Model)을 활용한 연구도 있다. 권순찬 외(2024)는 GPT-3.5 및 GPT-4와 같은 LLM을 활용하여 한국어 텍스트에 대한 제로샷 감정 분석 성능을 평가하였다[11]. 해당 연구는 기존의 KoBERT, KoELECTRA, LMKor-ELECTRA 등의 한국어 특화 모델들과 비교 실험을 수행하였으며, 영화 리뷰, 쇼핑 리뷰 등 다양한 도메인 데이터셋을 대상으로 감정 분류 정확도와 F1-score를 측정하였다. 실험 결과, GPT-4가 도메인 전반에 걸쳐 가장 높은 감정 분류 성능을 보였으며, 이는 영어로 사전학습된 모델임에도 불구하고 한국어 감정 인식에서도 강력한 전이학습 효과를 발휘할 수 있음을 시사한다. 본 연구는 한국어 감정 분석 모델 선정 시, 단순히 언어 특화 여부보다는 모델 크기, 사전학습 범위, 문맥 추론 능력 등이 성능에 미치는 영향을 면밀히 고려할 필요가 있음을 보여준다.
기존 연구들은 대체로 특정 음성 감정 인식 모델의 구조나 성능을 단일 기준으로 분석하는 경우가 많았으며, STT 기반 파이프라인에서 다양한 감정 분석 모델 간 비교 연구는 상대적으로 부족한 실정이다. 또한 국내 연구는 대부분 음성 신호 기반의 실시간 감정 추정에 집중되어 있어, STT+NLP 기반 비교 분석을 다룬 사례는 드물다.
본 연구는 Whisper를 활용해 음성을 텍스트로 변환한 후, DistilRoBERTa, Twitter-RoBERTa, Multilingual BERT 세 가지 모델을 통해 감정 인식 결과를 비교하고, 감정 유형별 정확도 차이와 감지 성향을 분석함으로써 기존 연구와의 차별성을 갖는다.
본 연구는 음성 기반 감정 인식 성능을 평가하기 위해, 텍스트-음성-텍스트(STT) 변환 과정을 거친 후 다양한 감정 분석 모델에 적용하여 비교 분석하는 구조로 설계되었다. 실험 환경은 웹 클라우드 기반의 Google Colab을 활용하였으며, 전체 파이프라인은 Python으로 구현하였다. 실험은 총 3단계로 구성되며, (1) 텍스트 데이터의 음성 변환, (2) 음성의 STT 전환, (3) 감정 분석 및 비교 평가의 흐름으로 구성된다. 이를 통해 STT 기반 감정 인식 파이프라인에서의 정보 손실 및 모델별 감정 분류 특성을 실증적으로 분석하고자 한다.
감정 분석에는 총 네 가지 자연어처리 기반 사전학습 모델(DeBERTa, DistilRoBERTa, MiniLM, Multilingual)을 활용하였다. 본 연구에서 사용한 모델은 대부분 영어 기반 사전학습 모델이며, 이는 STT 전사 후 영어로 번역된 데이터를 입력으로 사용함으로써, 번역 기반 감정 분석 파이프라인의 실효성을 검토하기 위한 목적이다. 한국어 감정 분석 모델을 직접 사용하지 않은 이유는 비교 기준으로서 영어 기반 범용 모델의 분석 성능을 검토하는 것이 주요 목적이었기 때문이다.
본 연구는 텍스트 기반 감정 데이터를 음성으로 변환한 후, 다시 이를 STT로 복원하는 구조를 설계하였으며, 이는 실제 음성 입력 환경에서의 감정 인식 기술을 모사하기 위한 것이다. 특히 본 연구의 목적은 음성의 어조 및 화자의 발화 특성과 무관하게, 음성으로 표현된 문장 내용만으로 감정을 판별하는 모델의 성능을 평가하는 데 있다.
본 연구는 KAIST KMRE 데이터셋을 활용하였다. 해당 데이터셋은 한국어 영화 리뷰 기반 문장으로 구성되어 있으며, 총 6가지 감정(분노, 혐오, 공포, 기쁨, 슬픔, 놀람) 레이블을 포함한다.
각 감정 범주별로 100개씩, 총 600개의 문장을 무작위로 추출하여 실험에 사용하였다. 이는 감정별 균형 잡힌 분포를 확보함으로써 분류 모델의 성능을 공정하게 비교하기 위함이다.
텍스트 문장은 Google의 Text-to-Speech API인gTTS(Google Text-to-Speech)를 이용하여 mp3 형식의 음성 파일로 변환되었다. 각 문장은 감정명과 일련번호로 구성된 파일명(anger_00001.mp3 등)으로 저장되었으며, 총 600개의 음성 파일이 생성되었다. 음성 생성 시 언어는 ko(한국어)로 지정하였고, 생성된 음성은 이후 STT 처리를 위해 Whisper 모델에 입력되었다.
생성된 음성(mp3)은 OpenAI의 Whisper 모델(base 버전)을 사용하여 한국어 텍스트로 변환되었다. Whisper는 노이즈에 강인하고 다국어를 지원하는 구조로, 최근 다양한 음성 인식 연구에 폭넓게 활용되고 있다. 본 연구에서는 Whisper를 통해 얻은 전사 텍스트를 감정 분석 입력으로 사용하였다.
감정 분류는 표 1과 같이 DeBERTa, DistilRoBERTa, MiniLM, Multilingual BERT 등 네 가지 언어 모델을 활용하였다. 그 중 DeBERTa는 정확도 면에서 우수한 성능을 보이는 모델로 평가된다. 특히 문맥 정보를 정밀하게 파악할 수 있는 점이 특징이다. 그러나 모델의 크기와 연산 속도 측면에서 비효율적일 수 있어, 실시간 응답이 요구되는 환경이나 계산 자원이 제한적인 상황에서는 적용에 제약이 따를 수 있다.
| Model name | Language | Pros | Cons |
|---|---|---|---|
| DeBERTa | English | High accuracy, advanced attention mechanism | Larger and slower compared to lightweight models |
| DistilRoBERTa | English | Fast, lightweight, retains much of RoBERTa's accuracy | Slightly less accurate than full RoBERTa |
| MiniLM | English & multilingual | Very compact, efficient for real-time tasks | Lower accuracy than larger models like BERT or DeBERTa |
| Multilingual | 100+languages | Supports many languages, good for cross-lingual tasks | Lower performance on English-only tasks |
DistilRoBERTa는 이러한 한계를 보완하기 위해 제안된 경량화된 모델로, 속도와 효율성 면에서 뛰어난 장점을 갖는다. 특히 빠른 추론 속도를 요구하는 응용 분야에 적합하나, 정확도 면에서는 일부 손실이 발생할 수 있다는 점에서 사용 목적에 따른 선택이 필요하다.
한편, MiniLM과 Multilingual BERT는 다국어 지원에 초점을 둔 모델들로, 특히 MiniLM은 모델 크기가 작고 효율적인 구조를 통해 자원 소모를 최소화한다. 하지만 대형 모델 대비 정확도는 다소 낮은 편이며, Multilingual BERT는 100개 이상의 언어를 지원하는 장점을 가지나, 영어 단일 언어 기반 작업에서는 상대적으로 낮은 성능을 보이는 한계가 있다.
본 연구에 활용된 감정 분석 모델(DeBERTa, DistilRoBERTa, MiniLM, Multilingual BERT)은 모두 Hugging Face Transformers 라이브러리에서 제공하는 사전 학습(pretrained) 모델을 사용하였으며, 별도의 fine-tuning 없이 원본 상태 그대로 inference 단계에서만 활용되었다. 이는 Whisper STT를 통해 생성된 실제 음성 기반 비정형 텍스트에 대해, 각 모델이 사전 학습된 언어 이해 능력만으로 감정 분류를 얼마나 일반화하여 수행할 수 있는지를 평가하기 위한 설정이다. 모델 선정은 정확도, 경량화 수준, 다국어 지원 여부 등 구조적 특성과 함께, 음성 기반 감정 인식 시스템에의 실용적 적용 가능성을 고려하여 이루어졌다.
아래 그림 1의 순서도는 음성 기반 감정 분석의 전체적인 실험 과정을 단계적으로 보여준다. 첫 단계에서는 KAIST에서 제공하는 KMRE 텍스트 데이터를 기반으로 실험에 활용할 문장을 선정한다. 선정된 한국어 문장은 Google의 Text-to-Speech API인 gTTS를 사용하여 음성(mp3) 파일로 변환된다. 이 과정을 통해 텍스트 기반의 감정 데이터를 음성 형태로 재구성함으로써, 실제 음성 입력 환경과 유사한 분석 조건을 구현하였다.
이후 생성된 mp3 음성 파일은 OpenAI의 Whisper 모델을 활용하여 다시 한국어 텍스트로 전사되며, 전사된 결과는 감정 분석에 적합하도록 영어로 번역된다. 마지막 단계에서는 번역된 텍스트를 네 가지 사전 학습 감정 분석 모델(DeBERTa, DistilRoBERTa, MiniLM, Multilingual)에 입력하여 감정 분류를 수행한다. 이 과정을 통해 각 모델의 감정 분류 정확도를 측정하고 비교함으로써, STT 기반 감정 분석 시스템의 적용 가능성과 모델별 성능 차이를 실증적으로 평가할 수 있다.
본 연구에서는 네 가지 감정 분석 모델의 분류 성능을 비교하기 위해 정답 감정과 예측 감정 간의 일치 정도를 중심으로 평가하였다. 첫째, 전체 정확도는 총 600개의 샘플 중 예측이 정답과 일치한 비율로 정의되며, 아래와 같은 식 (1)로 계산된다.
| (1) |
둘째, 감정별 정확도는 각 감정 클래스에 대해 올바르게 예측된 샘플 수를 기준으로 계산하며, 아래 식 (2)와 같다:
| (2) |
셋째, 세 모델 간 예측 결과의 일치율도 측정하였다. 이는 동일한 입력에 대해 서로 같은 감정을 예측한 비율로, 두 모델 간 일치율은 아래 식 (3)과 같이 정의된다:
| (3) |
마지막으로, 감정별 오분류 경향은 혼동 행렬(Confusion matrix)을 통해 확인하였다. 행은 실제 감정, 열은 예측 감정을 의미하며, 특정 감정이 다른 감정으로 잘못 분류되는 패턴을 파악할 수 있다. 이러한 평가 기준을 통해 각 모델의 분류 성능, 감정별 민감도, 그리고 STT 기반 입력에서의 모델 간 차이를 정량적으로 분석하였다.
본 장에서는 Whisper 기반 STT를 통해 변환된 텍스트 데이터를 바탕으로 수행한 감정 인식 실험 결과를 제시하고, 네 가지 자연어 기반 감정 분석 모델(DeBERTa, DistilRoBERTa, MiniLM, Multilingual)의 성능을 정량적으로 비교·분석한다. 실험은 KMRE 데이터셋에서 6가지 감정(분노, 혐오, 공포, 기쁨, 슬픔, 놀람)별로 각 100개씩 총 600개의 문장을 무작위로 추출하여 Google TTS로 음성화하고, 이를 Whisper STT로 텍스트로 변환한 후 분석하였다. 이 실험은 총 10회 반복 수행되어 모델별 감정 분류 정확도를 평균적으로 평가하였으며, 각 모델은 STT 텍스트 입력을 기반으로 감정을 분류하였다.
먼저 전체 정확도를 기준으로 비교한 결과, 표 2에 표기한 것과 같이 Multilingual 모델이 평균 20.77%의 정확도를 기록하며 가장 우수한 성능을 보였다. 그 뒤를 이어 DistilRoBERTa(16.75%)와 MiniLM(16.69%)이 유사한 수준의 정확도를 나타냈으며, DeBERTa는 평균 15.53%로 가장 낮은 정확도를 기록하였다. 표준편차 측면에서는 MiniLM이 0.45로 가장 안정적인 성능을 보였고, 나머지 세 모델은 약 1.18 내외의 변동성을 보였다. 이는 Multilingual 모델이 가장 높은 예측 능력을 보였으나, 일부 감정에만 반응하는 경향이 있음을 보여준다.
| model | accuracy_mean | accuracy_std |
|---|---|---|
| DeBERTa | 15.53 | 1.18 |
| DistilRoBERTa | 16.75 | 1.18 |
| MiniLM | 16.69 | 0.45 |
| Multilingual | 20.77 | 0.67 |
감정별 분류 성능을 살펴보면, 각 모델의 강점과 약점이 뚜렷하게 구분되었다. Multilingual 모델은 anger(56.9)와 happiness(66.7) 감정에서 높은 정확도를 보이며 긍정 및 부정 감정의 대표 유형에 대해 강한 인식 성능을 보였다. 반면 fear, sadness, surprise에 대해서는 거의 감지하지 못하였다. DeBERTa 모델은 happiness 감정에서 평균 80.4건으로 가장 높은 분류 수를 기록하였지만 나머지 감정은 대부분 1~5건 수준에 그쳐 편향적인 분류 경향을 나타냈다.
DistilRoBERTa는 상대적으로 균형 잡힌 성능을 보여주는 모델이었다. fear(51.1), sadness(35.9), surprise(7.3) 등 다양한 감정에서 의미 있는 분류 정확도를 기록하였으며, 이는 감정별 편차가 적고 다양한 감정 표현에 반응할 수 있음을 보여준다. 반면 MiniLM은 sadness 감정에서 평균 97.1건의 정확 예측을 보여 단일 감정에 대해 매우 높은 민감도를 보였으나, 다른 감정은 전혀 분류하지 못해 적용 가능성에 제한이 있다.
이러한 결과는 모델 선택 시 단순한 정확도 외에도 감정별 분류 특성과 편향 여부를 함께 고려해야 함을 보여준다. 특히 실시간 감정 모니터링 시스템이나 사용자 감정 추적 시스템 등에서는 특정 감정에 대한 예민도와 감정 간 균형 잡힌 인식이 중요한 요소가 될 수 있다. 따라서 목적에 따라 모델의 선택 기준이 달라져야 하며, Whisper STT를 활용한 감정 인식 파이프라인에서도 입력 품질과 함께 모델 특성이 결과에 결정적인 영향을 미친다는 점을 확인할 수 있었다.
표 3과 같이 감정별 평균 예측 정확도에 따르면, 각 감정 분석 모델은 특정 감정에 대해 뚜렷한 강점과 편향을 보인다. DeBERTa 모델은 happiness 감정에서 평균 80.4건의 정확한 예측을 기록하며 해당 감정에 특화된 성능을 나타냈지만, anger, disgust, fear 등 다른 감정에서는 1~5건 수준으로 낮은 정확도를 보였다. DistilRoBERTa는 fear(51.1), sadness(35.9), surprise(7.3)에 대해 고르게 반응하여 다양한 감정 분포를 인식할 수 있는 상대적으로 균형 잡힌 모델로 평가된다. 특히 감정별로 특화된 편향 없이 비교적 고른 분류 성능을 나타낸 점이 특징이다.
| model | anger | disgust | fear | happiness | sadness | surprise |
|---|---|---|---|---|---|---|
| DeBERTa | 1.7 | 5.5 | 1.4 | 80.4 | 0.9 | 0 |
| DistilRoBERTa | 1 | 0.1 | 51.1 | 4.4 | 35.9 | 7.3 |
| MiniLM | 0 | 0 | 2.4 | 0 | 97.1 | 0 |
| Multilingual | 56.9 | 0.9 | 0 | 66.7 | 0 | 0 |
MiniLM은 sadness 감정에서 평균 97.1건을 정확히 예측해 해당 감정에 극도로 민감한 반면, 다른 감정은 전혀 감지하지 못하였다. 이는 감정별 학습 분포 혹은 모델 구조가 특정 감정 표현에 지나치게 집중되었을 가능성을 보여준다. 한편 Multilingual 모델은 anger(56.9)와 happiness(66.7) 감정에서 우수한 성능을 보였지만, 나머지 감정(fear, sadness, surprise)에 대해서는 전혀 반응하지 않아 긍정 및 분노 감정에만 강점을 가지는 경향을 보였다.
이러한 결과는 모델 구조, 학습 데이터의 성격, 언어 특성 등이 감정 인식 성능에 미치는 영향을 구체적으로 보여준다. 특히 Whisper 기반 STT의 인식 결과가 감정 표현을 왜곡하거나 단순화시키는 경향이 있으며, 이에 따라 각 모델이 다르게 반응하는 현상이 감지되었다. 따라서 향후 음성 기반 감정 분석 시스템을 설계할 때는 모델의 전반적 정확도뿐만 아니라 감정별 민감도와 편향성도 함께 고려하는 것이 필요하다.
그림 2 ~ 그림 5의 혼동 행렬(Confusion matrix)을 기반으로 감정 분류 모델들의 오분류 경향을 분석한 결과, 각 모델은 감정별로 상이한 오류 패턴을 보였다. 그림 2는 DistilRoBERTa 모델의 감정 분류 결과에 대한 혼동 행렬을 나타낸 것으로, 실제 감정(행)과 예측 감정(열) 간의 분포를 시각적으로 보여준다. 분석 결과, 모델은 happiness 감정에 대해 70건의 정확한 예측을 수행하여 가장 높은 인식 성능을 보였으며, fear(30건)와 sadness(30건) 감정에서도 비교적 우수한 정확도를 기록하였다. 반면 anger, surprise, disgust 감정에 대해서는 예측이 거의 이루어지지 않거나 오분류되는 경향이 강하게 나타났다. 특히 fear 감정은 happiness나 sadness로 혼동되는 사례가 많았고, sadness 감정 역시 fear로 오인되는 경향이 뚜렷하였다. 이는 감정 간 표현 유사성과 STT 전사 과정에서의 맥락 손실이 예측 오류의 원인일 수 있음을 시사하며, 감정별 분류 성능 개선을 위해서는 감정 간 의미적 구분을 강화하는 후처리 전략이 필요함을 보여준다.
그림 3은 DeBERTa 모델의 감정 분류 결과를 나타내는 혼동 행렬로, 해당 모델이 감정 분류에 있어 극단적으로 편향된 예측 경향을 보였음을 확인할 수 있다. 모든 감정 클래스에 대해 예측 결과가 happiness 감정에 집중되어 있으며, 실제 감정이 anger, disgust, fear, sadness, surprise임에도 불구하고 각각 20건씩 happiness로 오분류되었다. 유일하게 정확하게 분류된 경우는 happiness 감정이며, 100건 모두 정확히 예측되었다. 이는 DeBERTa 모델이 STT 전사 결과를 해석하는 과정에서 긍정적 감정 신호에 과도하게 민감하게 반응하고, 부정 감정이나 복합 감정 표현을 충분히 반영하지 못하고 있음을 보여준다. 결과적으로 해당 모델은 특정 감정에 편중된 분류를 수행하여 실사용 환경에서의 감정 인식 신뢰도가 낮을 수 있으며, 모델 재학습이나 감정 균형 보정이 요구된다.
그림 4는 MiniLM 모델의 감정 분류 결과를 나타내는 혼동 행렬이며, 이 모델이 모든 감정을 sadness로 과잉 예측하는 현저한 편향을 보이고 있음을 보여준다. 실제 감정이 다른 5가지인 경우에도 각각 20건 모두가 sadness로 잘못 분류되었으며, 정답이 sadness인 경우에만 정확하게 예측되었다. 이는 MiniLM 모델이 Whisper STT 기반 텍스트에서 감정적 다양성을 포착하지 못하고 특정 감정 특성만 과도하게 반응하는 현상을 반영한다. 이러한 극단적인 편향은 모델이 감정 인식에 필요한 미묘한 언어적 신호를 충분히 학습하지 못했거나, STT 결과의 문장 표현이 sadness 감정과 구조적으로 유사하게 나타났기 때문일 수 있다.
그림 5는 Multilingual BERT 모델의 감정 분류 결과를 시각화한 혼동 행렬로, 모델이 특정 감정에 대해 편중된 예측 경향을 보였음을 나타낸다. anger 감정은 50건이 정확하게 예측되었으며, happiness 감정도 77건으로 높은 정답률을 기록하였다. 그러나 disgust, fear, sadness, surprise 감정은 대부분 happiness로 오분류되었거나 anger로 분류되는 등, 다섯 감정 중 네 감정에서 명확한 분류 실패가 관찰되었다. 특히 fear, sadness, surprise 감정은 실제 존재함에도 불구하고 한 건도 정확하게 예측되지 못했으며, 이는 Whisper 기반 STT가 생성한 비정형 한국어 문장을 Multilingual BERT가 안정적으로 해석하지 못했음을 보여준다.
이러한 오분류 경향은 모델 구조뿐 아니라 Whisper 기반 전사 품질, 감정별 어휘 분포, 문장 길이 및 감정의 표현 방식 등 다양한 요인이 복합적으로 작용한 결과로 해석될 수 있으며, 향후 정밀한 원인 분석과 개선 방안 도출이 필요하다.
본 장에서는 Whisper 기반 음성인식(STT)을 통해 생성된 텍스트를 입력으로 활용하여, 다양한 감정 분석 모델의 분류 성능을 정량적으로 평가하였다. 분석 결과, 영어 기반 모델 중 DistilRoBERTa는 전체 평균 정확도 17.15%를 기록하며 가장 우수한 성능을 보였고, 특히 fear, sadness, surprise와 같은 감정에서 상대적으로 균형 잡힌 분류 결과를 나타냈다. 반면, DeBERTa와 MiniLM은 각각 happiness, sadness 감정에 편중된 예측을 수행하여 감정 분류 다양성과 정확도 측면에서 한계를 보였다. Multilingual BERT는 다국어 지원이라는 구조적 이점을 가지고 있음에도 불구하고, STT로부터 전사된 비정형 문장 구조에 취약한 반응을 보이며 anger와 happiness를 제외한 대부분의 감정을 정확히 예측하지 못했다.
실험 결과 전반적으로 감정 분류 정확도가 낮게 나타난 원인은 크게 세 가지 요인으로 분석된다. 첫째, Whisper STT 기반의 결과는 문장 구조가 비정형적이고 감정 표현이 간결하게 요약되는 경향이 있어, 감정 분류에 필요한 언어적 뉘앙스가 손실되었을 가능성이 크다.
둘째, 입력 텍스트가 단문 또는 구어체 형태인 경우가 많아 사전 학습된 감정 분석 모델이 훈련 데이터와의 표현 불일치로 인해 일반화 성능이 제한되었을 수 있다.
셋째, 사용된 사전 학습 모델들은 fine-tuning 없이 적용되었기 때문에, 실험에 사용된 한국어-영어 번역 문장의 감정 표현 양상에 충분히 적응하지 못한 상태에서 평가가 진행되었다. 이러한 한계를 보완하기 위해 향후 연구에서는 STT 전사 품질 향상을 위한 후처리(Preprocessing), 감정 표현이 분명한 데이터셋 추가 확보, 그리고 특정 도메인에 적합한 fine-tuning 전략 도입이 필요하다. 또한 감정 간 유사도를 고려한 앙상블 기반 보정 기법이나 감정 표현의 연속성을 반영한 soft-label 방식도 유효한 보완 방향으로 검토할 수 있다.
본 연구는 음성 기반 감정 인식 시스템의 성능을 정량적으로 비교·평가하고자, 한국어 영화 리뷰 감정 데이터셋(KMRE)의 문장을 Google TTS를 이용해 음성으로 변환한 후, Whisper 기반 STT를 활용하여 다시 텍스트로 복원하였다. 이렇게 생성된 텍스트 데이터를 바탕으로, DistilRoBERTa, DeBERTa, MiniLM, Multilingual BERT 등 네 가지 Transformer 계열 자연어 처리 모델을 적용하여 감정 분석을 수행하였다. 특히 모델별 전체 정확도뿐만 아니라, 감정별 예측 편향과 특화 성능을 중심으로 세부적인 비교 분석을 진행하였다.
실험 결과, 영어 기반 경량 모델인 DistilRoBERTa가 전체 정확도 평균 16.75%로 가장 높은 성능을 기록하였으며, fear, sadness, surprise와 같은 부정 감정에 대해 비교적 균형 잡힌 분류 성능을 보였다. 반면, DeBERTa는 happiness 감정에서 압도적으로 높은 예측 정확도를 보였으나, 나머지 감정에 대해서는 성능이 현저히 낮아 편향적인 경향을 나타냈다. MiniLM은 sadness 감정에 과도하게 민감하게 반응했으며, Multilingual BERT는 anger와 happiness 감정에 특화된 성능을 보이되, 다른 감정에는 거의 반응하지 않았다. 이러한 결과는 STT 기반 전사 과정에서의 문법적 일관성 저하, 감정 표현의 뉘앙스 손실, 그리고 모델 구조 및 학습 데이터의 특성이 감정 인식 정확도에 중대한 영향을 미친다는 점을 시사한다. 따라서 향후 음성 기반 감정 분석 시스템 설계 시에는 모델의 전반적인 정확도뿐만 아니라, 감정별 민감도, STT 품질, 모델 구조 간의 정합성을 함께 고려할 필요가 있다.
본 연구는 기존의 정제된 텍스트 기반 감정 인식 연구와 달리, 음성-텍스트 변환(STT)을 거친 실제 환경에 가까운 입력을 활용해 자연어 감정 분석 모델의 실제 적용 가능성과 한계를 정량적으로 검증하였다는 점에서 의의가 있다. 또한 Whisper STT 결과의 품질이 감정 분류 성능에 영향을 미칠 수 있음에도, 본 연구에서는 WER, CER 등 전사 정확도에 대한 정량적 검증을 수행하지 못한 점은 중요한 한계로 남는다. 향후 연구에서는 STT 전사 오류의 유형을 분석하고 감정 분류 성능 저하와의 상관관계를 계량화하여, 전체 시스템의 진단 및 개선 방안을 구체화할 필요가 있다.
또한 본 연구는 사전학습된 언어모델들을 별도의 fine-tuning 없이 적용하여 baseline 성능을 비교하였다. 이는 Whisper 기반 STT 결과가 비정형적이고 구어체적인 특성을 지니는 만큼, 모델이 원본 상태에서 어느 정도 일반화된 감정 인식을 수행할 수 있는지를 확인하기 위함이었다. 그러나 선행연구에 따르면 동일 모델을 도메인 맞춤 데이터셋으로 fine-tuning 할 경우 성능이 크게 향상된다(Fayek et al., Byun and Lee)[3][6]. 따라서 본 연구는 baseline 비교라는 의의를 가지며, 향후 연구에서는 KMRE와 같은 한국어 감정 데이터셋을 활용한 fine-tuning을 통해 실제 적용 환경에서의 성능 개선을 수치적으로 검증할 예정이다.
또한, 감정 분류 정확도 비교에 그치지 않고 softmax 기반 확률 분포를 활용한 감정 간 유사도 분석, 모델 앙상블 전략 적용, 그리고 다중 감정 인식(Multi-label classification) 기법 적용 등으로 분석 정밀도를 높이는 방향도 고려할 수 있다. 아울러 음성 어조와 억양 등 음성적 특성을 함께 반영하는 멀티모달 감정 분석 프레임워크로 확장함으로써, 실시간 음성 기반 감정 인식 시스템의 정밀도와 실용성을 동시에 향상시킬 수 있을 것이다.
| 1. | R. Cowie, E. Douglas-Cowie, S. Savvidou, E. McMahon, M. Sawey, and M. Schroeder, "FEELTRACE: An instrument for recording perceived emotion in real time", Proc. ISCA Tutorial and Research Workshop (ITRW) on Speech and Emotion, pp. 19-24, Sep. 2000. |
| 2. | B. Schuller, S. Steidl, and A. Batliner, "The INTERSPEECH 2009 Emotion Challenge", Proc. Interspeech, pp. 312-315, Sep. 2009.![]() |
| 3. | H. M. Fayek, M. Lech, and L. Cavedon, "Evaluating deep learning architectures for speech emotion recognition", Neural Networks, Vol. 92, pp. 60-68, Aug. 2017.![]() |
| 4. | H. S. Shin and J. K. Hong, "Deep learning-based speech emotion recognition using voice feature filters", Journal of the Korea Big Data Society, Vol. 8, No. 2, pp. 223-231, May 2023. |
| 5. | H. J. Noh and Y. J. Lim, "A study on the impact of data imbalance on deep learning-based emotion recognition", Journal of KIPS, Vol. 12, No. 8, pp. 301-310, Aug. 2023. |
| 6. | S. W. Byun and S. P. Lee, "A study on a speech emotion recognition system with effective acoustic features using deep learning algorithms", Applied Sciences, Vol. 11, No. 4, pp. 1890, Feb. 2021.![]() |
| 7. | A. H. Jo and K. C. Kwak, "CCA method-based multi-feature fusion deep learning speech emotion recognition", The Transactions of the Korean Institute of Electrical Engineers: P, Vol. 72, No. 3, pp. 214-222, Mar. 2023. |
| 8. | Y. Li, P. Bell, and C. Lai, "Fusing ASR outputs in joint training for speech emotion recognition", Proc. IEEE Int. Conf. on Acoustics, Speech and Signal Processing (ICASSP), Singapore, Singapore, pp. 7362-7366, May 2022.![]() |
| 9. | E. Lakomkin, M. A. Zamani, C. Weber, S. Magg, and S. Wermter, "Incorporating end-to-end speech recognition models for sentiment analysis", Proc. IEEE Int. Conf. on Robotics and Automation (ICRA), Montreal, QC, Canada, May 2019.![]() |
| 10. | S. Wu and M. Dredze, "Are all languages created equal in Multilingual BERT?", Proc. 5th Workshop on Representation Learning for NLP (RepL4NLP), Online, pp. 120-130, May. 2020.![]() |
| 11. | S. Kwon, D. Lee, and B. Jang, "Zero-shot Korean Sentiment Analysis Using Large Language Models: A Comparison with Pre-trained Language Models", Journal of the Korea Institute of Information Technology, Vol. 22, No. 4, pp. 457-464, Feb. 2024.![]() |
2011년 2월 : 한국항공대학교 정보통신공학(학사)
2019년 8월 : 아주대학교 정보통신공학(석사)
2025년 2월 : 서울대학교 도시계획학(박사)
2011년 1월 ~ 2019년 6월 : LG전자(주) 선임연구원
2019년 7월 ~ 2020년 2월 : ㈜LG유플러스 책임
2020년 2월 ~ 현재 : 한국폴리텍대학 AI금융소프크웨어과 부교수
관심분야 : 도시계획, 데이터 분석, 인공지능, 근거리 무선통신
2020년 6월 ~ 2022년 3월 : 메타오션 대표이사
2024년 8월 : 부산대학교 도시공학과(학사)
2022년 9월 ~ 현재 : ㈜이루티 대표이사
관심분야 : AI, 블록체인, 플랫폼, 핀테크, 콘텐츠
1990년 2월 : 계명대학교 컴퓨터공학과(공학사)
1992년 8월 : 계명대학교 컴퓨터공학과(공학석사)
1997년 8월 : 계명대학교 컴퓨터공학과 박사수료
1993년 12월 ~ 현재 : 한국폴리텍대학 대전캠퍼스 스마트소프트웨어과 교수
관심분야 : 데이터베이스, 데이터 분석, 머신러닝, 딥러닝