Home | JKIIT Archives | About the JKIIT | E-SUBMISSON |
Sorry.
You are not permitted to access the full text of articles.
If you have any questions about permissions,
please contact the Society.
죄송합니다.
회원님은 논문 이용 권한이 없습니다.
권한 관련 문의는 학회로 부탁 드립니다.
[ Article ] | |
The Journal of Korean Institute of Information Technology - Vol. 22, No. 11, pp. 137-144 | |
Abbreviation: Journal of KIIT | |
ISSN: 1598-8619 (Print) 2093-7571 (Online) | |
Print publication date 30 Nov 2024 | |
Received 12 Aug 2024 Revised 20 Aug 2024 Accepted 23 Aug 2024 | |
DOI: https://doi.org/10.14801/jkiit.2024.22.11.137 | |
유사 홀로그램과 LSTM을 이용한 3D 수화 교육 시스템 개발 및 평가 | |
김나은*
; 최해영*
; 강창구**
| |
*경상국립대학교 컴퓨터공학과 학사과정 | |
*경상국립대학교 컴퓨터공학과 학사과정(공동1저자) | |
**경상국립대학교 컴퓨터공학과 교수(교신저자) | |
Development and Evaluation of a 3D Sign Language Education System using Pseudo-Holograms and LSTM | |
Naeun Kim*
; HaeYeong Choe*
; Changgu Kang**
| |
Correspondence to : Changgu Kang Dept. of Computer Science and Engineering, Gyeongsang National University, Korea Tel.: +82-55-772-3321, Email: cgk@gnu.ac.kr | |
청각장애인의 의사소통 제약을 개선하기 위해 비청각장애인들도 쉽게 익힐 수 있는 수화 교육 시스템을 제안한다. 이 시스템은 기존 연구들의 3차원 시각적 특성 반영 한계를 극복하고자 유사 홀로그램을 이용하고, 립모션 장치와 순환 신경망(RNN)을 결합하여 구성하였다. 학습자가 손동작을 수행하는 홀로그램 화면을 보며 실습으로 수화를 배우고, 평가를 통해 능력 향상을 확인할 수 있도록 한다. 정답 판별을 위한 수화 인식 모델은 RNN, LSTM, BiLSTM을 각각 학습한 후 성능을 비교하여 F1 스코어 0.9451로 가장 우수한 성능을 보인 LSTM을 선정하였다. 수화 교육 시스템의 모델 성능을 평가하고, 사용자의 테스트 및 설문 조사를 수행하여 흥미 유발과 만족도를 평가한다. 궁극적으로 이 수화 교육 시스템을 통해 비청각장애인의 수화에 대한 인식 향상에 기여하고자 한다.
To improve communication constraints for the hearing-impaired, we propose a sign language education system that can be easily learned by non-hearing-impaired individuals. To overcome the limitations of the three-dimensional visual characteristics reflected in existing studies, the system utilizes a pseudo-hologram and combines a Leap Motion device with a Recurrent Neural Network(RNN). The sign language education system allows learners to easily learn and improve their sign language skills through practice by viewing the hologram screen and verifying their progress. The model for sign language recognition to determine correct answers was trained using RNN, LSTM, and BiLSTM. Among these, the LSTM model was selected as it showed the best performance with an F1 score of 0.9451. To evaluate the engagement and satisfaction of the sign language education system, user tests and surveys were conducted. This sign language education system aims to contribute to the improvement of sign language awareness among non-hearing-impaired individuals.
Keywords: sign language, education systems, leap motion, RNN, 3D hologram, user survey |
사람은 타인과 의사소통을 통해 관계를 맺고 상호작용하며 살아간다. 이때 언어는 의사소통과 필연적 관계이며 중요한 요소이다. 비청각장애인의 경우 음성언어를 사용하지만, 청각장애인 같은 경우 음성언어 사용에 제약이 발생한다. 이러한 의사소통의 제약을 극복하고자 손과 손가락의 움직임을 달리하여 의미를 전달하는 언어인 수화를 사용하게 된다. 국립국어원의 2020년 한국수어 활용 조사에 따르면 청각장애인들이 주로 사용하는 의사소통 방법으로 수화라고 응답한 경우가 54.2%, 수화 이외라고 응답한 경우가 45.8% 조사되었다[1]. 그러나 수화는 일반적인 음성언어와 달리 배우고 익히는 데 상당한 시간이 소요되며, 수화를 접할 기회가 적은 비청각장애인과의 소통은 여전히 문제로 남아있다. 이 문제는 수화 교육이 개선되어 인식이 높아지면 청각장애인도 의사소통의 제약이 개선되고 사회적 평등 향상의 기회가 될 수 있다.
IT 기술의 발전과 함께 이를 접목한 수화에 관한 다양한 주제로 연구가 진행되었다. 그중에서도 손동작을 입력으로 지원하는 센서 장치인 립모션을 이용한 연구는 여러 나라에서 수화를 사용하는 언어로 번역하는 수화 인식 연구가 진행되었다[2]-[6]. 최근에는 시계열 데이터 처리에 효과적이며, 음성 인식, 기계 번역 등에서 뛰어난 성능을 보이는 순환신경망 기술을 활용한 수화 교육 시스템이 설계되고 있다[7][8]. 수화 교육은 실습으로 습득되는 경우가 많으며, 자신이 혼자 수화 학습을 하기 위해서는 손동작에 대한 정확성에 대한 피드백이 필요하다. 위 연구들은 기존의 교재와 영상을 활용한 수화 교육 방법의 혼자 실습 및 피드백이 어렵다는 문제를 개선하였다.
하지만 수화는 3차원 공간에서 손의 위치와 모양, 움직임을 포함하기 때문에 3차원 시각적 특성을 반영한 교육 도구가 필요하다. 기존의 연구들은 3차원 시각적 특성을 반영하는 데 한계가 있다. 이 한계점을 극복하기 위해 본 논문에서는 피라미드 홀로그램을 이용한 수화 교육 시스템 프로토타입을 제안한다. 수화의 학습 과정을 홀로그램을 이용해 학습자가 3차원의 손동작을 보면서 익힌다. 또한, 테스트하는 과정을 퀴즈 콘텐츠로 구성하여 학습자의 흥미를 유발하고, 수화 능력 향상을 평가할 수 있도록 설계하였다.
본 논문의 구성은 다음과 같다. 제2장에서는 관련 연구를 소개하며, 각 연구의 특징, 장점 및 한계점을 상세히 기술한다. 제3장에서는 수화 교육 시스템의 전반적인 설명을 다룬 후, 데이터셋의 구성 및 전처리 방법, 학습 및 평가 과정을 구체적으로 서술한다. 제4장에서는 사용자를 대상으로 실험을 수행하고 설문을 통해 결과를 분석한다. 마지막으로, 제5장에서는 결론과 향후 연구 방향에 대해 논의한다.
IT 기술의 발전과 함께 수화 교육에서 순환신경망, 립모션 등과 같은 다양한 기술들이 접목된 연구들이 진행되고 있다.
수화 인식과 관련한 연구 중 J. Mistry et al.[9]는 Intel RealSense 카메라를 사용한 수화 번역에 대한 접근 방식을 제안하였다. 해당 연구에서 미국 수화 26개 글자를 지원하고 벡터 머신과 다층 퍼셉트론을 사용해 분류하고자 하였으나 정적인 수화만을 사용하였다는 한계점이 있다. T.-W. Chong et al.[10]은 LMC(Leap Motion Controller)와 머신러닝을 사용한 접근 방식을 제안하였다. 해당 연구에서는 26개의 글자와 10개의 숫자로 구성된 미국 수화 인식을 목표로 하였고 또한 정적인 수화와 동적인 수화를 구별하고자 하였다. D. Avola et al.[11]는 수화와 세마포어 동작을 LMC와 순환 신경망을 활용해 인식하는 방법을 제안했다. 해당 연구에서 LMC를 통해 수화 손동작에서의 손 관절의 각도를 수집한 뒤 순환 신경망을 학습시켜 수화를 인식하고자 하였다.
수화 교육과 IT 기술을 접목한 연구 중 C. K. M. Lee et al.[8]는 LMC와 순환 신경망을 활용한 미국 수화 학습용 애플리케이션을 제안하였다. 해당 연구에서 LMC와 이전의 수화 인식 등에서 사용하던 Kinect, 모션 글러브를 비교하며 LMC의 장점을 제시하였고, 수화 교육용 두더지 잡기 게임을 만들어 수화 교육 애플리케이션에 대한 가능성을 보였다. 하지만 해당 연구는 하나의 손 동작만 인식할 수 있으며, 프로토타입이 오른손의 샘플만 고려하였다는 한계가 있다. J. Schioppo et al.[12]는 립모션과 VR 헤드셋을 통해 몰입도를 높인 수화 학습용 애플리케이션을 제안하였다.
기존의 연구들은 주로 수화를 인식하며 정확도를 높이는 데에 중점을 두었으며, 교육과 관련된 연구들은 사용자 설문과 같은 실험 없이 정확도와 관련한 실험에 그쳤다. 이에 본 연구에서는 게임 콘텐츠 형식의 교육 시스템을 통해 수화에 대한 흥미와 사용자 몰입감을 높여 교육효과를 증대하고자 립모션과 홀로그램, 순환신경망을 결합한 수화 교육 시스템을 제안한다.
수화 교육 시스템의 설계 및 구현 내용에 관해 서술한다.
그림 1은 본 논문에서 제안하는 수화 교육 시스템의 전체 구조를 나타낸다. 본 시스템의 전체 구조는 크게 클라이언트(Client)와 서버(Server)로 구분된다. 클라이언트는 학습자와의 인터페이스를 구성하며, UI 컴포넌트를 통해 학습자와 상호작용한다. 립모션(Leap motion) 장치를 이용하여 학습자의 수화 데이터를 입력받은 후 데이터를 소켓 통신을 통해 서버로 전송한다. 서버에서는 수신된 데이터를 두 손 사이 거리 계산, 시퀀스 길이로 분할하는 전처리 과정을 거친 후, 모델 추론을 통해 수화 결과를 도출한다. 도출된 결과는 클라이언트로 전송되며, 학습자는 이를 문제의 정답과 비교하여 점수를 확인할 수 있다.
본 연구에서는 학습을 위한 데이터셋을 구축하였다. 이를 위해, 한국 수어 사전 사이트를 참고하여 일상생활에서 자주 사용되는 수화 동작 8가지를 선정하였으며, 데이터 수집에는 립모션 장치를 활용하였다.
그림 2는 손의 구조를 나타낸 사진이며, 데이터는 양손의 손가락 끝, 각 관절, 손바닥의 쿼터니언(Quaternion) 및 손바닥의 위치 값을 포함한다. 립모션 장치를 활용해 수집된 데이터는 총 174개로, 양 손의 손가락 끝 10개, 손가락 관절 30개, 손바닥 2개에 쿼터니언의 요소 4개를 곱한 168개와 손바닥 2개에 위치의 요소 3개를 곱한 6개의 합으로 구성된다. 수화의 동작 변화 분석이 가능하도록 각 프레임당 데이터를 저장한다. 동작이 원활하게 수집될 수 있도록 60FPS으로 설정하였고, 수화 각각 총 1000초 동안 동작을 반복하여 학습 및 검증 데이터를 수집하였다. 이때, 양 손 다 인식되지 않는 경우 해당 데이터는 수집되지 않는다. 최종적으로 수화 별 수집된 프레임 수는 표 1과 같다.
Sign language class | Number of frames |
---|---|
Thank you | 59,523 |
Meet | 59,522 |
Love | 59,441 |
No | 59,466 |
It hurts | 59,436 |
Hello | 59,559 |
Congratulations | 59,560 |
It’s cold | 59,573 |
수집한 데이터 총 174개 중 쿼터니언인 168개는 손가락, 손바닥의 각도를 나타낸 값으로 손의 위치에 영향을 받지 않아 그대로 사용하였다. 손바닥의 위치 값 6개는 수화 동작 시 두 손 사이의 관계를 구하기 위한 유클리디안 거리를 계산하는 데 사용하였다. 유클리디안 거리는 두 점 사이의 직선 거리를 측정하는 방법으로, 다음과 같은 식 (1)을 사용하였다.
(1) |
여기서 (x1,y1,z1)와 (x2,y2,z2)는 각각 두 손바닥의 위치 값을 나타낸다. 이 공식을 통해 두 손 사이의 거리 변화를 계산하여 얻은 거리 값 자체를 수화 동작 인식을 위한 특징으로 사용한다. 계산 후 손의 위치에 영향을 받지 않도록 손바닥의 위치 값들은 제거하였다.
순환신경망을 이용하기 위하여 시퀀스 길이로 분할하는 작업이 필요하다. 본 논문에서는 하나의 수화 동작이 수행될 수 있는 시간인 2초로 설정하고, 이를 기준으로 시퀀스 길이를 120으로 정하여 분할하였다.
본 연구에서는 수집한 시퀀스 데이터를 학습에 활용하여 적합한 모델을 찾기 위해 순환 신경망 모델인 RNN, LSTM, BiLSTM을 선정하여 각각 학습을 수행하였다. 순환 신경망 모델의 레이어 수는 3개이고, 각 레이어의 은닉 상태 크기는 8로 설계하였다. 모든 모델의 하이퍼 파라미터는 동일하게 설정하였으며, 학습은 에포크(Epoch) 10, 학습률(Learning rate) 0.001로 진행하였다. 학습 과정에서 발생할 수 있는 과대적합(Overfitting)을 방지하기 위해 드롭아웃(Dropout)과 계층별 k-fold 교차 검증(Stratified k-fold cross validation)을 사용하였다.
드롭아웃은 무작위로 뉴런을 제거하여 과적합을 방지하는 방법으로, 비율은 0.5로 설정하였다. 계층별 k-fold 교차 검증은 기존의 k-fold 교차 검증을 개선한 방법으로, 클래스별 데이터가 불균형한 경우에 발생하는 문제를 해결하기 위해 데이터 클래스별 분포를 고려하는 방법이다. 본 연구에서는 k를 5로 설정하여 계층별 k-fold 교차 검증을 수행하였다. 이 두 가지 기법을 결합하여 신경망 모델의 성능 향상 및 적합성을 판단하였다.
표 2는 모델별 검증 성능에 대한 평가를 나타냈고, 그림 3, 그림 4, 그림 5는 모델의 손실과 정확도 성능을 나타냈다. 모델의 검증 성능은 BiLSTM이 더 우수했으나, 표3과 같이 테스트 데이터에 대한 성능 평가는 LSTM이 우수한 성능을 보였다. BiLSTM 모델은 과적합으로 인해 성능이 저하된 것으로 판단하여 최종 모델로 LSTM을 선택하였다.
Model | Mean accuracy | Precision | Recall | F1 |
---|---|---|---|---|
RNN | 0.9631 | 0.9633 | 0.9631 | 0.9631 |
LSTM | 0.9949 | 0.9949 | 0.9949 | 0.9949 |
BiLSTM | 0.9999 | 0.9999 | 0.9999 | 0.9999 |
Model | Accuracy | Precision | Recall | F1 |
---|---|---|---|---|
RNN | 0.8812 | 0.8986 | 0.8812 | 0.8851 |
LSTM | 0.9437 | 0.9583 | 0.9437 | 0.9451 |
BiLSTM | 0.8937 | 0.9117 | 0.8937 | 0.8926 |
수화 종류별로 20개를 립모션을 활용하여 수집한 후 모델의 성능을 테스트하였다. 그림 6은 혼동 행렬(Confusion matrix)로, 테스트에 대한 결과를 가로, 세로 중 한 쪽에는 정답 레이블을, 다른 한쪽에는 모델이 예측하는 레이블을 표시하여 성능을 평가한다. 정밀도는 0.95, 재현율은 0.94, F1 스코어는 0.94로 우수한 성능을 보이지만 ‘감사합니다’, ‘사랑합니다’, ‘안녕하세요’에 해당하는 클래스는 동작이 수행될 때 손이 가려지면서 다른 동작에 비해 인식률이 떨어졌다.
클라이언트는 유니티로 제작되었고 시작, 학습, 테스트 총 3개의 장면을 가지며, 홀로그램 피라미드를 이용할 수 있는 형태로 구성되었다.
다음으로 개발된 수화 교육 시스템의 사용성 평가를 수행하였다. 본 교육 시스템이 기존의 영상 교육 매체와 비교해 수화에 대해 흥미를 유발할 수 있는지에 대해 10명을 대상으로 실험을 진행하였다. 실험은 8개의 단어를 유사한 난이도의 2개 집단으로 나누어 학습자들이 교육 시스템을 통해 1개 집단을 학습 후 테스트를 수행한다. 이후 영상 매체를 통해 나머지 1개 집단을 학습 후 테스트를 수행하는 방식으로 진행하였다. 테스트는 본 교육 시스템의 테스트 기능을 사용한다.
설문조사는 본 애플리케이션과 기존의 영상 교육 매체의 비교를 위해 작성하였다. 설문은 2개의 비교 항목과 1개의 항목으로 구성하였다. 설문 항목은 아래 표 4와 같다. 설문지는 항목별로 5점 척도로 측정하였다. 표 4의 1번과 2번 비교 항목은 1점에 가까울수록 기존 교육 매체가 우수, 5점에 가까울수록 본 시스템이 우수함을 의미한다. 설문 대상자들의 응답을 점수로 합산하여 항목별로 평균값을 산출하였다. 설문 결과는 아래 표 5와 같다.
No | Survey |
---|---|
1 | Satisfied |
2 | Engaging of training content |
3 | Holograms helped learn sign language |
Variable | Average |
---|---|
1. Satisfied | 3.2 |
2. Engaging of education content | 4.5 |
3. Pseudo holograms helped learn sign language | 4.3 |
만족도의 평균은 3.2로 기존 매체와 본 시스템의 만족도가 비슷하다는 결과를 얻을 수 있었다. 그리고 교육 콘텐츠로서 흥미도의 평균은 4.5로 기존 매체보다 본 시스템이 학습자의 관심을 불러일으키는데 뛰어나다는 결과를 얻을 수 있었다. 홀로그램이 수화 학습에 있어 도움이 되었나에 대한 설문의 평균은 4.3으로 홀로그램이 해당 학습에 있어 관심을 불러일으키고 도움이 될 수 있음을 보였다.
본 논문에서는 립모션, 순환신경망, 피라미드 홀로그램을 결합한 3D 수화 교육 시스템을 제안하고, 사용자 실험을 통해 그 사용성을 평가하였다. 기존의 영상 교육 매체와는 달리, 유사 홀로그램을 활용하여 3차원 시각화함으로써 손동작을 직관적으로 이해할 수 있으며, 립모션을 통해 실습할 수 있다. 또한, 퀴즈를 통해 사용자의 수화 이해 정도를 점수로 확인할 수 있으며, 설문을 통해 실제 사용자에게 긍정적인 영향을 미쳤음을 확인하였다.
제안된 수화 교육 시스템은 우수한 성능을 보였으나, 몇 가지 한계점이 존재한다. 첫째, 현재 교육 시스템은 프로토타입으로서, 제공되는 수화의 개수가 제한적이다. 향후 연구에서는 다양한 수화를 포함하여 더 많은 수화를 학습할 수 있도록 할 것이다.
둘째, 수화 동작 중 손이 가려지는 부분에서 립모션의 인식 한계가 나타난다. 추후 연구로서 우리는 이러한 한계를 극복하기 위해 다양한 기법을 적용할 것이다. 세 번째로, 실험에 참여한 인원이 제한적이고 비청각장애인으로만 구성되어 있어 평가 결과를 일반화하는 데에 한계가 있다. 향후 연구에서는 청각장애인과 비청각장애인을 포함한 다양한 집단을 대상으로 설문 조사를 실시하고, 참여 인원을 늘려 결과의 일반화 가능성을 높일 계획이며, 청각장애인을 위한 기능도 추가할 계획이다. 끝으로 우리는 제안된 수화 교육 시스템을 통해 청각장애인과 비청각장애인 모두에게 수화 교육에 대한 흥미를 유발하고, 의사소통의 제약이 개선되어 사회적 평등 향상의 기회가 될 수 있기를 기대한다.
1. | J. Lee, "2020 Korean Sign Language Usage Survey", National Institute of Korean Language, Dec. 2020. |
2. | C.-H. Chuan, E. Regina, and C. Guardino, "American sign language recognition using leap motion sensor", 2014 13th International Conference on Machine Learning and Applications, Detroit, MI, USA, pp. 541-544, Dec. 2014. |
3. | M. Mohandes, S. Aliyu, and M. Deriche, "Arabic sign language recognition using the leap motion controller", 2014 IEEE 23rd International Symposium on Industrial Electronics (ISIE), Istanbul, Turkey, pp. 960-965, Jun. 2014. |
4. | Y. Xue, S. Gao, H. Sun, and W. Qin, "A Chinese sign language recognition system using leap motion", 2017 International Conference on Virtual Reality and Visualization (ICVRV), Zhengzhou, China, pp. 180-185, Oct. 2017. |
5. | B. Demircioğlu, G. Bülbül, and H. Köse, "Turkish sign language recognition with leap motion", 2016 24th Signal Processing and Communication Application Conference (SIU), Zonguldak, Turkey, pp. 589-592, May 2016. |
6. | J. J. Bird, A. Ekárt, and D. R. Faria, "British sign language recognition via late fusion of computer vision and leap motion with transfer learning to american sign language", Sensors 2020, Vol. 20, No. 18, Sep. 2020. |
7. | K. Y. Kim, J. Y. Yang, and K. Y. Lee, "Development of a Deep Learning-based Web Application for Korean Sign Language Education Using Leap Motion Sensors", Proceedings of the Korean Institute of Information Scientists and Engineers Conference, pp. 1879-1881, Jun. 2021. |
8. | C. K. M. Lee, K. K. H. Ng, C.-H, Chen, H. C. W. Lau, S. Y. Chung, and T. Tsoi, "American Sign Language Recognition and Training Method with Recurrent Neural Network", Expert Systems with Applications, Vol. 167, pp. 114403, Apr. 2021. |
9. | J. Mistry and B. Inden, "An approach to sign language translation using the intel realsense camera", 2018 10th computer science and electronic engineering (CEEC), Colchester, UK, pp. 219-224, Sep. 2018. |
10. | T.-W. Chong and B.-G. Lee, "American sign language recognition using leap motion controller with machine learning approach", Sensors 2018, Vol. 18, No. 10, pp. 3554, Oct. 2018. |
11. | D. Avola, M. Bernardi, L. Cinque, G. L. Foresti, and C. Massaroni, "Exploiting recurrent neural networks and leap motion controller for the recognition of sign language and semaphoric hand gestures", IEEE Transactions on Multimedia, Vol. 21, No. 1, pp. 234-245, Jan. 2019. |
12. | J. Schioppo, Z. Meyer, D. Fabiano, and Shaun Canavan, "Sign language recognition: Learning american sign language in a virtual environment", Extended Abstracts of the 2019 CHI Conference on Human Factors in Computing Systems, Glasgow Scotland Uk, pp. 1-6, May 2019. |
2021년 3월 ~ 현재 : 경상국립대학교 컴퓨터공학과 학사과정
관심분야 : 데이터분석, 이미지 분류, 인공지능
2019년 3월 ~ 현재 : 경상국립대학교 컴퓨터공학과 학사과정
관심분야 : 게임, 증강현실
2010년 2월 : 광주과학기술원 정보기전공학부(공학석사)
2017년 8월 : 광주과학기술원 전기전자컴퓨터공학부(공학박사)
2018년 3월 ~ 현재 : 경상국립대학교 컴퓨터공학과 부교수
관심분야 : 컴퓨터 그래픽스, 증강현실, 인공지능