Korean Institute of Information Technology
[ Article ]
The Journal of Korean Institute of Information Technology - Vol. 21, No. 5, pp.69-74
ISSN: 1598-8619 (Print) 2093-7571 (Online)
Print publication date 31 May 2023
Received 25 Feb 2023 Revised 21 Mar 2023 Accepted 24 Mar 2023
DOI: https://doi.org/10.14801/jkiit.2023.21.5.69

잡음음성 최소통계적 추정방식에 기반한 음성개선 알고리즘

최재승*
*신라대학교 전기전자공학과 교수
Speech Improvement Algorithm based on Noisy Speech Minimum Statistical Estimation Method
Jae-Seung Choi*

Correspondence to: Jae-Seung Choi Dept. of Electrical and Electronic Engineering, Silla University, 140 Baegyang-daero(Blvd), 700beon-gil(Rd), Sasang-gu, Busan, 46958 Korea Tel.: +82-51-999-5608, Email: choijaes7@silla.ac.kr

초록

본 논문에서는 잡음제거 성능을 향상시키기 위하여 무음구간에서만 잡음 전력의 추정에 기초한 VAD를 적용한 후에 MMSE의 음성개선 기법을 사용하여 잡음음성 스펙트럼에 대해서 잡음 성분을 감소시키는 음성개선 기법을 제안한다. 제안한 알고리즘의 성능을 입증하기 위하여 NOIZEUS의 여러 종류의 음성과 AURORA에 포함된 다양한 잡음 데이터를 사용하여 실험을 진행하였으며, 다양한 신호대잡음비로 구성된 잡음음성에 대하여 음성개선의 실험을 수행하였다. 제안한 알고리즘은 자동차잡음이 중첩된 남성화자에 대하여 평균 출력 SNR이 최대 11.617(dB), 자동차잡음이 중첩된 여성화자에 대하여 평균 출력 SNR이 최대 12.046(dB) 개선된 것을 확인할 수 있었다. 또한 제안한 알고리즘은 높은 잡음 환경 및 여러 종류의 잡음 레벨에 있어서도 유효하다는 것을 파형의 비교실험을 통하여 음성개선의 유효성을 확인하였다.

Abstract

To improve the noise cancellation performance, this paper proposes a speech improvement technique that reduces noise components in the noisy speech spectrum using a speech enhancement technique of MMSE after applying VAD based on noise power estimation only in the silent section. To prove the performance of this proposed algorithm, this experiment was conducted using various types of speech data of NOIZEUS and various noise data included in AURORA, and speech improvement experiments were performed on noisy speeches composed of various signal-to-noise ratios. The proposed algorithm improved the average output SNR by up to 11.617(dB) for male speakers and 12.046(dB) in average output SNR for female speakers, using noisy speech contaminated by car noise. Moreover the effectiveness for speech improvement was confirmed through waveform comparison experiments that the proposed algorithm is effective even in a high noise environment and various noise levels.

Keywords:

voice activity detection, minimum statistical estimation method, speech distortion, speech improvement

Ⅰ. 서 론

근년 휴대전화의 급속한 보급으로 음성통신의 형태가 다변화됨에 따라서 주변잡음에 의한 통화품질의 열화가 문제가 되고 있다. 따라서 관측된 신호로부터 잡음을 억제하여 음성의 통화품질을 개선할 필요가 있다. 일반적인 주변잡음의 억압처리법으로는 스펙트럼 차감법(SS, Spectral Subtraction)[1], 통계적 추정에 의한 최소평균제곱오차 추정기(MMSE, Minimum Mean Square Error)[2][3] 등의 스펙트럼 추정에 기초한 방법, 위너필터 기반의 잡음제거 및 음성강조[4][5]를 이용한 방법 등이 있다. 스펙트럼의 잡음 억압처리 방법은 잡음이 중첩된 경우에 입력 음성신호의 단시간 스펙트럼의 진폭성분에 대해서 잡음 억압 이득을 조정하여 잡음을 억압하여 음성을 강조하는 주파수 영역의 처리 방법이다[1][2]. 이 방법은 잡음 전력으로 추정한 스펙트럼 성분을 사용하여 입력 잡음 음성신호에 포함되는 잡음 성분을 억압하기 때문에 잡음전력 스펙트럼의 정밀한 추정이 중요하게 된다. 이러한 잡음전력의 정밀한 추정은 억압처리 후에도 음성 품질에 크게 영향을 미치기 때문에 음성 구간에 있어서 주변잡음이 변동하는 경우에 특히 중요하다.

최근에는 음성인식기술[6][7]이 발전하고 있지만 아직도 높은 잡음 환경에서는 음성 구간을 정밀하게 검출하지 못하는 문제가 있기 때문에 특히 높은 잡음 환경에서의 음성구간 검출(VAD, Voice Activity Detection)이 중요하게 되었다[8]-[10]. 이러한 이유로 만약 음성구간을 잘못 검출하게 되면 불필요한 무음구간 등의 비음성구간에 대해서도 검출을 진행하게 되기 때문에 인식 오차가 발생하여 전체적인 음성인식 성능을 떨어뜨리는 원인이 된다. 그러므로 이러한 문제점을 해결하기 위하여 VAD 기법을 사용하여 음성이 존재하지 않는다고 판단되는 구간부터 잡음의 전력을 추정하는 기법이 제안되고 있다.

음성인식 분야에서 심층신경회로망(DNN, Deep Neural Network)의 효과가 나타난 이후에 DNN에 의한 음성구간검출의 유효성도 나타나고 있다[11][12]. 이러한 DNN은 주파수 영역의 스펙트럼의 고차원 특징파라미터를 사용하여 잡음중첩음성의 학습데이터에서 파라미터를 학습시킨다.

본 논문에서는 음성의 왜곡을 억제하고 잡음제거 성능을 향상시키기 위하여 한계치 기반의 VAD를 적용한 후에 MMSE 기반의 음성개선 기법을 사용한 알고리즘을 제안한다. 잡음 환경에서 음성인식을 실행하는 경우에 음성의 구간검출의 전처리과정이 필요하다. 따라서 각 프레임마다 한계치 기반의 VAD를 적용하여 음성의 존재 유무를 결정한 후 무음구간에서만 잡음 전력을 추정하는 방법을 제안한다. 다음으로 MMSE 기반의 음성개선 기법을 사용하여 잡음음성의 스펙트럼에 대해서 VAD에 의해 각 프레임에서 추정된 잡음신호의 전력 스펙트럼을 이용하여 구한 이득 값을 곱해줌으로써 잡음 성분을 줄여준다. 제안한 알고리즘의 성능을 확인하기 위하여 다양한 잡음 및 음성을 사용하여 높은 잡음 환경에 대해서도 SNR과 파형의 비교 실험을 통하여 제안한 알고리즘의 유효성을 검증한다.

논문의 전체 구성은 2장에서 기존의 음성강조법에 대한 개요를 기술하였으며, 3장에서는 본 논문에서 사용하는 음성향상을 위한 제안법을 기술하였다. 4장에서는 실험에 사용한 음성 및 잡음에 대한 데이터베이스와 실험 결과를 나타냈으며 5장은 결론을 기술하였다.


Ⅱ. 기존의 음성개선 기법의 개요

음성강조법으로 알려진 스펙트럼 억압법[1], MMSE법[2][3], 음성강조에 의한 위너필터법(WF, Wiener Filter)[4][5], 벡터 테일러 급수(VTS, Vector Taylor Series)법[13] 등이 연구되고 있다. VTS법은 무음구간 등에서 관측된 잡음의 평균 및 통계량을 사용하여 깨끗한 음성신호에서 학습시킨 음향 모델을 입력신호에 근접시키는 방법이다. 잡음의 억압도를 결정하는 스펙트럼 이득의 계산 방법으로서 조인트 맵(Joint MAP)법[14]이 자주 사용되고 있다.

잡음 저감 신호처리 기법으로 사용되는 WF는 원음성신호와 추정된 음성신호의 스펙트럼의 평균 2승 오차를 최소화하는 방법이다. 잡음이 포함된 관측신호의 주파수영역 스펙트럼 Yikω는 음성신호 스펙트럼 Xikω와 잡음신호 스펙트럼 Nikω를 이용하여 식 (1)과 같이 표현 가능하다.

Yikω=Xikω+Nikω(1) 

음성신호의 스펙트럼의 추정치 X^i(k)(ω)Yi(k)(ω)에 이득함수 Gi,wf(k)(ω)를 적용하여 식 (2)와 같이 구함으로써 잡음을 억제하는 기법이다.

X^ikω=Gi,wfkωYikω(2) 

이 때 이득함수 Gi,wf(k)(ω)식 (3)과 같다.

Gi,wfkω=ξikω1+ξikω(3) 

여기에서 ξik(ω)는 사전 SNR이며 식 (4)와 같이 SNR의 추정치를 나타낸다.

ξikω=S^ikω2N^ikω2(4) 

스펙트럼 억압법에서는 식 (1)의 관측신호의 복소 진폭 스펙트럼 Yi(k)(ω)에 적당한 진폭 스펙트럼 이득 Gi,ss(k)(ω)를 승산한 것이 음성강조 스펙트럼 X^i(k)(ω)이 된다. 이상적인 스펙트럼 이득은 식 (5)와 같이 정의한다.

Gi,ss(k)(ω)=1-Ni(k)(ω)Yi(k)(ω)(5) 

Ⅲ. 잡음음성 향상을 위한 제안 방식

일반적으로 SS, WF법은 순차적으로 추정된 잡음을 사용하여 입력신호로부터 잡음을 억제하는 이점을 가지고 있지만 단시간에 급격하게 변화하는 바블 잡음 등에 대해서는 잡음의 추정이 어렵고 유효성이 떨어진다. 따라서 본 논문에서는 단시간 진폭스펙트럼추정을 기본으로 하는 기법으로서 MMSE를 사용하여 다양한 잡음과 SNR의 크기를 조절하여 잡음 스펙트럼을 추정하여 음성을 강조하는 알고리즘을 제안한다. 제안법에서는 우선 VAD에 있어서 한계치를 이용하여 각 프레임의 스펙트럼 전력을 비교함으로써 잡음구간 및 음성구간으로 분류한다. 이후에 각각의 구간에 있어서 적절한 잡음스펙트럼추정법을 사용하여 잡음스펙트럼을 추정한다.

본 논문에서는 각 프레임별로 음성에 대한 잡음의 영향이 서로 다르기 때문에 VAD에 의한 잡음 및 음성의 판별과 스펙트럼의 전력계산은 각 프레임별로 실행하였다. 제안하는 잡음전력스펙트럼 추정 기법은 잡음대신호비율 γ(k)(ω)로부터 (k) 프레임의 추정 잡음전력스펙트럼 합계 P^N(k)(ω)는 다음 식과 같이 구할 수 있다.

P^Nkω=ENkω2=γkωEYkω2(6) 

현재 프레임과 이전 프레임의 잡음음성의 진폭 전력스펙트럼을 비교하여 각 주파수의 전력스펙트럼의 차의 절대치의 평균 Q^N(ω)식 (7)과 같다.

Q^Nkω=EYkω2-P^Nk-1ω(7) 

여기에서 EY(k)(ω)2는 현재 프레임의 잡음음성의 진폭 전력스펙트럼을 나타내며, P^N(k-1)(ω)는 이전 프레임의 추정전력스펙트럼을 나타낸다. 진폭 문턱치 Tha식 (8)과 같으며 여기에서 α는 정규화된 한계치 계산을 위한 상수 값이다.

Tha=αP^Nkω(8) 

잡음대신호비율 γ(k)(ω)식 (9)와 같이 정의하며 여기에서 ζ는 잡음전력 스펙트럼을 반복적으로 갱신할 때 사용되는 갱신 파라미터 값이다.

γkω=ζEYkω2+1-ζP^Nk-1ω(9) 

본 논문에서는 입력신호의 최초의 구간을 무음구간으로 가정하여 이 구간에서 한계치에 의한 잡음의 전력스펙트럼을 추정한다. 따라서 최초의 프레임으로부터 수 프레임의 전력스펙트럼의 평균치를 한계치로 하여 Q^Nk(ω)이 진폭 한계치 Tha보다 이하이면 잡음구간으로 판단하며, 한계치보다 큰 경우를 음성구간으로 판단한다.

제안한 MMSE 기반의 음성개선 기법은 잡음중첩 음성의 스펙트럼 Yi(k)(ω)에 대해서 각 프레임에서 추정한 잡음 전력을 이용하여 구한 잡음억압이득 Gi,mm(k)(ω)를 승산함으로써 주위잡음을 억압하여 음성을 강조한다. MMSE는 식 (10)과 같이 관측신호 스펙트럼 Y가 생겼을 때 음성신호 스펙트럼 X와 그 추정치 X^와의 평균 이승 오차 J를 최소로 하는 추정음성진폭 스펙트럼을 구하는 기법이다. 따라서 본 논문에서는 무음구간에서만 잡음전력을 추정한 VAD 기법 및 MMSE 기반의 음성개선 기법을 조합한 알고리즘을 제안한다.

J=E|X-X^|2Y(10) 

Ⅳ. 실험 데이터베이스 및 실험 결과

실험에서는 제안한 MMSE 잡음억압 알고리즘의 성능을 테스트하기 위하여, 음성데이터로는 8 kHz로 샘플링된 NOIZEUS를 사용한다. 실험에서 사용한 연속음성문장의 시간은 2.5초에서 3.5초 사이의 길이를 가지며, NOIZEUS 데이터의 총 30문장 중에서 임의적으로 남성화자 10문장, 여성화자로 10문장을 각각 선택하여 총 20문장으로 실험을 진행하였다. 잡음신호로는 AURORA 데이터베이스에 포함된 총 8종류의 잡음(Car, subway, exhibition, restaurant, airport, train, street noise)을 사용하였다.

본 실험에서는 NOIZEUS 음성의 문장에 AURORA의 잡음을 중첩하였으며, 객관적인 평가기법인 SNR을 사용하여 다양한 잡음레벨의 입력 SNR을 사용하여 제안한 알고리즘을 테스트하였다. 표 1표 2는 남성화자 및 여성화자의 각 10개의 문장에 대하여 서로 다른 잡음에 대한 평균 출력 SNR을 구한 결과이다. 표에서 “Improved” SNR은 ”Input“ SNR과 “Proposed” SNR의 차이값을 비교한 개선된 평균 SNR 값을 나타낸다. 표 1의 남성화자에 대한 평균 SNR 실험결과로부터, 평균 입력 SNR과 비교하여 평균 출력 SNR이 자동차 잡음(Car noise)의 최대 11.617(dB)부터 바블 잡음(Babble noise)의 6.296(dB)까지 향상되었으며, 표 2의 여성화자에 대해서도 평균 출력 SNR이 자동차 잡음의 최대 12.046(dB)부터 바블 잡음의 6.087dB까지 개선된 것을 확인할 수 있다.

Average SNR results for male speakers

Average SNR results for female speakers

표의 실험 결과로부터 알 수 있듯이, 평균 입력 SNR이 0(dB) 정도에서 본 알고리즘의 음성개선 효과가 가장 우수하였으며, 다음으로 -1(dB), -3(dB), -8(dB) 순서로 평균 출력 SNR이 개선되었음을 확인할 수 있었다. 일반적으로 짧은 시간 동안에 급변하는 바블 잡음 등에서는 잡음의 추정이 어렵고 유효성이 떨어진다고 알려져 있다. 그러나 본 논문에서 제안한 알고리즘은 이러한 바블 잡음에서도 각각의 남성화자 및 여성화자에 대해서 평균 출력 SNR이 6.296(dB), 6.087(dB) 정도 향상되어 바블 잡음에서도 강건성이 높고 유효성이 높다는 것을 명확히 할 수 있었다.

입출력 전후 파형의 비교를 통하여 음성향상의 우수성 및 효과를 확인하기 위한 실험 결과를 그림으로 나타낸다. 그림 1은 본 실험에서 사용한 여성화자의 문장에 대한 깨끗한 원 음성신호의 파형이다. 그림 2(a)는 원래의 깨끗한 음성신호(그림 1)에 공항 잡음(Airport noise)을 중첩시킨 잡음중첩 음성(입력 SNR=-1.18(dB))이며, 그림 2(b)는 제안한 알고리즘에 의해 개선된 음성 파형을 나타내고 있다. 그림의 파형의 비교 실험 결과로부터 확인할 수 있듯이 제안한 알고리즘을 적용하여 잡음신호를 상당 부분 제거함으로써 원래의 깨끗한 음성신호로 거의 복원 가능함으로 확인할 수 있었다.

Fig. 1.

Original clean speech

Fig. 2.

Waveform comparison by proposed method

지금까지 기술한 결과로부터 평균 SNR에서의 최대 12(dB)의 개선량은 본 논문에서 제안한 알고리즘이 다양한 잡음 및 SNR 레벨에 대해서 상당히 우수하다는 것을 알 수 있었으며, 특히 입력 SNR이 극히 열악한 바블잡음에 대해서도 상당 부분 잡음이 제거되었으므로 본 논문에서 제안한 알고리즘의 개선 효과가 상당하다는 것을 증명할 수 있었다.


Ⅴ. 결 론

본 논문에서는 음성을 강조하기 위하여 잡음 전력을 추정하는 음성 구간검출 기법과 스펙트럼의 통계적 추정 기법을 제안하였으며, 다양한 음성과 배경 잡음을 사용하여 실험을 진행하였다. 제안한 알고리즘은 평균 입력 SNR이 0(dB)에서 본 알고리즘의 음성향상 효과가 우수하였으며, 입력 잡음 레벨이 상당히 높은 바블 잡음에 대해서도 제안법이 상당히 우수하다는 것을 확인할 수 있었다. 따라서 제안한 알고리즘은 다양한 배경 잡음 환경에서도 제안법이 유효하다는 것을 출력 SNR과 파형 비교를 통하여 음성향상의 우수함을 확인하였다. 향후의 연구는 다양한 비정상적인 배경 잡음 및 SNR 잡음레벨을 사용하여 본 알고리즘의 잡음제거 성능 향상의 검토와 기존의 기법과의 비교를 통하여 본 알고리즘의 성능을 확인할 계획이다.

References

  • Y. Yang, P. Liu, H. Zhou, and Y Tian, "A Speech Enhancement Algorithm combining Spectral Subtraction and Wavelet Transform", 2021 IEEE 4th International Conference on Automation, Electronics and Electrical Engineering, Shenyang, China, pp. 268-273, Nov. 2021. [https://doi.org/10.1109/AUTEEE52864.2021.9668622]
  • Y. Ephraim and D. Malah, "Speech enhancement using a minimum mean square error short-time spectral amplitude estimator", IEEE Trans. on Speech and Audio Processing, Vol. 32, No. 6, pp. 1109-1121, Dec. 1984. [https://doi.org/10.1109/TASSP.1984.1164453]
  • Y. J. Chung and M. W. Chun, "A VTS Based Speech Feature Compensation Using Noisy Speech Acoustic Models", Journal of KIIT, Vol. 11, No. 3, pp. 45-51, Mar. 2013. [https://doi.org/10.14801/kiitr.2013.11.3.45]
  • H. H. Nuha and A. A. Absa, "Noise Reduction and Speech Enhancement Using Wiener Filter", 2022 International Conference on Data Science and Its Applications, Bandung, Indonesia, Jul. 2022. [https://doi.org/10.1109/ICoDSA55874.2022.9862912]
  • Q. Tong, H. Han, L. Huang, and J. Wang, "Musical Noise Reduction Method Based on MMSE Combined with Wiener Filtering", 2021 16th International Conference on Intelligent Systems and Knowledge Engineering, Chengdu, China, pp. 624-628, Nov. 2021. [https://doi.org/10.1109/ISKE54062.2021.9755387]
  • J. Y. Ahn, S. B. Kim, S. H. Kim, and K. I. Hur, "A study on Voice Recognition using Model Adaptation HMM for Mobile Environment", The Journal of IIBC, Vol. 11, No. 3, pp. 175-180, Jun. 2011. [https://doi.org/10.7236/JIWIT.2011.11.3.175]
  • J. H. Cho, "Efficient Compensation of Spectral Tilt for Speech Recognition in Noisy Environment", The Journal of IIBC, Vol. 17, No. 1, pp. 199-206, Feb. 2017. [https://doi.org/10.7236/JIIBC.2017.17.1.199]
  • R. Jaiswal, "Speech Activity Detection under Adverse Noisy Conditions at Low SNRs", 2021 6th International Conference on Communication and Electronics Systems, Coimbatre, India, pp. 97-101, Jul. 2021. [https://doi.org/10.1109/ICCES51350.2021.9488934]
  • J. J. Lee, H. T. Han, Y. U. Choi, and H. Y. Lee, "Voice Activity Segment Audio Deduction Method using MobileNet", Journal of KIIT, Vol. 20, No. 3, pp. 1-8, Mar. 2022. [https://doi.org/10.14801/jkiit.2022.20.3.1]
  • J. S. Choi, "Gender Recognition for Speaker in Colored Noise by Speech/Non-speech Discrimination", Journal of KIIT, Vol. 10, No. 11, pp. 63-68, Nov. 2012. [https://doi.org/10.14801/kiitr.2013.11.4.57]
  • S. Mihalache, I. A. Ivanov, and D. Burileanu, "Deep Neural Networks for Voice Activity Detection", 2021 44th International Conference on Telecommunications and Signal Processing, Brno, Czech Republic, Jul. 2021. [https://doi.org/10.1109/TSP52935.2021.9522670]
  • X. Tan and X. L. Zhang, "Speech Enhancement Aided End-To-End Multi-Task Learning for Voice Activity Detection", ICASSP 2021-2021 IEEE International Conference on Acoustics, Speech and Signal Processing, pp. 6823-6827, Jun. 2021. [https://doi.org/10.1109/ICASSP39728.2021.9414445]
  • P. J. Moreno, B. Raj, and R. M. Stern, "A vector Taylor series approach for environment-independent speech recognition", 1996 IEEE International Conference on Acoustics, Speech, and Signal Processing Conference Proceedings, Atlanta, GA, USA, Vol. 2, pp. 733-736, May 1996. [https://doi.org/10.1109/ICASSP.1996.543225]
  • T. Lotter and P. Vary, "Noise reduction by joint maximum a posteriori spectral amplitude and phase estimation with super-Gaussian speech modelling", 2004 12th European Signal Processing Conference, Vienna, Austria, pp. 1457-1460, Sep. 2004.
저자소개
최 재 승 (Jae-Seung Choi)

1989년 : 조선대학교 전자공학과(공학사)

1995년 : 일본 오사카시립대학 전자정보공학부(공학석사)

1999년 : 일본 오사카시립대학 전자정보공학부(공학박사)

2000년 ~ 2001년 : 일본 마쯔시타 전기산업주식회사 (현, 파나소닉) AVC사 연구원

2002년 ~ 2007년 : 경북대학교 디지털기술연구소 책임연구원

2007년 ~ 현재 : 신라대학교 전기전자공학과 교수

관심분야 : 음성인식, 음성강조, 잡음제거, 음원분리

Fig. 1.

Fig. 1.
Original clean speech

Fig. 2.

Fig. 2.
Waveform comparison by proposed method

Table 1.

Average SNR results for male speakers

Noises Average SNR results (dB)
Input Proposed Improved
Restaurant 0.121 9.835 9.714
Subway -0.007 9.796 9.803
Car -0.267 11.350 11.617
Exhibition -0.464 8.045 8.509
Airport -1.383 7.117 8.500
Train -3.310 4.773 8.083
Street -3.614 4.585 8.199
Babble -8.857 -2.561 6.296

Table 2.

Average SNR results for female speakers

Noises Average SNR results (dB)
Input Proposed Improved
Restaurant 0.148 10.257 10.109
Subway 0.069 10.632 10.563
Car -0.315 11.731 12.046
Exhibition -0.320 8.161 8.481
Airport -1.242 7.665 8.907
Train -3.043 5.899 8.942
Street -3.461 5.372 8.833
Babble -8.715 -2.628 6.087