Korean Institute of Information Technology
[ Article ]
The Journal of Korean Institute of Information Technology - Vol. 18, No. 5, pp.1-11
ISSN: 1598-8619 (Print) 2093-7571 (Online)
Print publication date 31 May 2020
Received 18 Feb 2020 Revised 24 Mar 2020 Accepted 27 Mar 2020
DOI: https://doi.org/10.14801/jkiit.2020.18.5.1

MLP와 SVR 그리고 RF를 활용한 특수일 시간대별 전력부하예측

조하현* ; 김주철* ; 남영진**
*연세대학교 경제학부 교수
**연세대학교 경제학부 박사과정(교신저자)
Prediction of Special Day’s Hourly Load Using MLP, SVR and RF
Ha-Hyun Jo* ; Joo-Cheol Kim* ; Young-Jin Nam**

Correspondence to: Young-Jin Nam Dept. of Economics, Yonsei University, 50, Yonsei-ro, Seodaemun-gu, Seoul, Korea Tel.: +82-2-2123-2452, Email: qpxk60@yonsei.ac.kr

초록

본 연구에서는 특수일 시간대별 전력부하를 예측하기 위하여 인공신경망 모형 및 머신러닝 기법을 활용한 다양한 모형들을 구축하였다. 인공신경망 모형의 경우 MLP를 활용하였으며 활성화함수로 ELU와 ReLU를 각각 사용하여 MLP모형을 두 가지로 구분하였다. 머신러닝 기법의 경우 서포트 벡터 리그레션(SVR, Support Vector Regression) 그리고 랜덤 포레스트(RF, Random Forest)를 바탕으로 모형을 구축하였다. 구축된 모형의 예측력 평가를 위해 표본외 예측을 실시하였으며 예측기간은 최근 2개년도인 17년과 18년으로 하였으며 단일 특수일을 대상으로 예측력 평가를 진행하였다. 그 결과, 단일 특수일에서 인공신경망 모형인 MLP모형이 머신러닝 기법을 활용한 모형들에 비해서 예측력이 우수한 것으로 나타났다.

Abstract

In this paper, various models using artificial neural network and machine learning technique were built to predict the special day’s electric load. For the artificial neural network model, MLP was used and the ELU and RELU were used as activation functions to separate the MLP model into two. For machine learning techniques, models were built based on support vector regression (SVR) and random forest (RF). In order to evaluate the predictive performance of the deployed model, out of sample forecasts were made for the two years, 2017-18, and the predictive performance was assessed for a single special day. the result shows that the MLP model, which is an artificial neural network model in a single special day has more predictive performance than the models using machine learning techniques.

Keywords:

special day, load forecasting, artificial neural network, support vector regression, random forest

Ⅰ. 서 론

본 연구에서는 인공신경망과 머신러닝 기법을 평상시 전력부하가 아닌 특수일 전력부하 예측에 활용하였다. 일반적으로 전력부하예측에서 평상시와 특수일 전력부하를 구분하여 예측하는 이유는 전력부하패턴의 차이가 명확히 존재하기 때문이다.

예를 들어 한 주의 전력부하패턴은 월~금인 평일에는 일정한 전력부하수준과 패턴을 보이다 토~일인 주말에 들어서면 전력부하 수준이 낮아지고 패턴이 달라지는 현상이 포착된다. 이러한 평상시 전력부하의 특징은 주기적으로 포착되기 때문에 평상시 전력부하의 패턴을 급격하게 변동시킬 리스크가 존재하지 않는다면 예측하기 수월하다고 볼 수 있다.

반면에 특수일 전력부하는 토-일과 같은 휴일을 의미하는 것이 아니라 삼일절, 어린이날, 광복절과 같은 공휴일을 의미하는 것으로 매년마다 요일이 다르기 때문에 공휴일이 월-금 중에 속할 수도 있고 토-일 중에 속할 수도 있다. 그러므로 공휴일이 있는 주의 패턴은 위에서 언급한 평상시 전력부하와는 다른 패턴을 나타낸다.

따라서 평상시 전력부하에 비해서 특수일 전력부하는 예측하기 어려운 영역에 속하며 이러한 점에서 본 연구에서는 특수일 전력부하를 예측하기 위한 모형을 구축하고자 하였다. 먼저 인공신경망 모형 구축을 위해 다중 퍼셉트론이라 불리는 MLP(Multi Layer Perceptron)모형을 개발하여 특수일 시간대별 전력부하예측을 위해 활용하였다. 특히 MLP모형은 기존 SLP모형이 가지고 있던 한계인 비선형 문제를 해결하지 못하는 점을 해결할 수 있고 다양한 설명변수들을 활용할 수 있다는 점에서 큰 장점이 있다.

인공신경망 이외에도 머신러닝 기법을 활용하여 모형을 추가로 구축하기 위해서 서포트 벡터 리그레션(SVR, Support Vector Regression)과 랜덤 포레스트(RF, Random Forest)를 추가로 특수일 예측에 활용하였다. 특히 SVR과 RF는 모형 구축에 있어서 필요한 파라미터의 수가 MLP 모형에 비해 적은 편이며 두 방법론 모두 과대적합 문제에 상대적으로 자유롭다는 점에서 강점을 보일 수 있다. 따라서 본 논문에서는 이러한 머신러닝 방법론을 인공신경망 모형과 더불어 추가로 도입하여 이를 통해 각각의 모형을 구축하여 특수일 시간대별 전력부하예측을 위한 모형별 성능을 비교하였다.

본 논문은 다음과 같이 구성되어 있다. Ⅱ장은 선행연구 및 본 연구의 차별점으로 먼저 국내 선행연구와 해외 선행연구로 나누어 MLP와 SVR 그리고 RF를 활용하여 평상시 또는 특수일 전력부하를 예측한 논문들을 정리하였다. 이후 본 연구의 차별점으로 특수일 전력부하를 예측하기 위한 다양한 모형을 구축하고 특수일 전력부하에 영향을 미치는 다양한 요인을 최대한 반영했다는 점을 설명하였다.

Ⅲ장은 데이터셋 및 방법론으로 사용한 데이터셋의 특징을 정리하였으며 MLP와 SVR 그리고 RF에 대한 방법론을 소개하였다.

Ⅳ장은 모형구축 및 표본외 예측결과로서 먼저 각각의 방법론을 활용하여 예측모형을 구축한 방법과 그 특징을 서술하였다. 이후 사용한 예측력 평가방법인 MAPE를 소개하고 표본 외 예측기간 및 예측력 평가 결과를 서술하였다.

Ⅴ장에서는 결론 및 한계점으로 본 연구의 의의와 시사점을 밝히고 향후 연구에서 지속되어야 할 과제를 서술하였다.


Ⅱ. 선행 연구 및 본 연구의 차별점

2.1 국내 선행연구

Oh[1]등은 분류 문제에 활용되는 SVM을 회귀문제에 적용하여 해결할 수 있도록 일반화된 방법인 SVR을 활용하여 단기 전력수요를 예측하는 알고리즘을 개발하였다. 전력수요 예측을 위해 요일 및 시간별 데이터를 반영하여 전력수요의 패턴 주기성을 반영하였으며 다양한 기상요인들을 고려하여 입력변수로 활용하였다.

Kim[2]등은 RF 기법을 가정용 전력수요를 예측하는데 활용하였다. RF 모형에 사용되는 변수는 날짜변수로 연도변수와 월 별수가 사용되었으며 예측 시기에 해당하는 7달 전 값까지를 전력시차항으로 활용하여 입력변수로 사용하였다.

Kim[3]등은 전력수요 예측을 위해 계절 및 날씨 정보를 반영한 인공신경망 기법을 활용하였다. 먼저 다양한 기상변수 중 전력수요와의 상관계수를 고려하여 온도와 이슬점을 입력변수로 활용하였으며 추가로 온도민감도를 반영하여 온도 상승과 하락에 따라 온도민감도를 다르게 반영하도록 하였다.

shin[4]등은 하계 최대전력수요를 예측하기 위해서 신경망 모형을 활용하였다. 입력값으로는 전력수요와 평균온도 그리고 체감온도와 불쾌지수를 사용하였다. 입력값 중 기상요인은 구축한 모형마다 다르게 반영하여 예측력에 영향을 미치는 기상요인의 효과를 살펴보았다. 그 결과, 전력수요와 함께 모든 기상변수를 입력값에 포함한 경우가 예측력이 가장 좋았다는 점에서 전력부하에 기상요인이 미치는 유의미한 영향을 해당 논문에서도 확인할 수 있었다. 또한 해당 논문에서는 은닉층의 수와 은닉노드의 값을 다양하게 변화시켜가며 예측력을 비교했다는 점에서 의의가 있다. 다만 은닉층과 은닉노드를 다양화시켜가며 예측력을 평가하는 과정에서 은닉층의 개수가 많아져 신경망이 깊어질수록 과대적합이 발생할 가능성이 높은데 이러한 점을 보완하기 위한 방법은 제시되지 않았다는 점과 기상정보 이외에 전력부하에 영향을 미치는 날짜정보를 고려하지 않았다는 점은 한계로 남는다.

Ahn[5]등은 동계 최대전력수요를 예측하기 위해서 신경망 모형을 구축하였다. 해당 신경망 모형은 은닉층이 3개인 DNN모형으로 구축하였으며 입력값으로 일지수, 평균기온, 최저기온, 최고기온, 일강수량, 평균풍속, 평균이슬점온도, 평균상대습도 등을 활용하였다. 활성화함수는 DNN모형에서 원활한 학습이 이뤄질 수 있도록 Relu를 사용하였으며 최적화 알고리즘은 Adam을 사용하였다.

특히 특징적인 부분은 동계최대전력 예측을 위해서 데이터셋을 3가지로 구분하여 학습을 진행하고 각각의 예측력을 평가했다는 점이다. 이는 전력수요 패턴이 평일과 다른 공휴일이나 주말이 동계최대전력 예측을 위한 학습과정에 방해가 될 수 있기 때문에 이를 보완할 방법으로 사용한 것이다. 즉, 공휴일과 주말이 모두 포함된 데이터셋과 공휴일과 주말을 모두 제거한 데이터셋 그리고 공휴일을 보간한 데이터셋으로 각각 3가지의 데이터셋을 구축한 후 데이터셋마다 학습을 진행해 예측력을 평가했다. 이를 통해, 평상시와 공휴일의 전력부하 패턴이 다르다는 점을 반영했다는 것에 의의가 있다. 하지만 공휴일의 경우 더미 형식으로 데이터를 구축하여 학습과정에서 활용한다면 해당 연구에서처럼 데이터셋에서 공휴일의 데이터를 삭제하지 않아도 학습과정에서 매년 공휴일이 가지는 패턴을 학습하여 최대전력수요 예측에 반영할 수 있다는 점에서 차후에는 이러한 방법을 새롭게 반영하는 것도 좋은 방안이라 생각된다.

마지막으로 Nam[6]등은 하절기 평일의 전력부하를 예측하기 위해서 MLP를 활용하였다. MLP는 은닉층이 두 개인 DNN으로 구축하였고 최적화 기법으로는 Adam을 사용하였다. 구축한 모형의 개수는 두 개로, 첫 번째 모형은 활성화함수로 Elu를 사용하였으며 두 번째 모형은 활성화함수로 Relu를 사용하였다. 이는 활성화함수에 따라서 MLP의 예측력에 차이가 존재함을 보이기 위함이다. 그 결과, Relu를 사용한 MLP모형2가 Elu를 사용한 MLP모형1에 비해서 하절기 평일의 전력부하 예측에서 예측력이 더 우수한 것으로 나타났다.

2.2 해외 선행연구

Ceperic[7]등은 SVR을 단기전력부하를 예측하는데 활용하였다. 특히 SVR 모형에는 요일, 달, 공휴일 정보를 반영하였으며 기상변수로는 기온과 습도를 반영하였다. 특징적인 부분은 기온변수를 반영할 때 냉방과 난방을 구분하여 반영했다는 점이다. 전력시차항으로는 7일전을 사용했는데 전력시차항을 더 다양화시켜서 반영할 필요성이 있다.

Cheng[8]등은 단기전력부하를 예측하는데 RF를 활용하였다. 이를 통해서 RF가 복잡하고 다양한 특성을 가진 큰 데이터를 분류하는데 적합함과 동시에 이러한 장점을 활용하여 전력부하를 예측하는 것이 가능하다는 것을 보여주었다. 다만 파라미터 값에 따라서 예측력의 차이가 비교적 큰 편으로 나타났다.

Huo[9]등은 RF와 SVR을 활용하여 단기전력부하예측을 실시했다. 설명변수로는 1일전 전력시차항을 활용하였으며 월, 요일, 공휴일 정보를 날짜정보로 모형에 반영하였다. 또한 기온변수로는 최소기온과 최대기온을 활용하였다. 하지만 파라미터값에 따라서 예측의 결과가 크게 좌우되는 것으로 나타났다.

Tanidir[10]등은 전력부하 예측을 위해 인공신경망을 활용하였다. 설명변수로는 직전일(1일전)과 직전주(7일전) 전력시차항이 사용되었으며 날쩌정보로는 일, 시간, 특수일 정보를 활용하고 기상정보로는 기온을 활용하였다. 다만 기온 이외의 기상변수는 고려되지 않았다는 점이 한계로 남는다.

2.3 본 연구의 차별점

앞서 살펴보았던 선행연구들과 비교하여 본 연구에서 활용한 방법론과 구축한 모형의 주요한 차별점은 다음과 같다. 인공신경망의 경우 앞서 살펴본 Nam[6]등의 연구와 마찬가지로 활성화함수의 다양성을 적용하여 모형을 다변화시켰다.

이때 활성화함수로는 Nam[6]의 연구와 동일하게 Relu와 Elu를 사용했기 때문에 은닉층이 두 개인 DNN모형을 구축하여도 오차역전파 과정에서 기울기 소실 문제(Vanishing gradient problem) 또는 기울기 폭발 문제(Exploding gradient problem)가 발생하지 않도록 했다. 또한 은닉층의 개수와 은닉노드를 Nam[6]연구와 동일하게 설정하였다.

다만 차이점으로는 Nam[6]등에서는 특수일 전력부하가 아닌 평상시 전력부하에 속하는 하절기 평일의 전력부하를 예측하는 연구였기 때문에 특수일 정보가 반영된 변수가 포함되지 않았다.

하지만 본 연구는 특수일 전력부하를 예측하는 것이 목적이기 때문에 특수일 정보가 반영된 특수일 더미를 포함시켰다. 이외에도 타겟변수인 특수일 전력부하를 예측하기 위해서 다양한 피쳐(전력시차항, 기상변수, 빅테이터)를 포함시켜 학습을 진행하였다.

이는 본 연구에서 구축한 SVR과 RF 모형에도 마찬가지로 적용되었다. 이를 통해 다양한 특수일 예측모형을 구축하면서 모든 모형에 특수일 전력부하에 영향을 미칠 수 있는 요인 및 정보를 최대한 반영하고 활용하였다.

대부분의 선행연구에서는 전력부하에 미치는 요인 중 일부만 반영하거나 특정 방법론만을 활용하여 예측모형을 구축하였지만 본 연구에서는 전력부하에 영향을 미치는 요인은 최대한 반영하고 다양한 방법론을 바탕으로 모형을 구축한 후 동일한 조건에서의 예측력 비교를 실시함으로써 특수일 예측에 대한 가능성을 제시하고자 하였다.

이 과정에서 특히 기상변수의 경우 기온뿐만 아니라 습도, 풍속, 강수량 그리고 태양광 발전의 효과를 간접적으로 반영할 수 있는 일종의 대리변수(Proxy)로 일사량과 일조량까지 포함시켰기 때문에 특수일 전력부하에 미치는 기상효과를 효과적으로 반영하도록 하였다.

또한 빅데이터로 일반국도의 시간대별 누적교통량을 지점수로 나눈 시간대별 평균교통량을 활용하여 특수일 전력부하를 예측하는데 활용하였다. 교통량 변수를 특수일 전력부하 예측에 활용한 이유는 특수일의 경우 대부분의 직장과 공장이 휴업을 하며 단거리 또는 장거리 여행을 자가용을 활용해 가는 경우가 많기 때문에 이러한 효과가 특수일 전력부하에 미치는 영향을 반영하기 위함이다.


Ⅲ. 데이터셋 및 방법론

3.1 데이터셋

표 1에는 본 연구에서 사용한 데이터셋이 정리되어 있다. 데이터셋에는 선행연구를 참고하여 특수일 전력부하 예측에 활용되는 정보와 변수를 반영하였을 뿐만 아니라 차별점으로 다양한 기상변수와 날짜정보를 포함한 더미변수 그리고 빅데이터 변수 등을 활용하여 특수일 전력부하 예측의 정확도를 높이고자 하였다.

Dataset

일반적으로 전력부하예측에는 전력시차항, 기상변수 그리고 날짜정보가 많이 사용된다. 전력시차항의 경우 전력부하 패턴의 주기성을 반영하기 위해 많이 활용되는데 MLP에서는 2일전, 3일전, 7일전 시차항을 사용하고 SVR과 RF에서는 3일전과 7일전을 활용하였다. 또한 특수일 전력부하는 평상일 또는 일반일 전력부하와는 다른 수준과 패턴을 보이기 때문에 이를 반영할 수 있는 설명변수가 필요하다.

이를 위해 선행연구에서는 휴일더미들을 포함하는데, 본 연구에서는 특수일에 대하여 1로 표시하고 그 이외의 날은 0으로 표시하는 특수일 더미변수를 활용하였다.

또한 앞서 언급한 것처럼 기상변수의 경우 대부분의 선행연구에서 기온만을 사용하는 것과는 달리 본 연구에서는 습도, 일사량, 일조량, 풍속, 강수량을 이용함으로써 전력부하를 설명할 수 있는 기상정보를 최대한 활용하고자 하였다.

3.2 분석 방법론

MLP는 다중퍼셉트론으로 입력층과 출력층 사이에 은닉층이 존재하는 신경망을 의미한다. MLP는 SLP인 단층퍼셉트론의 한계점으로 지적되었던 XOR문제를 해결하기 위해 은닉층이 추가된 모형을 의미한다.

이러한 은닉층의 추가를 통해서 비선형 문제도 해결 가능하게 되었고 이후에 오차역전파기법이 등장하면서 은닉층의 오차와 편의까지 계산이 가능해졌다. 이를 통해, 인공신경망 기법 중 MLP는 많은 예측 분야에 활용되고 있다. 특히 전력예측분야에는 대부분 MLP가 활용되고 있다.

하지만 은닉층의 개수가 무한정으로 늘어난다고 학습능력이나 예측력이 개선되는 것은 아니기 때문에 적절한 은닉층의 개수를 설정해야 한다. 또한 은닉층의 개수가 2개 이상일 경우 특정 활성화함수를 사용할시 기울기 소실 문제 등이 발생하기 때문에 사용하고자 하는 은닉층의 개수와 예측하고자 하는 모형의 특징에 따라서 적절한 활성화함수를 사용해야 한다.

SVR은 분류 기법인 SVM에 기반을 둔 회귀분석 방법이다. SVM은 Vapnik(1979)에 의해서 개발된 방법으로 마진(Margin)을 최대화시키기 위한 결정경계(Decision boundary)를 찾아 데이터를 분류하는 기법이다.

초평면(Hyperplane)을 통해서 마진을 최대화 시키면서 데이터를 분류하기 때문에 과대적합이 발생하지 않을 뿐만 아니라 kernel 함수를 이용하면 저차원의 비선형 데이터들을 고차원의 특정 공간으로 이동시켜 초평면을 생성하여 데이터를 선형 분류할 수 있게 해준다. 즉, 고차원의 특정 공간에서 생성된 초평면은 종속변수와 설명변수 간의 비선형적 관계를 반영한 것이라 할 수 있다[11].

하지만 SVM은 분류 문제에는 활용할 수 있지만 예측치와 같은 실수값을 도출해야 하는 회귀문제에는 적용할 수 없기 때문에 ε-무감도 손실함수를 추가로 적용하여 회귀문제에 적용할 수 있도록 한 것이 SVR이다.

SVR에서 핵심이 되는 ε-무감도 손실함수(ε-insensitive loss function)의 개념은 그림 1에도 잘 나타나 있는데 수식적으로는 다음과 같이 설명할 수 있다.

Fig. 1.

ε-insensitive loss function

먼저 SVR 함수는 아래와 같이 정의할 수 있다.

fx=WTϕx+b(1) 

여기서 f(x)는 예측치를 의미하며 WT는 I-차원의 가중치 요인, b는 조정 요인을 의미한다. ϕ(x)는 I-차원의 특정 공간에서 학습 데이터인 x의 맵핑함수를 의미한다. 따라서 실제값을 y라고 할 때 예측오차는 다음과 같이 나타낼 수 있다.

Rx,y=y-fx(2) 

여기서 예측오차인 R(x,y)는 -ε과 +ε값 사이에 위치하게 된다. 이를 수식으로 나타내면 다음과 같이 나타낼 수 있다.

-ϵRx,y=y-fx+ϵ(3) 

ε값은 SVR 분석을 위해 연구자가 지정해야 할 값이다[12]. 이와 같은 원리를 바탕으로 ε-무감도 손실함수를 정의하면 다음과 같다.

Lϵx,y,f=0if y-fx-ϵ0y-fx-ϵif y-fx-ϵ0(4) 

즉, ε이라는 제약을 통해서 예측치가 실제치와 ϵ값 사이에서 위치하는지 여부에 따라서 제약을 부여하고 이를 바탕으로 예측치를 도출할 수 있다.

RF의 경우 의사결정나무(Decision tree)의 단점을 보완한 Ensemble 기법이다. Ensemble 기법이란 일반적으로 다수의 weak learner를 결합하면 strong learner보다 더 큰 성능향상을 가져올 수 있다는 논리에서 개발된 기법이다.

RF의 주요한 원리는 배깅이라는 기법인데 배깅은 학습 데이터셋으로부터 n개의 샘플을 랜덤하게 선택하고 그 데이터를 바탕으로 의사결정나무 또는 weak learner를 학습시키는 방법이다[13]. 이때의 샘플을 부트스트랩이라고 한다.

또한 배깅기법은 학습 데이터셋으로부터 랜덤하게 샘플을 추출할 때 중복을 허용하기 때문에 동일한 관측치들이 여러 번 나타날 수 있다. 이러한 RF는 동일한 알고리즘을 적용하여 여러 모델에 학습시키고 그 결과를 통합하여 최적의 예측치를 도출하게 된다.

이러한 점으로 인해 RF는 많은 의사결정 나무, 더 정확하게 말하면 weak learner들의 산출물의 평균값을 취하기 때문에 과대적합 문제가 발생하지 않는다[14]. 또한 불균형(Unbalanced) 데이터셋을 조정하는 것에도 좋은 성능을 보여주는 것으로 알려져 있다[15].


Ⅳ. 모형 구축 및 표본외 예측결과

4.1 예측모형 구축

앞서 살펴본 방법론들을 활용하여 특수일 예측을 위한 예측모형을 구축하였다. 먼저 본 연구에서 의미하는 예측이란 표본외 예측(Out of sample forecast)을 말한다.

인공신경망 기법 중 하나인 MLP의 경우 은닉층의 개수를 2개로 설정하여 심층신경망(Deep neural network) 모형으로 구축하였다. MLP를 바탕으로 모형을 구축할 때 은닉층의 개수를 설정하는 것이 가장 중요한 부분인데 일반적으로 선행연구를 살펴보면 은닉층의 개수는 2개 이하로 구성하는 것이 일반적이다.

예를 들어 Hippert[16]등에 따르면 MLP모형을 바탕으로 단기전력부하를 예측한 주요 연구들을 조사하여 데이터 전처리 과정이나 은닉층의 개수 및 은닉노드 등 전력예측을 위해 MLP모형을 어떻게 구성하는지에 대해 자세하게 정리하였는데 대부분의 선행연구들에서 은닉층의 개수를 1개에서 2개로 설정하였으며 1개로도 충분히 우수한 예측력을 나타낸다는 것을 밝혀냈다.

또한 Yalcinoz[17]등에서는 은닉층의 개수가 많을 필요가 없으며 이론적으로는 은닉층을 1개만 사용해도 충분하기 때문에 은닉층을 2개 이상 사용할 필요가 없다고 밝혔다.

뿐만 아니라 Masters[18]에서도 월 총전력부하와 일별 최대전력부하 그리고 일별 총전력부하를 예측하는 3가지의 예측모듈을 구성하고 각각의 모듈에 은닉층의 개수에 따라서 MLP모형을 3가지씩 구축하였는데 은닉층이 2개인 모형에서 예측력이 가장 좋은 것으로 나타났다.

따라서 본 연구에서도 은닉층을 2개로 구성하였고 각각의 은닉층에 은닉노드로는 42와 21을 설정하였다. 최적화기법으로는 Adam Optimization을 사용했으며 epoch은 150으로 설정하였다. Adam Optimization은 Momentum Optimization과 RMSProp을 결합한 방법이다[19].

마지막으로 활성화함수로는 은닉층이 2개이기 때문에 시그모이드(Simgoid)활성화함수를 사용할 경우 기울기 소실 문제가 발생할 수 있다는 점에서 단일 은닉층이 아니어도 기울기 소실 문제가 발생하지 않는 활성화함수인 Relu와 Elu를 사용하였다.

다만 본 연구에서는 사용한 활성화함수를 기준으로 MLP모형을 두 가지로 구축하였다. MLP모형의 특징은 표 2에 정리되어 있다.

Characteristic of MLP model

RF의 경우 먼저 생성할 tree의 개수를 설정해야 하는데 본 연구에서는 300개로 설정하였다. 이후 예측모형 구축을 위해서 추가적으로 몇 가지의 파라미터값을 설정해주어야 하는데 적절한 파라미터 값을 찾기 위해서 일반적으로 GridSearch 방법을 활용하는 것이 일반적이다.

본 연구에서도 표 3과 같이 GridSearch 방법을 통해서 하이퍼 파라미터값을 찾도록 하였다. K겹 교차검증의 경우 K의 값을 5로 하였다.

Characteristic of RF model

SVR의 경우도 RF와 마찬가지로 예측모형 구축을 위해서 파라미터 값을 설정해주어야 한다. 따라서 표 4와 같이 GridSearch를 통해서 하이퍼 파라미터값을 찾도록 구축하였다. K겹 교차검증의 경우 K의 값을 2로 하였다.

Characteristic of SVR model

4.2 예측력 평가 방법

예측력 평가방법으로는 평균 절대백분위 오차인 MAPE를 활용하였다. MAPE는 다음과 같은 방식으로 계산된다.

MAPE=1Nt=1NEtA-EtfEtA×100(5) 

여기서 EtA= 실제치, Etf= 예측치 이다

4.3 표본외 예측기간

표본외 예측의 대상연도는 확보한 데이터셋 기간이 2000-18년이기 때문에 2017년과 2018년의 특수일을 대상으로 하였다.

2017년과 2018년 특수일 중 단일 특수일은 신정, 삼일절, 어린이날, 현충일, 광복절, 성탄절로 선정하였다. 해당 특수일들의 경우 발생시점이 4계절을 대표할 수 있다는 점을 감안하여 선정하였다.

표본외 예측을 위해서는 확보한 데이터셋을 학습기간과 검증기간 그리고 평가기간으로 세분화하여 구분하였다. 평가기간의 경우 예측일을 의미하며 검증 기간은 평가기간 이전 2개월로 설정하였다. 학습기간은 평가기간과 검증기간에 속하지 않는 나머지 기간의 데이터셋들을 사용하였다.

4.4 표본외 예측결과

앞서 선정하였던 단일 특수일을 대상으로 하여 표본외 예측을 실시하였다. 종속변수는 예측하고자 하는 특수일의 시간대별 전력부하이며 설명변수로는 앞서 데이터셋에서 언급한 전력시차항(2일전, 3일전, 7일전), 전국기온, 전국습도, 전국일사량, 전국일조량, 전국풍속, 전국강수량, 날짜더미(월, 일, 요일, 시간), 특수일 더미, 평균교통량을 사용하였다.

단일 특수일을 대상으로 한 연도별 예측결과는 아래 표 5표 6에 나타나 있는데 전반적으로 인공신경망 모형인 MLP 모형이 머신러닝 기법을 활용한 모형인 SVR과 RF에 비해서 예측력이 좋은 것으로 나타났다.

Result of out of sample forecast(2017, MAPE)

Result of out of sample forecast(2018, MAPE)

이는 6개의 특수일 중 2017년도에서는 MLP 모형이 현충일을 제외한 5개 특수일에서 가장 낮은 MAPE를 기록했으며 2018년도에서는 성탄절을 제외한 5개의 특수일에서 가장 낮은 MAPE를 기록했기 때문이다.

좀 더 세부적으로 살펴보면 MLP 모형 중에서는 ELU를 활성화함수로 사용한 MLP1이 2017년도에서 6개의 특수일 중 3개 특수일(어린이날, 광복절, 성탄절)에서 가장 좋은 예측력을 보여주었다. 특히 그림 2에 나타나 있는 것처럼 광복절의 경우 MLP1의 예측치가 실제치의 패턴을 매우 잘 포착하고 있다.

Fig. 2.

Hourly load patterns of National Liberation Day‘s predictive value and Actual value.(17Y, MLP1) (solid line = actual value, dashed line = predictive value)

반면 ReLU를 활성화함수로 사용한 MLP2의 경우 18년도에서 6개의 특수일 중 3개 특수일(신정, 삼일절, 현충일)에서 가장 좋은 예측력을 보여주었다.

그림 3은 ReLU를 활성화함수로 사용한 MLP2가 18년도 중 가장 낮은 MAPE를 기록한 현충일의 예측치 및 실제치의 패턴을 보여주고 있다.

Fig. 3.

Hourly load patterns of memorial day’s predictive value and Actual value.(18Y, MLP2) (solid line = actual value, dashed line = predictive value)

그림 3에서 보듯이 MLP2의 예측치가 실제치의 패턴을 매우 잘 포착하고 있다. 다만 새벽 시간대와 늦은 저녁시간대에 다소 과소예측하는 모습을 나타낸 것이 특징이다.

머신러닝 기법 중에서는 우선 2017년도 현충일 예측에서 좋은 예측력을 보여준 RF를 살펴보면 그림 4에 나타나 있는 것처럼 RF의 예측치가 실제치를 잘 포착하고 있음을 알 수 있다. 다만 오후 시간대에 다소 과대예측하는 모습과 일정 부분 패턴이 어긋나는 모습을 보여주고 있다.

Fig. 4.

Hourly load patterns of memorial day’s predictive value and Actual value.(17Y, RF) (solid line = actual values, dashed line = predictive value)

SVR의 경우 다른 모형에 비해서 예측력이 다소 떨어졌지만 2018년 광복절에서는 괜찮은 예측력을 보여주었다.


Ⅴ. 결론 및 한계점

본 연구에서는 시간대별 특수일 전력부하를 예측하기 위해서 인공신경망 모형과 머신러닝 기법을 바탕으로 한 다양한 모형들을 구축하였다. 모형 구축에 앞서서 전력부하에 영향을 미치는 다양한 요인들을 피쳐로 활용하고자 다음과 같이 데이터셋을 구축하였다.

먼저 기상요인을 반영하기 위해서 전국기온, 전국습도, 전국풍속, 전국일조량, 전국일사량, 전국강수량 자료를 구축하였다. 날짜요인을 반영하기 위해서는 월, 일, 요일, 시간 더미를 활용하였다.

특히 본 연구의 목적이 평상일이 아닌 특수일을 예측하는 것이 목적인만큼 특수일 더미를 구축하여 모형의 학습에 활용할 수 있도록 하였다. 그리고 빅데이터로는 시간대별 누적교통량을 시간대별 평균교통량으로 변환하여 교통량이 전력부하에 영향을 미칠 수 있는 점도 반영하였다.

구축된 데이터셋의 기간은 2000년에서 2018년까지로 총 19년치의 자료를 구축하여 인공신경망 모형 및 머신러닝 모형을 활용한 특수일 예측에 있어서 충분한 표본을 바탕으로 하여 학습과 검증 그리고 평가가 가능하도록 하였다.

인공신경망 모형의 경우 MLP모형으로 구축하였으며 활성화함수로 ELU와 ReLU를 각각 사용하여 두 가지 모형으로 구분하였다. 머신러닝 기법의 경우 SVR 그리고 RF를 활용하여 모형을 구축하였다. 구축된 모형의 예측력을 평가하기 위해서는 표본외 예측을 시행하였으며 예측기간은 2017-18년도로 하였다. 예측대상 특수일은 단일 특수일로 한정하였다. 본 논문에서는 4계절을 반영할 수 있도록 총 6개의 단일 특수일을 선정하여 예측력 평가에 활용하였다.

이를 바탕으로 표본외 예측을 시행한 결과로는 인공신경망 모형인 MLP 모형이 RF와 SVR과 같은 머신러닝 모형들에 비하여 예측력이 우수한 것으로 나타났다. 특히 단일 특수일에서는 ELU를 활성화함수로 사용한 MLP1과 ReLU를 활성화함수로 사용한 MLP2가 모두 우수한 예측력을 나타내었다.

향후 연구에서는 본 연구에서 다루지 않은 연휴 특수일에 대하여 분석을 진행할 필요가 있다. 단일 특수일과 마찬가지로 MLP뿐만 아니라 SVR과 RF 모형을 활용하여 연휴 특수일 예측을 한다면 특수일 예측에 대한 다양한 가능성을 제시할 것으로 기대한다.

References

  • B. C. Oh and S. Y. Kim, "Development of SVR based Short-term Load Forecasting Algorithm", The Transaction of the Korean Institute of Electrical Engineers P, Vol. 68P, No. 2, pp. 95-99, Jun. 2019. [https://doi.org/10.5370/KIEEP.2019.68.2.095]
  • K. H. Kim, J. H. Moon, J. W. Park, and E. J Hwang, "Prediction of Household Power Consumption Based on Random Forest",  in Proceedings of the KIEE Conference, The Korean Institute of Electrical Engineers, pp. 1502-1503, Jul. 2017.
  • M. K. Kim and C. E. Hong, "The Artificial Neural Network based Electric Power Demand Forecast using a Season and Weather Informations", Journal of the Institute of Electronics and Information Engineers, Vol. 53, No. 1, pp. 71-78, Jan. 2016. [https://doi.org/10.5573/ieie.2016.53.1.071]
  • D. H. Shin and C. B. Kim, "A Study on Deep Learning Input Pattern for Summer Power Demand Prediction", The Journal of Korean Institute of Information Technology, Vol. 14, No. 11, pp. 127-134, Nov. 2016. [https://doi.org/10.14801/jkiit.2016.14.11.127]
  • J. Y. Ahn, S. M. Park, and C. B. Kim, "A Study on Neural Network Model for Winter Electric Power Demand Prediction", The Journal of Korean Institute of Information Technology, Vol. 15, No. 9, pp. 1-9, Sep. 2017. [https://doi.org/10.14801/jkiit.2017.15.9.1]
  • Y. J. Nam and H. H. Jo, "Modeling of Artificial Neural Network Based on Big Data for the Prediction of Hourly Load in Summer Weekdays", Journal of the Korean Institute of Illuminating and Electrical Installation Engineers, Vol. 33, No. 12, pp. 49-58, Dec. 2019. [https://doi.org/10.5207/JIEIE.2019.33.12.049]
  • E. Ceperic, V. Ceperic, and A. Baric "A strategy for short-term load forecasting by support vector regression machines", IEEE Transactions on Power Systems, Vol. 28, No. 4, pp. 4356-4364, Nov. 2013. [https://doi.org/10.1109/TPWRS.2013.2269803]
  • Y. Y. Cheng, P. P. Chan, and Z. W. Qiu, "Random forest based ensemble system for short term load forecasting", In 2012 International Conference on Machine Learning and Cybernetics, Vol. 1, pp. 52-56, Jul. 2012.
  • J. Huo, T. Shi, and J. Chang, "Comparison of Random Forest and SVM for electrical short-term load forecast with different data sources", In 2016 7th IEEE International conference on software engineering and service science (ICSESS), Beijing, China, pp. 1077-1080, Aug. 2016.
  • Ö. Tanidir and O. B. Tör, "Accuracy of ANN based day-ahead load forecasting in Turkish power system: Degrading and improving factors", Neural Network World, Vol. 25, No. 4, pp. 443-456, Aug. 2015. [https://doi.org/10.14311/NNW.2015.25.023]
  • Y. Chen, P. Xu, Y. Chu, W. Li, Y. Wu, L. Ni, Y. Bao, and K. Wang, "Short-term electrical load forecasting using the Support Vector Regression (SVR) model to calculate the demand response baseline for office buildings", Applied Energy, Vol. 195, pp. 659-670, Jun. 2017. [https://doi.org/10.1016/j.apenergy.2017.03.034]
  • W. C. Hong, "Electric load forecasting by support vector model", Applied Mathematical Modelling, Vol. 33, No. 5, pp. 2444-2454, May 2009. [https://doi.org/10.1016/j.apm.2008.07.010]
  • A. Lahouar and J. B. H. Slama, "Day-ahead load forecast using random forest and expert input selection", Energy Conversion and Management, Vol. 103, pp. 1040-1051, Oct. 2015. [https://doi.org/10.1016/j.enconman.2015.07.041]
  • G. Dudek, "Short-term load forecasting using random forests", In Intelligent Systems' 2014, Springer, Cham, pp. 821-828, Jan. 2015. [https://doi.org/10.1007/978-3-319-11310-4_71]
  • T. Han, D. Jiang, Q. Zhao, L. Wang, and K. Yin, "Comparison of random forest, artificial neural networks and support vector machine for intelligent diagnosis of rotating machinery", Transactions of the Institute of Measurement and Control, Vol. 40, No. 8, pp. 2681-2693, May 2018. [https://doi.org/10.1177/0142331217708242]
  • H. S. Hippert, C. E. Pedreira, and R. C. Souza, "Neural networks for short-term load forecasting: A review and evaluation", IEEE Transactions on power systems, Vol. 16, No. 1, pp. 44-55, Feb. 2001. [https://doi.org/10.1109/59.910780]
  • T. Yalcinoz and U. Eminoglu, "Short term and medium term power distribution load forecasting by neural networks", Energy Conversion and Management, Vol. 46, No. 9-10, pp. 1393-1405, Jun. 2005. [https://doi.org/10.1016/j.enconman.2004.07.005]
  • T. Masters, "Practical neural network recipes in C++ ", Morgan Kaufmann, Jul. 1993. [https://doi.org/10.1016/B978-0-08-051433-8.50017-3]
  • B. J. Kim, "Improved Deep Learning Algorithm ", Journal of JAITC, Vol. 8, No. 2, pp. 119-127, Dec. 2018. [https://doi.org/10.14801/JAITC.2018.8.2.119]
저자소개
조 하 현 (Ha-Hyun Jo)

1979년 2월 : 연세대학교 경제학부(경제학 학사)

1981년 2월 : 연세대학교 경제학부(경제학 석사)

1987년 2월 : 시카고 대학교 경제학(경제학 박사)

1988년 ~ 현재 : 연세대학교 경제학부 교수

관심분야: 에너지경제학, 경기변동

김 주 철 (Joo-Cheol Kim)

1990년 2월 : 연세대학교 응용통계학과(경제학 학사)

1992년 2월 : 한국과학기술원 산업공학과(공학석사)

2000년 12월 : 조지아 공과대학 Industrial and Systems Engineering(공학박사)

2003년 ~ 현재 : 연세대학교 경제학부 교수

관심분야 : 금융공학, 데이터 사이언스, 에너지경제학

남 영 진 (Young-Jin Nam)

2018년 2월 : 한양대학교 경제학부(경제학 학사)

2020년 2월 : 연세대학교 경제학부(경제학 석사)

2020년 3월 ~ 현재 : 연세대학교 경제학부(경제학 박사과정)

관심분야 : 전력예측, 딥러닝, 머신러닝, 빅데이터, 인공지능

Fig. 1.

Fig. 1.
ε-insensitive loss function

Fig. 2.

Fig. 2.
Hourly load patterns of National Liberation Day‘s predictive value and Actual value.(17Y, MLP1) (solid line = actual value, dashed line = predictive value)

Fig. 3.

Fig. 3.
Hourly load patterns of memorial day’s predictive value and Actual value.(18Y, MLP2) (solid line = actual value, dashed line = predictive value)

Fig. 4.

Fig. 4.
Hourly load patterns of memorial day’s predictive value and Actual value.(17Y, RF) (solid line = actual values, dashed line = predictive value)

Table 1.

Dataset

Category Variable Source Period Frequency
Electric load lagged term KPX 2000
~
2018
hourly
Weather temperature
humid
radiation
sunshine
wind
rainfall
Calendar month dummy Our
research
team
date dummy
day dummy
time dummy
Special day special day dummy
Bigdata traffic KICT

Table 2.

Characteristic of MLP model

model Activation function 1st hidden layer 2nd hidden layer Optimization
MLP1 Elu 42 21 Adam
MLP2 Relu

Table 3.

Characteristic of RF model

Model max_features max_depth min_samples_split min_samples_leaf
RF auto, sqrt 30, 50 5, 10 3, 5

Table 4.

Characteristic of SVR model

Model Kernel C Epsilon Gamma
SVR linear, rbf 100, 300, 500 0.00003, 0.0001 10-3,10-4

Table 5.

Result of out of sample forecast(2017, MAPE)

Model New year’s day Samiljeol Children’s day Memorial day National liberation day Christmas
주) 음영 표시는 해당 특수일 중 MAPE가 가장 낮은 것을 의미함
MLP1 2.27 2.22 2.76 1.72 0.89 2.33
MLP2 1.53 1.19 3.68 2.34 1.38 6.24
SVR 3.13 6.67 6.00 5.20 12.25 15.93
RF 2.60 6.74 4.22 1.56 3.00 3.28

Table 6.

Result of out of sample forecast(2018, MAPE)

Model New year’s day Samiljeol Children’s day Memorial day National liberation day Christmas
주) 음영 표시는 해당 특수일 중 MAPE가 가장 낮은 것을 의미함
MLP1 4.33 3.01 1.14 2.58 1.77 5.51
MLP2 2.10 1.72 2.25 1.58 3.81 6.05
SVR 7.44 6.99 2.37 2.44 2.33 7.22
RF 3.42 3.16 4.72 3.84 8.26 5.19