
기상 데이터 상관관계 분석 기반의 가중치 모델을 적용한 태양광 발전량 예측 연구
초록
정확한 발전량 예측은 탄소 배출권 시장의 효율성 상승과 저탄소 발전원으로의 전환을 경제적으로 유도하는 핵심적인 요인이다. 본 연구는 기존의 발전량과 기상테이터의 다양한 상관관계를 분석한 후 결과에 따른 가중치를 부여하여 발전량 예측의 정확도를 분석하였다. 태양광 발전량과 기상 데이터 간의 상관관계 계산은 연속형 변수의 상관관계 측정과 모수 검증에 사용되는 PCC(Pearson Correlation Coefficient) 알고리즘을 적용하였다. 6가지 가중치 방법을 시계열 알고리즘 LSTM, CNN-LSTM, CNN-LSTM-Attention에 적용 실험하였으며, 딥러닝 모델과 성능 비교를 위해 Random Forest 알고리즘을 사용하였다. 실험 결과, 10종의 기상데이터에 대해 선형(Linear) 가중치를 이용한 LSTM의 실제 예측 성능이 가장 높은(R2: 98.8%) 결과를 나타내었으며, 가중치를 사용하지 않은 경우보다 약 3%의 성능향상을 보였다.
Abstract
Accurate power generation forecasting is essential for enhancing the efficiency of carbon emission markets and transition to low-carbon energy. This study evaluates the accuracy of solar power forecasting by analyzing correlations algorithm, subsequently assigning weights. The relationship between power generation and weather variables was quantified using the Pearson Correlation Coefficient (PCC) algorithm, and six distinct weighting methods were integrated into time-series models, specifically LSTM, CNN-LSTM, and CNN-LSTM-Attention. Experimental results demonstrate that the LSTM model utilizing linear weighting achieved a superior predictive performance of 98.8% R2. This methodology yields an approximate 3% improvement in accuracy compared to unweighted baseline models, highlighting its efficacy in optimizing power generation forecasts.
Keywords:
artificial intelligence, solar power generation forecasting, correlation coefficient, LSTM, machine learningⅠ. 서 론
21세기 에너지 패러다임의 핵심은 화석 연료 중심의 발전 시스템에서 벗어나 수력, 태양광(PV, Photovoltaic), 풍력 등 신재생 에너지원으로의 전환이다. 2024년 전 세계 전력 생산에서 온실가스 배출이 없는 청정 전원이 차지하는 비중이 40.9%로 집계되며 사상 최초로 40%를 넘어섰다[1]. 재생에너지 발전 비중은 2030년 18.8%, 2038년 29.2%로 더욱 빠르게 확대될 전망이다[2]. 그러나 우리나라는 아직 많은 비중이 화석연료에 의존적이며 신재생 에너지의 확대가 점점 늘어나고 있다. 보고서에 의하면 주요 성장 동력이 풍력과 태양광을 중심으로 확대되고 있으며 수력과 바이오가 그 뒤를 따르고 있다[3]. 이러한 전환은 기후 변화에 대응하고 지속 가능한 성장을 위한 필수적인 동력이지만, 태양광 에너지의 고유한 특성인 간헐성(Intermittency)과 변동성(Variability)은 전력 계통의 안정성과 신뢰성에 중대한 기술적 도전을 제기한다[4]. 태양광 발전량은 일사량, 기온, 구름의 양 등 예측하기 어려운 자연환경 요인에 의해 시시각각 변화하기 때문에, 발전량의 정확한 예측은 전력 시장의 경제적 효율성을 확보하고 안정적인 전력 공급 계획을 수립하여 발전사들이 배출권 구매 부담을 최소화하고 수익을 극대화하기 위해 '배출권 시장 가격 예측 시스템'이나 '발전량 결정 최적화 모델' 등을 개발 및 활용 하기 위한 핵심 기술로 부상하고 있다[5].
정확한 태양광 발전량 예측 기술의 확보는 단순히 기술적 정확도를 넘어 거시 경제적, 정책적 목표 달성에 직접적으로 기여한다. 첫째, 예측 오차를 최소화함으로써 발전 사업자에게 부과되는 불균형 페널티(Imbalance penalty)를 절감할 수 있으며, 이는 저탄소 발전원으로의 전환을 경제적으로 유도하는 결정적인 요인으로 작용한다. 둘째, 발전량 예측의 신뢰도가 높아질수록 전력 거래가 용이해지고 전력망 운영의 최적화가 가능해지므로, 탄소 배출권 시장의 효율성을 상승시키는 효과를 가져온다. 본 연구에서 목표로 하는 1일(24간) 예측 기간은 단기 전력 시장 입찰 및 그리드 운영 계획 수립에 필수적인 정보를 제공하는 전략적 시간 단위에 해당하며, 이는 단기적인 전력 운용 전략의 신뢰도를 높이는 데 기여한다. 예측 기간이 길어질수록 누적 오차와 불확실성이 증가하기 때문에, 예측의 실용성을 높이기 위해서는 입력 데이터의 품질과 안정성을 극대화하는 선행 기술이 필수적으로 요구된다.
선행 연구들[6][7]은 다양한 기상 특징(일사량, 기온, 풍속, 습도 등)을 입력 변수로 활용해 왔으나, 이들 특징이 타겟 변수인 발전량에 미치는 상대적 중요도 차이(상관관계)를 분석하여 예측 과정에 차등적으로 반영하는 데 소홀하였다. 예를 들어, 태양광 발전량에 지대한 영향력을 미치는 지표면 일사량과 영향력이 미미한 적설량을 입력단에서 균등 가중치(Uniform weighting)로 취급할 경우, 모델은 중요도가 낮은 변수에 포함된 노이즈 성분까지 학습하게 된다. 이처럼 모든 특징을 동일한 영향력으로 간주하는 접근 방식은 정보 손실 및 예측 성능 저하를 초래하며, 이는 모델의 학습 자원(용량)을 비효율적인 정보에 분산시켜 입력 신호 대 잡음비(SNR, Signal-to-Noise Ratio)를 최적화하지 못한 결과로 이어진다. 따라서, 예측 정확도 향상을 위해서는 입력 단계에서 특성 간 중요도 차이를 정량적으로 반영하여 노이즈의 영향을 제어하는 전처리 전략이 필수적이다.
그러나 본 논문에서는 태양광 발전량과 기상 특징량과의 상관관계 분석을 통해 기상 특징량들의 중요도를 파악하였다. 그리고 상관관계의 비중에 따라 다른 가중치를 상관계수에 부여하여 발전량 예측을 증대시키는 연구를 제안한다.
태양광 발전량과 기상 특징량 사이의 상관관계 분석은 PCC(Pearson Correlation Coefficient)방법을 적용하였으며, 이를 변수의 영향력을 선형적으로 반영하는 Linear, 중요 변수 변별력을 극대화하는 Squared 및 Exponential, 상대적 순위를 고려하는 Rank-based, 그리고 저상관 변수의 노이즈를 제어하는 Threshold-based 등 총 6가지의 동적 가중치 산출 알고리즘을 설계하여 실험에 적용하였다. 발전량 예측 실험은 발전량 데이터와 기상 특징량은 시계열 데이터이므로 LSTM(Long Short-Term Memory), CNN-LSTM(Convolutional Neural Network, CNN-LSTM-Attention 알고리즘을 적용하여 실험하였다.
본 논문의 구성은 다음과 같다. 2장에서 발전량 예측을 위한 관계 분석과 관련된 연구에 대해서 기술하며, 3장에서는 발전량 예측을 위한 가중치를 설명한다. 4장에서 가중치를 적용한 알고리즘들에 대한 실험 결과를 기술하고, 결론과 향후 과제는 5장에 나타내었다.
Ⅱ. 관련 연구
태양광 발전량은 기상 상태에 따라 간헐적 문제가 나타나므로 많은 연구가 아직까지 이어지고 있다[4][7]-[10]. 태양광 발전량 예측 연구는 LSTM, GRU(Gated Recurrent Unit)와 같은 시계열 딥러닝 모델을 중심으로 연구하였으며[11], 예측 정확도를 높이기 위해 CNN, XGBoost 등을 결합[12]하거나 유전자 알고리즘(GA, Genetic Algorithm), PCA(Principal Component Analysis) 등으로 데이터를 최적화하는 방향으로 발전하고 있다[13].
기상 데이터를 기반으로 발전량의 예측 정확도 향상을 위해 태양광 발전량과 기상 특징(일사량, 기온, 습도 구름량 등)과의 분석이 요구된다. M. Ali 등[6]은 특징 선택 기법과 인공 신경망을 체계적으로 통합하여 태양광(PV) 전력 예측을 향상시키는 포괄적인 연구를 제시하였다. 특징선택 기법은 ReliefF, 최소 상관관계, 카이제곱 검정 등 여러 특징 선택 방법을 활용하여 PV 출력 예측에 가장 관련성 높은 예측 변수를 식별하여 사용하였다. 그러나 이러한 방법은 특징 선택을 통해 선택된 특징의 개수가 너무 적을 때 한계점을 나타내는 단점이 있다. G. H. Park et al.[7]은 상관관계 분석을 통해 변수 선정과 모델 성능 향상에 중점을 두었다. 사용된 상관관계 방법은 다변량 시계열 데이터의 자기상관, 다변량 시계열 데이터의 편자기상관, 다변량 데이터의 피어슨 상관계수를 사용하였다. 상관관계(피어슨 상관관계 분석 사용) 분석 후 ARIMA 모델을 이용하여 전처리 수행하였으며, 예측을 위해 LSTM-Autoencoder 결합 모델을 이용하였다. 그러나 입력 변수의 중복성은 예측 변수들 사이에 다중공선성(Multicollinearity) 문제가 존재할 수 있다. 그리고 상관관계 분석을 통해 다중공선성을 사전에 파악하여 모델의 신뢰성을 확보할 수 있다고 언급하였으나, 이러한 중복성이 높은 변수들을 모두 모델의 입력으로 사용할 경우, 모델의 해석이 어려워지고 예측 모델(특히 선형 모델)의 가중치가 불안정해 질 수 있다. J. H. Hwang et al.[8]은 특성 공학을 이용하여 입력 특성을 확장하고, 다양한 딥러닝 모델을 통해 태양광 발전량을 예측하였다. 이 방법을 통해 기존의 8개 입력 특성을 다항 특성 변환기(Polynomial features)를 이용해 494개(Degree 4)까지 확장하였다. 예측 성능이 가장 좋은 특성의 개수(Degree)를 선택하기 위해 선형회귀(Linear regression) 모델을 사용하였다. 이러한 특징 확장 및 개수 선택 과정의 주요 한계점은 과적합 위험이 발생할 가능성이 높다는 것이다. Y. T. Cho et al.[14]은 태양광 발전량 예측오차율을 최소화하기 위하여 통계기법인 MLR과 머신러닝기법인 ANN에 다양한 가중치 최적화 기법을 적용하여 실제발전량과 예측발전량과의 오차율을 비교하였다. 이 연구에서는 ANN에서 모델 내부 학습을 통해 가중치를 부과하였다. J. Macaire et al.[15]은 데이터간 거리를 통해 가중치를 결정하였다. 해당 특징이 태양광 발전량에 미치는 통계적 영향력 계산하였으며, 추출된 최종 가중치가 양의 값을 나타내는 경우 모델의 입력 변수 그리고 음의 가중치는 상관관계가 미미함을 나타내어 제외하였다.
본 연구는 모델 내부 학습이나 데이터 간 거리를 통해 가중치를 계산하지 않고 태양광 발전량과 다양한 기상 특징들 사이의 상관관계를 정량적으로 분석하고, 그 결과에 따라 차등적인 가중치(Weight)를 부여하여 예측 모델의 효율성을 극대화하는 새로운 특징 엔지니어링 방법론을 제안한다. 이 접근 방식은 상관계수의 절댓값이 높은 변수에는 높은 가중치를, 낮은 변수에는 상대적으로 낮은 가중치를 부여함으로써, 모델이 주어진 데이터에 대해 최대한 활용하여 학습하도록 유도한다.
Ⅲ. 발전량 예측을 위한 가중치 설계
3.1 상관관계 분석
본 논문에서는 특정 변수(Feature) 사이의 상관관계 분석을 통해 가중치(Weight)를 사용하는 알고리즘을 적용한다. 상관관계 분석 결과를 통해 상관계수 절댓값이 높은 변수에는 높은 가중치를, 낮은 변수에는 상대적으로 낮은 가중치를 부여하여 예측 모델의 효율성을 극대화하였다. 발전량 예측을 위해 사용되는 상관계수는 PPC(Pearson Correlation Coefficient), SCC(Spectrum Correlation Coefficient) 그리고 KCC(Kendal Correlation Coefficient)가 있다[10]. 피어슨 상관계수(PPC)는 두 변수 간의 선형 관계의 강도와 방향을 측정하는 통계 지표이다. 이 값은 항상 -1과 +1 사이의 값을 가진다. n개의 데이터 쌍 (Xi, Yi)가 주어졌을 때, 표본 상관계수 γ(감마)은 식 (1)과 같이 계산할 수 있다. 이 공식은 위의 정의를 실제 데이터 계산에 적합하도록 변형한 것이다.
| (1) |
- ∙n : 데이터쌍의 개수
- ∙Xi : i번째 X변수값
- ∙Yi : i번째 Y변수값
- ∙ : X의 표본평균
- ∙ : Y의 표본평균
γ의 값이 +1에 가까울수록 강한 양의 선형 상관관계(한 변수가 증가할 때 다른 변수도 함께 증가)를 나타내며, -1에 가까울수록: 강한 음의 선형 상관관계(한 변수가 증가할 때 다른 변수는 감소)를 나타낸다. 그리고 0에 가까울수록: 선형 상관관계가 거의 없음을 나타낸다.
스펙트럼 상관계수(SCC)는 신호 처리나 분광학 분야에서 두 스펙트럼 Ri 및 Ui 간의 유사성을 측정하는 데 사용된다. 이는 일반적으로 피어슨 상관계수 공식을 기반으로 하며, 스펙트럼 데이터에 맞게 적용된다 SCC를 계산하는 일반적인 수식은 식 (2)와 같다.
| (2) |
- ∙Ri : 기준(reference)스펙트럼의i번째스펙트럼값
- ∙Ui : 비교대상(comparison)스펙트럼의i번째스펙트럼값
- ∙ : 기준스펙트럼값들의평균
- ∙ : 비교대상스펙트럼값들의평균
- ∙N : 스펙트럼밴드또는샘플의총개수
이 수식은 두 변수 R과 U의 공분산을 각각의 표준편차의 곱으로 나눈 것과 같다. 결과 값은 -1과 1 사이의 범위를 가지며, 1에 가까울수록 두 스펙트럼이 강한 양의 상관관계를 갖는다는 것을 의미한다.
켄달 상관계수(KCC)는 두 변수 간의 순위 일관성을 측정하는 비모수적 통계 지표이다. 이 값은 -1부터 1까지의 범위를 가지며, 1은 완벽한 순위 일치, -1은 완벽한 순위 불일치, 0은 순위 간 연관성이 없음을 의미한다. 가장 일반적으로 사용되는 켄달 타우(Kendall's tau) 계수 τa의 기본 수식은 식 (3)과 같다.
| (3) |
- ∙Nc(일치 쌍의 수): 두 관측치 쌍 (xi,yi)와 (xj,yj)를 비교했을 때, 두 변수의 순위 관계가 같은 쌍의 개수이 다. 즉, xi < xj이고 yi < yj이거나 xi > xj 이고 yi > yj인 경우
- ∙Nd(불일치 쌍의 수): 두 관측치 쌍의 순위관계가 반대인 쌍의 개수이다. 즉, xi < xj이고 yi > yj이거나 xi > xj 이고 yi < yj인 경우
- ∙n:전체 관측치(데이터 쌍)의 수
- ∙n(n - 1)/2: 가능한 모든 고유한 쌍의 개수
본 연구에서는 선형 관계의 강도를 측정하기에 적합한 것으로써 일사량처럼 발전량과 직접적이고 비례하는 관계의 변수 중요도를 정확하게 측정할 수 있는 PPC를 선정하여 사용하였다. 그림 1은 PPC를 이용하여 발전량 특징과 기상 특징들과의 상관관계를 분석한 결과이다.
그림 1에 나타낸 영문 용어는 본 논문에서 사용한 특징량의 용어를 단축하여 나타낸 것이다. tem은 기온, rain은 강수량, hum은 습도, snow는 적설량, wind는 풍속, cl-10은 전운량(10분위), cl-3은 전운량(3분위), sun은 일조량, ext-rad는 대기밖 일사량, sur-rad는 지표면 일사량, P-G는 태양광 발전량을 의미한다.
3.2 가중치 분석
각 입력 특징값(기상데이터, feature)이 목표값(태양광 발전량, target)에 미치는 상대적 중요도를 반영함으로써, 모델이 더 효율적이고 해석 가능한 학습을 하도록 돕기 위해 가중치 부여를 제안하여 실험하였다. 이것은 데이터의 모든 특성이 목표값에 동일한 영향력을 가지지 않기 때문이다. 영향력의 차이를 반영하지 않으면 모델은 중요한 특징과 덜 중요한 특징을 구분하지 못해 노이즈 성분이 포함된 학습을 하게 된다. 그러므로 앞에서 제시한 두 변수 간의 선형 관계를 잘 나타내는 피어슨 상관계수 분석의 결과를 이용해 가중치 실험을 실시하였다.
논문에서 사용한 각 특징값에 대한 가중치는 부여 방법에 따라 6가지 종류의 방법을 사용하였다.
- ∙균등 가중치(Uniform)
- ∙선형 상관관계 가중치(Linear correlation)
- ∙제곱 상관관계 가중치(Squared correlation)
- ∙순위 기반(Rank based)
- ∙임계값 기반 가중치(Threshold based)
- ∙지수함수 기반 가중치(Exponential)
균등 가중치는 식 (4)처럼 모든 특성(Feature)에게 동일한 가중치 wi = 1 또는 wi = 1/p 형태로 부여하는 방식이다[16]. 이 방법은 구현이 매우 간단하고 이해하기 쉬우며, 특정 변수에 과도하게 의존하지 않아 강건한 특징을 가진다. 다른 방법들의 성능을 평가하는 기준선 역활에 유용하다. 그러나 변수 간 중요도 차이를 반영하지 못하므로 정보 손실을 가져오며, 발전량과 강한 상관관계를 가진 변수(일사량, 일조 등)의 중요성을 활용하지 못하므로 예측의 정확성을 떨어뜨릴 우려가 있다. 즉, 발전량 예측 적용에 사용되는 일사량, 온도, 습도 등 변수들의 영향력이 실제로는 크게 다른데, 이를 무시하므로 예측 성능이 제한적일 수 있다.
| (4) |
선형 상관관계 가중치[17]는 각 특징값과 목표값 사이의 Pearson 상관계수 γi의 절댓값 또는 양수값을 가중치로 사용하는 방식으로 관계식은 식 (5)와 같다. 상관계수가 높을수록 높은 가중치 부여하며 변수별 중요도를 반영하여 차별화를 구현할 수 있으며 계산이 간단하다. 그러나 음의 상관관계를 어떻게 처리할지 고민이 필요하며, 선형 관계를 전제로 하므로 비선형 관계를 제대로 포착하지 못할 수 도 있다. 그리고 상관계수가 이상치에 영향받을 수 있다. 그래서 발전량 예측 적용 일사량(0.8), 습도(-0.34) 등의 상관관계를 직접 반영하나, 음의 상관관계 처리가 애매할 수 있으므로 이점을 고려해야한다.
| (5) |
여기서 γi는 각 특징값 Xi와 목표값 y간의 Pearson 상관계수이다.
제곱 상관관계 가중치[18]는 선형 상관관계 가중치의 확장으로 이다. 식 (6)처럼 선형 관계가 강한 특성의 가중치를 더욱 강조하고, 약한 특성은 더 낮게 반영되며, 극단적인 가중치 차이를 방지하는 장점이 있다. 그러나 매우 강한 상관 변수에만 집중할 위험과 중간 정도 상관 변수의 기여도가 과소평가될 수 있는 단점이 있다. 그러므로 발전량 예측 적용에서 일사량처럼 강한 상관 변수를 강조하고 싶을 때 효과적일 수 있다.
| (6) |
또는 일반화 형태로 로 표현할 수 있으며, α = 2일 때 제곱 상관관계가 된다.
순위 기반 가중치[19]는 순위만 사용하므로 이상치에 강건(Robust)하며 변수 간 우선순위가 명확하여 극단적인 가중치 차이를 방지할 수 있다. 이 방법의 단점은 상관계수의 실제 크기 정보를 잃을 수 있으며, 순위 변화에 따라 가중치가 급격히 변할 수 있다. 그러므로 발전량 예측 적용변수가 많고 일부 이상치가 있을 때 유용하나, 실제 상관 강도의 차이를 무시하는 것이 단점이다.
이 방법은 식 (7)처럼 특징값의 상관도나 중요도 점수 si를 기준으로 순위를 매기고 가중치를 구한다.
| (7) |
임계값 기반 가중치[20]는 약한 상관 변수를 명확히 배제하여 노이즈 제거효과가 있으며, 불필요한 변수 제거로 모델을 단순화시켜 계산량 감소와 과적합 방지에 효과적이다. 그러나 임계값 설정은 주관적이며, 임계값 근처 변수들의 처리가 애매하게되는 단점이 있다. 그러므로 발전량 예측 적용에서는 명확히 중요한 변수만 선택하고 싶을 때 효과적이며, 데이터가 많고 노이즈가 많은 경우 특히 유용하다. 이 방법은 식 (8)과 같이 나타낼 수 있으며,
| (8) |
여기서 τ는 실험적 또는 통계적 기준으로 설정된 임계값이다.
지수함수 기반 가중치[21]는 상관계수 또는 중요도 지표 γi에 대해 지수함수 형태로 가중치를 부여한다. 식 (9)처럼 형태로 중요도가 조금만 높아도 가중치가 급격히 커지도록 설계할 때 사용된다. 비선형 영향이 클 때 적용할 수 있다.
| (9) |
여기서 α > 1 일수록 상관관계가 높은 변수의 영향력이 지수적으로 증폭한다.
Ⅳ. 발전량 예측 실험
4.1 결측치 처리
기상 데이터를 활용한 발전량 예측에서 결측치(NAN, Missing Value) 처리는 모델의 성능과 신뢰도에 결정적인 영향을 미친다[22]. 데이터의 손실을 최소화하고 시계열적인 특성을 유지하기 위해 적절한 보간 방법을 선택해야 한다. 보간 방법은 단순 보간법, 머신러닝 기반 보간법과 시계열 보간법이 있다. 단순 보간법은 크게 두 가지이며, 가장 간단하고 빠르게 결측치를 채울 수 있는 방법이지만, 데이터의 시계열적 특성을 반영하지 못해 정확성이 떨어질 수 있다. 이 방법에서 주로 사용하는 것은 평균값 보간법, 중앙값 보간법, 최빈값 보간법 등이 있다[22]. 그리고 예측 모델을 구축하여 누락된 결측치 데이터 추정치를 보간하는 복잡한 과정의 머신러닝 기반 보간법에는 KNN(K-Nearest Neighbors), Random Forest, Deep learning 방법이 있다[23]. 반면, 기상 데이터는 시간의 흐름에 따라 연속성을 가지는 시계열 데이터이므로, 이전 또는 이후 시점의 값을 활용하는 시계열 보간법이 일반적으로 사용된다[24]. 시계열 보간법에는 바로 직전 시점의 관측값으로 대체하는 최근접 값 보간법, 결측치를 앞뒤 유효한 관측값을 연결하는 직선 위에 있다고 가정하고 그 값으로 대체하는 선형 보간법 그리고 선형이 아닌 곡선 다항식을 사용하여 앞뒤 관측값을 연결하는 스플라인 보간법이 있다. 본 연구에서 사용하는 기상 데이터와 태양광 발전량 데이터는 1시간 단위로 변화하는 연속적인 물리량의 특성을 가진다. 그러므로 데이터 왜곡을 최소화할 수 있는 시계열 데이터에 강인한 선형 보간법을 적용하였다. 기온과 태양광 발전량 합계의 선형 보간 예(5일간)를 그림 2에 나타내었다.
4.2 평가지표
태양광 발전량 예측 모델의 성능을 평가하는 지표들은 모델의 정확도와 오차의 특성을 측정하여, 실제 전력 계통 운영 환경에서 해당 모델이 얼마나 신뢰할 수 있는지 판단하는 데 사용된다. 본 연구에서 태양광 발전량 예측 정확도를 평가하기 위해 RMSE(Root Mean Squared Error), MAE(Mean Absolute Error), 결정계수(R² Score)를 사용하였다. MAE는 평균 절대 오차이며 예측 오차의 절댓값을 취한 후, 그 평균을 낸 값이다. 오차의 평균적인 크기를 예측하고자 하는 발전량의 단위(예: MWh)로 직접적으로 보여준다. 모든 오차에 대해 동일한 가중치를 부여하므로, 이상치(Outlier)에 비교적 덜 민감하고 직관적인 특징이 있다. 평균 절대 오차는 식 (10)과 같다.
| (10) |
RMSE는 평균 제곱근 오차이며, 평균제곱오차(MSE) 값에 제곱근을 취한 값이다. MSE의 단위를 다시 원래의 단위(예: MWh)로 되돌려 MAE와 마찬가지로 오차의 크기를 직관적으로 해석할 수 있게 한다. MSE와 마찬가지로 큰 오차에 민감하며, MAE와 함께 회귀 모델 평가에 가장 널리 사용된다. 오차 분포가 정규분포를 따를 때, RMSE는 오차의 표준편차와 유사하게 해석될 수 있다. 평균 제곱근 오차 식은 식 (11)과 같다.
| (11) |
R2(결정계수) 점수는 회귀 모델의 예측이 실제 데이터를 얼마나 잘 설명하는지 나타내는 지표이다. R2 점수는 0에서 1 사이의 값을 가지며, 1에 가까울수록 모델이 데이터를 잘 설명한다고 평가할 수 있다. R2 계산 공식은 식 (12)와 같다.
| (12) |
RSS(Residual Sum of Squares, 잔차 제곱합)는 모델의 예측값 ()과 실제값 (yi)의 차이(잔차)를 제곱하여 합한 값입니다. 잔차가 작을수록 모델이 데이터를 더 잘 예측하며 식 (13)과 같다.
| (13) |
TSS(Total Sum of Squares, 총 제곱합)는 실제값 (yi)과 실제값의 평균()의 차이를 제곱하여 합한 값입니다. 이는 종속 변수(y)의 총 변동성을 나타내며 식 (14)와 같다.
| (14) |
4.3 가중치가 반영된 발전량 예측 실험
본 논문에 사용된 데이터는 제주도 기상 데이터와 제주도동부발전소의 태양광 발전량 데이터이다. 수집된 데이터 기간은 2019.01.01.부터 2024.12.31.까지이다. 실험에 사용된 특징량(기상 데이터) 항목은 기온, 강수량(mm), 습도, 적설(cm), 풍속, 전운량(10분위), 전운량(3분위), 일조(hr), 대기권밖 일사량 그리고 지표면 일사량이며, 타겟 데이터는 태양광 발전량이다.
데이터 훈련을 위한 하드웨어 조건은 Intel(R) Core(TM) 3.0GHz, NVIDIA Geforce RTX 3070를 사용하였다. 실험에 사용된 데이터는 훈련용, 검증용 그리고 테스트용으로 나누었으며, 비율은 7:2:1 로 나누어 사용하였다.
실험을 위해 입력된 데이터에 대해 데이터 결측치를 먼저 처리한다. 기상 데이터와 발전량 데이터는 시간에 종속한 데이터이므로 시계열 기반으로 결측치를 처리하였다. 그리고 이상치를 제거하기 위해 수정된 IQR(Interquartile Range) 방법(하위 0.05, 상위 0.95)을 이용하여 이상치를 제거하였다. 이를 기반으로 특징값(기상 데이터)과 특징값(태양광 발전량) 사이의 상관 관계분석은 PCC방법을 적용하여 실시하였다.
PCC방법을 이용한 실험 결과는 표 1에 나타낸 것처럼, ‘지표면 일사량’이 가장 높은 관련성을 보였으며, 적설(10위)과 강수량(9위)이 하위 부분을 나타내었다. 본 실험에서는 하위 2개의 특징이 발전량 예측에 얼마만큼의 영향이 미치는가에도 동시에 실험을 진행하였다. 훈련을 위한 시계열 데이터는 24시간(1일)마다 생성하여 사용하였다.
가중치 실험은 No_Weight, Linear, Squared, Rank_Based, Threshold 그리고 Exponential 방법을 이용하였다. 6가지 가중치 실험에 사용된 가중치 값을 표 2에 나타내었다.
표 2에 나타낸 것처럼 가중치의 대부분이 강수량과 적설이 가장 하위를 나타내었다. 본 실험에서는 날씨 특징 전체(10개)를 포함하는 경우와 하위 2개를 제거하고 8개의 날씨 특징을 사용한 경우를 각각 실험하였다.
가중치 부여에 대한 실험을 위해 시계열 실험에서 많이 사용되고 있는 딥러닝 방법 3가지(LSTM, CNN-LSTM, CNN-LSTM-Attension)를 사용하였으며, 비교 실험을 위해 머신러닝 방법 Random Forest와 XGBOOST 방법을 사용하였다. 딥러닝 방법에 대한 실험 결과를 표 3~5에 나타내었다.
표 3의 LSTM 실험에서 linear 가중치를 적용한 경우가 가중치를 적용하지 않은 경우(No Weight)보다 RMSE는 2.44%, MAE는 6.47% 개선되어 가장 높은 성능 향상 폭으로 나타내었다. LSTM의 결정계수 R2은 Threshold 가중치 적용이 가장 높게 나타났다. 그러나 Squared 가중치를 적용했을 때는 오히려 모든 지표(RMSE, MAE, R2)에서 성능이 저하되는 결과가 나타내었다.
표 4와 표 5의 CNN-LSTM 및 CNN-LSTM-Attention 모델은 가중치를 적용하지 않은 상태(NO Weight)에서 각각 0.8824와 0.8885의 R2 값을 기록하며 기초 성능은 LSTM보다 우수하게 나타났다. 그러나 이들 모델에 가중치를 적용했을 경우, 대부분의 지표에서 성능 향상도(%)가 음수(-)를 기록하며 예측 성능이 다소 하락하는 경향을 보였습니다. 이는 복합 모델 내부의 자체적인 특징 추출 및 어텐션 기전이 외부 가중치 적용과 상충하였음을 의미한다.
표 3~5의 분석을 통하여 각 모델들에 적용된 최적의 가중치 방법은 Linear로 나타났다. 훈련 결과를 이용하여 테스트 데이터를 LSTM모델에 linear 가중치를 적용한 24시간 발전량 예측 결과를 그림 3에 나타내었다. 그림 3에서 17시 이후부터 7시까지는 실제 데이터와 예측 데이터의 차이는 거의 나타나지 않으며, 8시부터 15시 사이에에 예측 에러를 나타내었지만, 실제 발전량 데이터와 모델의 예측 데이터를 비교했을 때, 태양광 발전의 피크 시간대와 변동 추이를 모델이 원시 데이터에 가깝게 추종하고 있음을 확인할 수 있다. 특히 피크 시간대의 급격한 변동성을 놓치지 않고 실제 데이터(Actual)와 유사한 곡선을 형성하고 있다. 이는 선형(Linear) 가중치가 일사량과 같은 높은 상관관계를 가지는 기상 특징량의 신호를 왜곡 없이 강화했기 때문이다. LSTM 모델은 이러한 강화된 신호를 시계열적으로 학습하여 발전량의 시간적 종속성을 효과적으로 사용한 것이다. 하단 오차 그래프(Hourly prediction errors)에서 10~15시 사이에 음(-)의 오차가 집중되는 경향이 나타난 것은 모델이 실제 발전량보다 다소 낮게 예측(Under-prediction)했음을 의미한다. 이러한 현상의 원인은 태양광 발전이 일사량 외에도 구름의 양이나 미세먼지 등 비선형적인 외부 요인의 영향을 받기 때문이다. 선형 가중치는 주요 변수의 흐름은 잘 잡아내지만, 정오 시간대의 미세한 기상 변동(간헐성)에 따른 비선형적 출력 변화를 완전히 포착하는 데에는 한계가 있었던 것으로 생각된다. 그러므로 제안된 가중치 기법은 단순 입력 방식보다 성능을 약 3% 향상시켰으며, 이는 기상 데이터의 통계적 중요도를 전처리 단계에서 명확히 구분하여 반영한 결과이다. 그리고 안정적인 전력 계통 운영을 위한 중기 예측 모델로서 충분한 실효성을 가짐을 입증하였다.
Comparison of actual power generation data and power generation predictions using linear weight values applied to the LSTM model
이러한 정성적 분석을 뒷받침하는 수치적 검증 결과, RMSE 21.8, MAE 12.8, R2 0.988의 우수한 지표를 기록하였다. 이는 초기 훈련 단계의 성과를 상회하는 수준으로, 본 연구에서 제안한 선형 가중치 기법이 미학습 데이터에 대해서도 높은 일반화 성능과 예측 신뢰도를 보유하고 있음을 최종적으로 입증한다.
딥러닝과의 비교 실험을 위하여 머신러닝의 Random Forest와 XGBoost를 실험하였으며, 딥러닝 모델보다 낮은 예측률을 나타내었다. Random Forest방법은 RMSE는 26.31, MAE는 14.7, R2는 0.91를 나타내었으며, XGBoost는 RMSE는 32.67, MAE는 20.24, R2는 0.86을 나타내었다.
추가적으로 상관관계 분석에서 하위 2개 요소를 제외한 실험을 실시였다. 10개 요소를 적용한 경우보다 낮은 예측량을 나타내었지만 지역 특성에 따라 다를 수도 있는 부분이므로 향후 지역 및 계절 특성을 반영한 추가 실험에서 고려해야 할 것이다.
Ⅴ. 결론 및 향후 과제
태양광 발전 예측은 기상 특징의 조건에 따라 발전량 변동성이 크고, 발전량 공급도 매우 불안정하게 야기할 수 있다. 본 논문에서는 기상 특징과 태양광 발전량과의 정확한 상관관계를 분석하고 이를 기반으로 기상 특징값에 다양한 가중치를 부여하여 태양광 발전량 예측 정확도에 미치는 영향을 연구하였다. PCC 상관관계 분석을 기반으로 6가지 종류의 가중치를 사용하였으며, 딥러닝의 3가지 모델에 대하여 LSTM에 Linear 가중치를 적용한 경우가 가장 좋은 예측 결과를 나타내었다.
향후 과제는 계절적 요인과 위성영상 기반의 특성을 추가로 반영함으로써, 기존 상관관계 분석에서 상대적으로 하위 지표였던 적설양, 풍속, 강수량의 변별력을 제고할 필요가 있다. 이러한 다각적인 변수 확장은 기상 데이터와 발전량 간의 관계성을 보다 정밀하게 규명하여, 태양광 발전량 예측의 정확도를 한층 더 향상시킬 수 있을 것으로 기대된다.
References
- E. Graham, N. Fulghum and K. Altieri, Global Electricity Review 2025, https://ember-energy.org/latest-insights/global-electricity-review-2025, . [accessed: Feb. 11, 2026]
- Y. C. Yeun, Directions for improving the wholesale electricity market structure in response to the expansion of renewable energy, KDI FOCUS, https://www.kdi.re.kr/research/focusView?pub_no=18869/, . [accessed: Feb. 11, 2026]
- Korea Energy Agency, Energay Issue Briefing, No. 267, 2025. https://www.energy.or.kr/energy_issue/mail_vol267/mail_vol267.html, . [accessed: Feb. 11, 2026]
- P. C. Krause and O. Wasynczuk, "Electro mechanical Motion Devices", McGraw-Hill, pp. 23-45, May 1998.
-
J. Lim, S. Lee, J. Lee, and D. Kim, "Impact of Allocation Policy Changes in Korea’s ETS on the Power Sector Permit Allocation and Electricity Marke", Environmental and Resource Economics Review, Vol. 34, No. 1, pp. 79-126, Jan. 2025.
[https://doi.org/10.15266/KEREA.2025.34.1.79]
-
M. Ali, A. Rabehi, A. Souahlia, M. Guermoui, A. Teta, I. E. Tibermacine, A. Rabehi, M. Benghanem, and T. F. Agajie, "Enhancing PV power forecasting through feature selection and artificial neural networks: a case study", Scientific Reports, Article no. 22574. Jul. 2025.
[https://doi.org/10.1038/s41598-025-07038-x]
-
G. H. Park and J. C. Kim, "Correlation Analysis of Multivariate Time Series Variables for Solar Power Prediction", Journal of the KIECS, Vol. 20, No. 1, pp. 61-66, Feb. 2025.
[https://doi.org/10.13067/JKIECS.2025.20.1.61]
-
J. H. Hwang and C. B. Kim, "Deep Learning Model for Solar Power Generation Prediction using Feature Extension", Journal of KIIT, Vol. 22, No. 12, pp. 9-18, Dec. 2024.
[https://doi.org/10.14801/jkiit.2024.22.12.9]
-
M. Y. Kang, "Renewable Energy Generation Prediction Model using Meteorological Big Data", Journal of the KIECS, Vol. 18, No. 1, pp. 39-44, Feb. 2023.
[https://doi.org/10.13067/JKIECS.2023.18.1.39]
-
S. H. Yun, S. H. Hong, J. S. Jeon, S. C. Lim, and J. C. Kim, Chul-Young Park, "Solar Power Generation Prediction Algorithm Using the Generalized Additive Model", Journal of Korea Multimedia Society, Vol. 25, No. 11, pp. 1572-1581, Nov. 2022.
[https://doi.org/10.9717/kmms.2022.25.11.1572]
- H. Seo, Y. G. Lee, and C. K Kim, "Performance Evaluation for LSTM-GRU based GHI Prediction Model", 2022 KSES Annual Spring Conference, Seoul, Korea, pp. 191, Mar. 2022.
-
S. Lee and H. B. Bae, "Electric Power Demand Forecasting and Performance Analysis Using a Hybrid LSTM-XGBoost Model", The Journal of Korea Institute of Information, Electronics, and Communication Technology, Vol. 18 No. 4, pp. 271-278, Aug. 2025.
[https://doi.org/10.17661/jkiiect.2025.18.4.271]
-
J. Jeon and J. Choi, "A Study on Genetic Algorithm-Based Optimization of Multi-Regional Weather Data for Solar Power Generation Forecasting", Journal of KIISE, Vol. 52, No. 8, pp. 688-699, Aug. 2025.
[https://doi.org/10.5626/JOK.2025.52.8.688]
-
Y. T. Cho, G. H. Lee, J. H. Hong, and Z. W. Geem, "Prediction of Photovoltaic Generation Using Machine Learning Models with Various Weight Optimization Techniques", Journal of the KIIS, Vol. 32, No. 1, pp. 1-6, Feb. 2022.
[https://doi.org/10.5391/JKIIS.2022.32.1.1]
-
J. Macaire, S. Zermani, and L. Linguet, "New Feature Selection Approach for Photovoltaïc Power Forecasting Using KCDE", Energies, Vol. 16, No. 19, pp. 1-13, Sep. 2023.
[https://doi.org/10.3390/en16196842]
-
S. Zhang, J. Xu, and Q. Bai, "Feature selections integrating algebraic and information perspectives in weighted incomplete neighborhood rough sets", Neurocomputing, Vol. 639, Art no. 130164, Jul. 2025.
[https://doi.org/10.1016/j.neucom.2025.130164]
- M. A. Hall, "Correlation-based Feature Selection for Machine Learning", The University of Waikato, Apr. 1999.
-
N. Jankowski and K. Usowicz, "Analysis of Feature Weighting Methods Based on Feature Ranking Methods for Classification", Neural Information Processing (ICONIP 2011), Shanghai, China, Vol. 7063, pp. 238-247, Nov. 2011.
[https://doi.org/10.1007/978-3-642-24958-7_28]
-
V. Pekar, M. Krkoska, and S. Staab, "Feature weighting for co-occurrence-based classification of words", Proc. of the 20th international conference on Computational Linguistics, Geneva, Switzerland, pp. 799-806, Aug. 2004.
[https://doi.org/10.3115/1220355.1220470]
-
A. Jain and D. Zongker, "Feature selection: evaluation, application, and small sample performance", IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 19, No. 2, pp. 153-158, Feb. 1997.
[https://doi.org/10.1109/34.574797]
-
C. Wang, J. Wang, Z. Gu, J. Wei, and J. Liu, "Unsupervised feature selection by learning exponential weights", Pattern Recognition, Vol. 148, Art no. 110183, Apr. 2024.
[https://doi.org/10.1016/j.patcog.2023.110183]
-
T. Hastie, R. Tibshirani, and J Friedman, "The Elements of Statistical Learning", Springer Series in Statistics, Feb. 2009.
[https://doi.org/10.1007/978-0-387-84858-7]
-
M. Goldani, "Comparative Analysis of Missing Values Imputation Methods: A Case Study in Financial Series", Iranian Journal of Finance, Vol. 8, No. 1, pp. 47-70, Mar. 2024.
[https://doi.org/10.61186/ijf.2024.414027.1427]
-
S. M. Ribeiro and C. L. Castro, "Missing Data in Time Series: A Review of Imputation Methods and Case Study", Journal of the Brazilian Society on Computational Intelligence, Vol. 20, No. 1, pp. 31-46, Oct. 2022.
[https://doi.org/10.21528/lnlm-vol20-no1-art3]
2003년 8월 : 영남대학교 전자공학과(박사)
1995년 9월 : LG정밀(주) 용인연구소 주임 연구원
2006년 10월 : 학술진흥재단 박사후 연구원(Cardiff Univ.)
2017년 2월 : 경운대학교 항공전자공학과 부교수
2019년 9월 : 국립안동대학교 SW융합교육원 교수
2025년 3월 : 국립경국대학교 교양교육원 교수
관심분야 : 인공지능, 영상처리, 패턴 및 생체 인식, 로봇비젼, 뉴럴네트워크



