[ Article ]

The Journal of Korean Institute of Information Technology - Vol. 24, No. 4, pp.191-203

ISSN: 1598-8619 (Print) 2093-7571 (Online)

Print publication date 30 Apr 2026

Received 03 Feb 2026 Revised 05 Mar 2026 Accepted 08 Mar 2026

DOI: https://doi.org/10.14801/jkiit.2026.24.4.191

StyleGAN 잠재 공간 분석과 Diffusion 모델을 통한 조명 배치 및 시각화 시스템

하동우^*

; 이승재^**

; 안지홍^***

; 유지혜^****

; 홍규린^*****

; 이정현^******

; 유길상^*******

*아주대학교 정보통신대학원 지능형소프트웨어전공
**한성대학교 컴퓨터공학부
***서강대학교 일반대학원 컴퓨터공학과
****이화여자대학교 컴퓨터공학과
*****인하대학교 산업경영공학과
******연세대학교 응용정보공학과
*******고려대학교 정보대학 정보창의교육연구소(교신저자)

Lighting Placement and Visualization System via StyleGAN Latent Space Analysis and Diffusion Models

Dongwoo Ha^*

; Seungjae Lee^**

; Jihong An^***

; Jihye Yoo^****

; Gyurin Hong^*****

; Jeonghyeun Lee^******

; Gilsang Yoo^*******

Correspondence to: Gilsang Yoo Creative Informatics & Computing Institute, 145 Anam-ro, Seongbuk-gu, Seoul, Korea Tel.: +82-2-3290-1674, Email: ksyoo@kea.ac.kr

초록

조명 배치는 정량적 기준의 부재로 인해 전문가의 직관이나 반복적인 시뮬레이션에 의존해 왔다. 이에 본 연구는 StyleGAN과 Diffusion 모델을 결합한 자동화된 조명 배치 및 시각화 시스템을 제안한다. 본 시스템은 StyleGAN의 잠재 공간에서 SVM과 Grad-CAM을 활용해 최적의 조명 위치를 도출하고, 사용자가 선택한 조명 디자인을 Diffusion 기반 Paint-by-Example 기법을 통해 공간 구조의 변형 없이 사실적으로 합성한다. 실험 결과, 제안 모델은 GIoU 기준 Top 평균 0.46을 기록하여 기존 CAM 기법(0.03~0.05) 대비 9~15배 높은 정밀도를 입증하였다. 또한 Center Similarity에서도 0.97을 달성하여 25% 이상의 성능 향상을 확인하였다. 이는 본 시스템이 조명의 형태나 상태와 무관하게 위치를 신뢰성 있게 특정할 수 있음을 보여주며, 조명 설계 자동화 분야로의 확장 가능성을 시사한다.

Abstract

Optimal lighting layout lacks quantitative criteria, often relying on intuition or manual simulation. To address this, we propose an automated system combining StyleGAN and Diffusion models for lighting recommendation and visualization. Our method identifies lighting attributes via SVM in StyleGAN's latent space, derives positions using Grad-CAM, and realistically synthesizes user-selected fixtures without structural distortion using Paint-by-Example. Experimental results demonstrate a Top average GIoU of 0.46, showing 9–15 times higher precision than existing CAM techniques. Additionally, it achieved a Top average Center Similarity of 0.97, confirming an improvement of over 25%. These findings indicate the system can reliably identify lighting positions regardless of fixture conditions, presenting significant potential for automated lighting design.

Keywords:

StyleGAN, lighting placement, diffusion models, latent space analysis, SVM

Ⅰ. 서 론

공간 디자인 영역에서 조명은 단순한 시각적 정보 전달을 넘어, 공간의 분위기(Ambiance)와 기능성(Functionality)을 결정짓는 중추적인 역할을 수행한다. 최적화된 조명 배치는 공간의 목적성을 부각하고 심미적 가치를 극대화하는 핵심 기제이다. 산업적 측면에서도 그 중요성은 두드러지는데, EMR 보고서에 따르면 2023년 글로벌 조명 시장은 약 1,287억 6천만 달러 규모를 기록하였으며, 2032년까지 연평균 7.3%의 성장이 전망된다[1]. 그러나 조명 배치는 구조적 제약과 사용자의 다변적 요구를 동시에 충족해야 하는 비정형적 특성을 지닌다. Boyce의 연구에 따르면, 조명은 단순히 빛을 비추는 것이 아니라 시각적 편안함(Visual comfort), 눈부심 방지(Glare control), 조도 균제도(Uniformity) 등 광학적 파라미터와 심미성을 동시에 고려해야 하는 ‘다목적 최적화(Multi-objective optimization)’ 문제로 정의한다[2]. 특히 디자인 인지(Design cognition) 분야의 선행 연구들은 비전문가와 전문가의 문제 해결 방식에 명확한 차이가 있음을 지적한다[3]. 전문가는 조도 분포와 같은 기능적 원리를 우선 고려하는 하향식(Top-down) 접근을 취하는 반면, 비전문가는 가구의 위치와 같은 표면적 특징(Surface features)에 집중하는 상향식(Bottom-up) 접근을 보이는 경향이 있다. 즉, 조명의 적절한 위치 선정은 단순 배치가 아니라 조도 균형과 심미성을 동시에 만족해야 하는 복잡한 문제로 알려져 있다. 이러한 인지적 간극과 전문 지식의 부재로 인해, 일반 사용자는 직관에 의존하여 최적의 조명 환경을 구현하는 데 실패하기 쉽다. 전문가의 영역에서도 원하는 조명 효과를 역추적하는 ‘역조명(Inverse lighting)’ 과정은 반복적인 시행착오(Trial-and-error)를 요구하는 소모적인 작업으로 알려져 있다. 대표적으로 Schoeneman와 Sorger의 Inverse Lighting 연구에서는, 조명의 위치와 파라미터를 수동으로 조정하여 최적의 환경을 만드는 것은 전문가에게조차 '반복적이고 소모적인(Tedious and iterative)' 작업이며 일반인은 시행착오(Trial-and-error) 횟수가 훨씬 많거나, 최적해에 도달하지 못하고 포기할 가능성이 높다고 지적 하였다[4][5]. 따라서 기존의 경험 의존적 설계 방식은 비용 및 시간 효율성 측면에서 한계가 뚜렷하며, 데이터에 기반한 객관적이고 자동화된 가이드라인이 요구된다.

이를 극복하기 위해 딥러닝 기반의 자동화 연구가 활발히 진행되고 있다. 대표적으로 CLIP-Layout(Contrastive Language-Image Pre-training)은 텍스트와 3D 데이터를 활용하여 사용자 의도에 부합하는 공간 구성을 제안하였다[6]. 그러나 이러한 텍스트 기반 접근법은 입력 프롬프트의 모호성에 취약하며, 객체의 물리적 배치를 넘어선 조명의 광학적 효과나 미세한 위치 선정을 구현하는 데에는 기술적 제약이 따른다. 대부분의 기존 연구가 가구 배치 등 레이아웃 생성에 치중되어 있다는 점 또한 해결해야 할 과제이다. 따라서 본 연구는 StyleGAN(Style-based Generative Adversarial Network), SVM(Support Vector Machine), Grad-CAM (Gradient-weighted Class Activation Mapping), 그리고 Diffusion Model을 유기적으로 결합하여, 자동화된 조명 배치 추천 및 시각화 시스템을 제안한다. 본 시스템은 StyleGAN을 통해 공간의 시각적 특성을 학습하고, SVM을 이용하여 조명 속성과 연관된 잠재 공간(Latent space)의 경계를 탐색하였다. 이후 Grad-CAM을 통해 조명 후보 영역을 히트맵(Heatmap) 형태로 추출하고, Diffusion 기반의 Paint by Example 기법을 적용하여 해당 위치에 조명을 합성함으로써 실재감 있는 결과를 제공한다.

본 논문의 구성은 다음과 같다. 제2장에서는 제안 시스템의 기반이 되는 관련 연구 및 기술적 배경을 고찰한다. 제3장에서는 시스템의 아키텍처와 단계별 구현 방법론을 상세히 설명한다. 제4장에서는 정량적·정성적 실험을 통해 제안 방법의 유효성을 검증하고, 제5장에서는 연구의 결론과 향후 발전 방향을 논의한다.

Ⅱ. 관련 연구

2.1 GAN 모델 및 잠재 공간 분석

2014년 Goodfellow 등이 제안한 GAN(Generative Adversarial Network)은 생성자(Generator)와 판별자(Discriminator) 간의 적대적 학습(Adversarial training)을 통해 데이터 분포를 학습한다[7]. 초기 GAN 모델은 고정된 분포의 잠재 벡터(Latent vector)를 입력으로 사용하였으나[8], 이는 잠재 공간(Latent space) 내 특징들이 고도로 얽혀 있는(Entangled) 문제를 야기하여 특정 속성의 독립적 제어를 어렵게 하였다. 이를 개선한 StyleGAN은 Mapping Network를 통해 잠재 벡터를 비선형 변환하여 입력함으로써 특징 간 얽힘(Entanglement)을 완화하고, 각 해상도별 스타일 제어를 가능하게 하였다[5]. 더 나아가, 잠재 공간의 해석 가능성을 높이기 위해 SVM(Support Vector Machine)을 활용한 연구들이 수행되었다[9]. Yang 등은 잠재 공간 내에서 특정 의미적 속성(Semantic attribute)이 선형적으로 분리 가능하다(Linearly separable)는 점에 착안하여, SVM을 통해 속성 간의 결정 경계(Decision boundary)를 학습하고 이를 기반으로 이미지의 특정 속성을 정교하게 조작하는 방법론을 입증하였다[10].

2.2 CAM 및 시각적 설명 가능성

딥러닝 모델의 판단 근거를 시각화하는 CAM(Class Activation Mapping)은 CNN(Convolutional Neural Networks)의 마지막 특징 맵(Feature map)에 GAP(Global Average Pooling)를 적용하여 클래스별 활성화 영역을 도출한다[11]. 그러나 CAM은 GAP 레이어를 필수적으로 요구하므로, 네트워크 구조를 변경하거나 재학습해야 하는 범용성의 한계가 존재한다. 이에 반해 Grad-CAM은 모델 아키텍처의 변형 없이 기울기(Gradient) 기반으로 중요도를 산출하는 기법이다[12]. Grad-CAM은 역전파 과정에서 계산된 기울기를 가중치로 사용하여 특징 맵의 중요도를 결합함으로써, GAP 레이어의 부재와 상관없이 다양한 CNN 구조에서 시각적 설명(Visual Explanation)을 제공할 수 있다는 장점이 있다. 본 연구에서는 이를 활용하여 공간 내 조명 배치 후보 영역을 시각적으로 특정한다.

2.3 Diffusion 모델 및 참조 기반 이미지 합성

Diffusion 모델은 데이터에 노이즈를 주입하는 확산 과정(Forward process)과 이를 역으로 복원하는 역확산 과정(Reverse process)을 통해 데이터를 생성하는 확률적 생성 모델이다. 최근에는 텍스트 프롬프트나 참조 이미지를 조건으로 주어 생성 결과를 제어하는 연구가 활발히 진행되고 있다[13]. 특히 참조 이미지 기반(Example-guided) 방식은 텍스트보다 구체적인 시각 정보를 반영할 수 있으나, 원본 이미지와의 구조적 불일치나 과도한 스타일 반영이 문제로 지적되어 왔다. Paint-by-Example은 이러한 문제를 해결하기 위해 제안된 모델로, CLIP 기반의 의미적 특징 추출과 정보 병목 기법을 결합하여 참조 이미지의 과적합을 방지한다[14][15]. 또한 Classifier-Free Guidance와 데이터 증강 기법을 통해 원본 이미지의 구조를 보존하면서도 참조 이미지의 조명 및 질감 특성만을 선택적으로 합성하는 고성능의 인페인팅(Inpainting) 성능을 보여준다.

Ⅲ. 조명 배치 및 적용 시스템

제안하는 시스템은 크게 '조명 위치 추론'과 '조명 합성 및 효과 적용'의 두 단계로 구성된다. StyleGAN을 이용해 생성된 실내 이미지에서 조명 배치 후보 영역을 추출하고, 사용자가 선택한 조명 디자인을 Diffusion 기반의 Paint-by-Example 기법으로 합성한다. 이후 후처리 과정을 통해 조명의 광학적 효과를 시각화하여 현실감을 극대화한다. 전체 시스템의 개요는 그림 1과 같다.

Fig. 1.

Overall system architecture

3.1 데이터 수집 및 특징 맵 생성

최적의 조명 배치를 도출하기 위해 StyleGAN의 생성 과정에서 발생하는 특징 맵을 분석하였다. 본 연구에서는 다양한 조명 조건이 포함된 LSUN(Large-scale Scene Understanding) Bedroom 데이터셋(50,000장, 256×256 해상도)으로 학습된 StyleGAN 모델을 활용하였다[16][17]. StyleGAN은 잠재 공간의 벡터 단위로 이미지를 생성하므로, 벡터 조작을 통해 이미지의 특정 속성을 제어하거나 분석하는 것이 가능하다[10][18].

조명 속성의 학습 과정은 다음과 같은 단계로 구성된다. 먼저, 학습된 StyleGAN에서 잠재 벡터 $z ∈ R d$ 를 샘플링하고, 이를 통해 G(z) 형태로 총 50,000개의 실내 이미지를 생성한다. 다음으로, 사전 학습된 ResNet18(Residual Network) 기반 속성 분류기 $F ⋅$ 를 이용하여 각 생성 이미지 G(z_k)에 대해 조명 속성 점수 $s k ∈ 0,3$ 를 측정한다. 각 이미지에 대한 조명 속성 점수는 식 (1)과 같다:

s k = F G z k, for k = 1, …, 50,000

(1)

이후 상위 2,000개의 s_k값을 가지는 이미지를 Positive 샘플, 하위 2,000개를 Negative 샘플로 정의하여 학습 데이터를 구성한다. 각 z_k는 조명 강도 s_k에 따라 이진 라벨 $y k ∈ 0,1$ 을 부여받는다.

이렇게 구축된 데이터셋 $z k, y k k = 1 4000$ 을 기반으로 선형 SVM을 학습하여, 잠재공간 상에서 조명 속성의 유무를 구분할 수 있는 결정 경계 $w ⊤ z + b = 0$ 를 도출한다. 학습된 결정 경계는 식(2)와 같다.

L z = w ⊤ z + b = ∑ i = 1 d w i z i + b

(2)

여기서 $w ∈ R d$ 는 각 잠재 벡터 요소의 가중치이며, L(z)는 조명 속성 점수를 나타낸다. 학습된 경계 w를 기반으로 조명 속성을 조작하기 위해, 기존 벡터 z를 식 (3)과 같이 이동시킨다.

z ′ = z + λ w

(3)

여기서 $λ ∈ R$ 는 이동 강도를 조절하는 하이퍼파라미터로, 조명의 강도를 강조하려면 λ > 0, 감소시키려면 λ < 0으로 설정한다. 조명의 특성을 극대화하기 위해 데이터 분포내 최대 거리 λ = 3으로 설정하여 Positive 및 Negative 방향으로 각각 최대 이동한 벡터 $z max +, z max -$ 를 생성하고, 식 (4)을 통해 조명 특성이 극대화된 이미지를 얻는다.

G z max + = G z ± 3 w

(4)

이 과정을 통해 잠재공간 상에서 조명 강도를 의도적으로 조절한 이미지를 생성할 수 있으며, 조명 특성 조작의 유효성을 실험적으로 확인하였다.

그림 2는 조명 속성의 조작을 통해 생성된 이미지들의 일부 결과이다. 좌측 열은 잠재공간 내 벡터를 negative 방향으로, 우측 열은 positive 방향으로 조작된 결과이다. 전반적인 공간 구조는 유지되나, GAN 특유의 속성 얽힘(Entanglement) 현상으로 인해 조명 외의 요소(침구 색상, 창문 형태 등)가 의도치 않게 변형되는 한계가 관찰된다. 구체적으로 그림 2(a)의 경우 조명의 형태는 비교적 온전하게 생성되었으나, 침대 프레임의 색상이나 액자 내 그림 형태 등 이외의 요소들에서 추가적인 변형이 발생하였다. 그림 2의 (b)침구 색상 및 창문 형태, (c)침구 및 문 색상에서는 조명의 형태가 완전하지 않은 상태로 생성되었으며, 조명을 제외한 인테리어 요소에 추가적인 변형이 이루어진 것을 확인할 수 있다. 따라서 단순한 이미지 픽셀 차이(Pixel-wise difference)만으로는 조명 위치를 정확히 특정하기 어렵다.

Fig. 2.

Examples of lighting attribute manipulation

이에 따라 본 연구에서는 이미지 자체가 아닌, 생성 과정의 내부 표현인 특징 맵에 Grad-CAM[19]을 적용하여 조명 속성을 추출하는 기법을 고안하였다. Grad-CAM은 분류 모델에서 특정 클래스에 대한 모델의 주의 영역을 시각화하는 데 주로 활용되며, 각 특징 맵 A^k에 대해 식 (5)에 의해 가중치 $α k c$ 를 계산한다.

α k c = 1 Z ∑ i ∑ j ∂ y c ∂ A i j k

(5)

이후 식 (6)에 의해 가중치를 각 특징 맵에 선형 결합하고, ReLU 함수를 적용하여 Grad-CAM 히트맵을 생성한다.

L G r a d - C A M c = ReLU ∑ k α k c A k

(6)

3.2 조명 히트맵(Heatmap) 생성

StyleGAN은 분류모델과 달리 명시적인 클래스 레이블이 존재하지 않으므로, 위 방식은 직접적으로 적용되기 어렵다. 따라서 조명 속성의 조작에 따라 발생하는 모델 내부의 변화 양상을 하나의 ‘가상 클래스’로 정의하고, 해당 변화에 대한 주의 영역을 Grad-CAM 결과의 차이를 통해 추출하였다. 먼저, 조명 특성이 극대화된 방향의 latent vector를 z_pos, 최소화된 방향의 vector를 z_neg로 정의하고, 이 두 벡터를 각각 StyleGAN의 generator에 입력하여 두 개의 이미지를 생성한다. 이후 각 이미지의 생성 과정에서 layer l에 해당하는 특징 맵을 추출하고 Grad-CAM을 적용하여 layer별 히트맵을 식 (7)과 같이 정의한다.

H p o s l = GradCAM z p o s, l, H n c g l = GradCAM z n e g, l

(7)

식 (8)에 의해 두 히트맵 간의 차이를 절댓값으로 계산하고 이를 레이어별로 누적하여 통합 히트맵ΔH늘 얻는다:

Δ H x, y = ∑ l = 1 L H p o s l x, y - H n e g l x, y

(8)

이를 통해 조명 변화에 반응하는 핵심 영역을 효과적으로 시각화할 수 있다. 히트맵 ΔH는 이후 클러스터링 기반의 조명 배치 위치 추출의 기초 데이터로 활용된다. 조명 특성을 추출하는 과정은 그림 3과 같다.

Fig. 3.

Lighting feature extraction process

3.3 조명 위치 선정

누적 히트맵 ΔH(x,y)를 기반으로, 최종 조명 배치 위치를 결정하기 위해 밀도 기반 클러스터링 기법인 DBSCAN(Density-Based Spatial Clustering of Applications with Noise)을 적용하였다. DBSCAN은 반경 ε내에 min_samples 이상의 데이터 포인트가 존재하는 경우 해당 지점을 중심으로 클러스터를 형성하며, 밀집도가 낮은 포인트는 노이즈로 간주한다[20].

먼저, 식 (9)를 이용하여 히트맵 ΔH(x,y)에서 정규화된 값이 임계값 θ = 0.5 이상이고 강도가 상위 50% 이상인 지점만을 후보 P로 선정하였다.

P = x, y Δ H x, y ≥ θ

(9)

이후, 후보군 P에 대해 식 (10)의 DBSCAN 알고리즘을 적용함으로써, 조명에 민감하게 반응하는 공간 영역들을 여러 개의 클러스터를 형성한다. 이 과정에서 사용된 DBSCAN의 주요 파라미터 이웃거리 ε = 4, 최소 샘플 수(minsamples)=40을 적용하였다.

D B S C A N P, ϵ, min s a m p l e s

(10)

클러스터링 결과로 도출된 K개의 클러스터 $C 1, C 2, …, C k$ 에 대해, 각 클러스터의 조명 반응 강도를 정량화하기 위해 해당 클러스터에 포함된 위치들의 누적 히트맵 값을 평균하여 중요도 S_k를 식 (11)과 같이 계산한다.

S k = 1 C k ∑ x i, y i ∈ C k Δ H x i, y i

(11)

여기서 |C_k|는 클러스터 C_k에 속한 좌표의 개수이며, ΔH(x_i,y_i)는 해당 위치의 누적 히트맵 강도이다. 그림 4와 같이, 각 클러스터의 중요도 S_k는 조명에 민감하게 반응한 정도를 나타내는 값으로, 상위 3개 클러스터의 중심점을 최종 조명 배치 위치로 선정하였다.

Fig. 4.

Visualization of lighting placement candidate regions

3.4 조명 합성(Lighting synthesis)

선정된 위치에 사용자가 선택한 조명을 합성하기 위해 Exemplar-guided Diffusion 모델인 Paint-by-Example[21]을 활용하였다. 합성 과정은 크게 세 단계로 이루어진다. 첫째, 식 (12)와 같이, 조명 이미지 x_r는 CLIP 이미지 인코더를 통해 의미적 특징을 추출하고, 다층 퍼셉트론(MLP)을 통해 조건 벡터 c로 압축된다. 벡터는 이후 diffusion 모델의 조건으로 사용된다:

c = MLP CLIP x r

(12)

둘째, diffusion 모델은 원본 이미지 x_s의 마스크 외 영역인 $m - ⊙ x s$ 와 조건 벡터 c, 마스크 m을 입력받아, 마스크 영역에 자연스럽게 삽입된 최종 이미지 y를 생성한다. 이때, 마스크 내부는 참조 이미지의 스타일을 반영하고, 외부는 원본 이미지를 최대한 유지하는 방향으로 합성이 이루어진다.

셋째, 참조 이미지의 스타일 반영 강도는 식 (13) Classifier-Free Guidance 기법을 통해 조절된다. 이 기법은 조건 없는 예측과 조건 기반 예측을 보간하는 방식으로, 사용자로부터 설정된 scale 파라미터 s에 따라 참조 이미지의 반영 강도를 조절한다.

ϵ ~ θ y t, c = ϵ θ y t, ∅ + s ⋅ ϵ θ y t, c - ϵ θ y t, ∅

(13)

ϵ_θ(y_t,∅)는 조건 없이 예측된 노이즈이고, $ϵ ~ θ y t, c$ 는 guidance가 적용된 최종 예측값이다. scale 값 s가 클수록, 참조 이미지 x_r의 색상 질감, 형태 등, 시각적 특성이 결과 이미지에 더 강하게 반영된다. 그림 5는 스케일 값(5, 7, 15)에 따른 합성 결과를 보여주며, 값이 클수록 참조 이미지의 특성이 강하게 반영됨을 확인할 수 있다.

Fig. 5.

Comparison of lighting synthesis results according to classifier-free guidance scale values

3.5 조명 효과 적용(Lighting effect)

합성된 조명의 사실적인 발광 효과를 구현하기 위해 4단계(밝기 기반 마스크, SSIM(Structural Similarity Index)기반 마스크, 보정 및 결합, 확산 효과)의 마스크 생성 과정을 거친다.

첫 번째, 밝기 기반 마스크 단계에서는 조명 합성 전후의 각 이미지에 대해 픽셀 밝기를 계산하고, 사전에 정의한 임계값을 초과하는 영역을 기준으로 초기 마스크를 생성한다.

두 번째, SSIM기반 마스크 단계에서는 구조적 변화를 감지하기 위해 SSIM을 활용한다. SSIM은 두 영상 간의 밝기(Luminance), 대비(Contrast), 구조(Structure) 정보를 동시에 고려하여 시각적 유사도를 정량적으로 평가하는 방식으로, 합성 전 이미지 x와 합성 후 이미지 y간의 SSIM은 식 (14)와 같다.

S S I M x, y = l x, y α ⋅ c x, y β ⋅ s x, y γ

(14)

여기서 l, c, s는 각각 밝기, 대비, 구조 비교 함수(식 (15), 식 (16), 식 (17))이며 α,β,γ는 각 항의 중요도를 조절하는 계수를 의미한다. 식 (15)에서 μ_x,μ_y는 각 이미지의 지역 평균값, σ_x,σ_y는 표준편차, σ_xy는 공분산, C₁,C₂,C₃는 분모의 0 나눗셈 방지를 위한 양의 상수 값을 의미한다.

l x, y = 2 μ x μ y + C 1 μ x 2 + μ y 2 + C 1

(15)

c x, y = 2 σ x σ y + C 2 σ x 2 + σ y 2 + C 2

(16)

s x, y = σ x y + C 3 σ x σ y + C 3

(17)

SSIM 값은 [-1, 1]범위를 가지며, 1에 가까울수록 두 이미지가 구조적으로 유사함을 의미한다. 본 연구에서는 SSIM 값이 임계값 이하로 낮아진 영역을 조명에 의해 구조적 변화가 발생한 영역으로 설정하여 마스크를 생성하였다. 이때 임계값의 설정은 Otsu 알고리즘을 사용하였다.

세 번째, 보정 및 결합 단계에서는 SSIM 마스크의 경계 불연속성을 보완하기 위해 BFS(Breadth-First Search) 기반 영역 채우기(Flood-fill) 알고리즘을 적용하고, 밝기 기반 마스크와의 교집합을 통해 최종 마스크를 생성한다.

마지막, 확산 효과 단계에서는 밝기 기반 마스크와 SSIM 기반 마스크의 교집합을 계산하여, 최종 조명 영역 마스크를 생성한다. 이 과정을 통해 과도하게 포함된 영역을 제거하고, 누락된 영역은 보완함으로써 실제 조명의 영역을 보다 정확하게 반영할 수 있도록 하였다. 과정별 결과는 그림 6을 통해 확인할 수 있으며, (a)는 대상 이미지 (b) ~ (e)는 각 단계별 결과를 나타낸다.

Fig. 6.

Mask generation process for lighting effect

조명이 공간상에서 퍼지는 확산 효과를 자연스럽게 재현하기 위해 최종 마스크에 Gaussian Blur를 적용하여 빛의 자연스러운 확산을 표현하고 조명 밝기와 색온도를 조정하여 최종 결과를 완성한다. 이를 통해 단순한 형태 합성뿐만 아니라 광학적 속성까지 반영된 조명 효과를 구현하였다. 조명 효과를 적용한 최종 이미지는 그림 7과 같다. 사용자가 밝기(Brightness) 인터페이스의 슬라이더(0~100)를 조절하면, 이는 HSV(Hue, Saturation, Value) 색 공간에서의 명도(Value) 및 RGB 채널 비율 수치로 변환되어, 마스크 영역 내 픽셀값에 가중 연산된다. Color Temperature 인터페이스는 확산 범위을 조절하는 슬라이더로 입력값은 Gaussian Blur 함수의 커널 크기 σ 파라미터로 매핑되어 빛의 퍼짐 정도를 조절할 수 있다.

Fig. 7.

Lighting effect application and adjustment

IV. 실험 결과

4.1 실험 환경 및 데이터셋

본 연구에서 제안하는 조명 배치 시스템의 실효성을 입증하기 위해, 실제 조명 위치 정보(Ground truth)를 기반으로 한 정량적 비교 실험을 수행하였다. 본 실험의 주된 목적은 제안 시스템이 도출한 조명 후보 영역이 실제 조명 위치와 얼마나 일치하는지를 평가함으로써, 조명 정보가 부재한 공간에서도 신뢰할 수 있는 배치 위치를 추론할 수 있음을 검증하는 데 있다.

비교 실험을 위해 StyleGAN으로 생성된 침실 이미지 중 조명의 존재가 명확한 100장을 선별하고, 각 이미지 내 실제 조명 위치에 대해 수작업으로 바운딩 박스를 라벨링하여 실제 조명 위치 정보를 구축하였다. 비교군으로는 SVM 라벨링에 활용된 ResNet18 모델 기반의 CAM 기법들(Grad-CAM, Grad-CAM++, KPCA-CAM)을 선정하였다.

4.2 정량적 성능 평가 및 비교

실험 절차는 다음과 같다. 동일한 입력 이미지에 대해 본 연구의 시스템과 기존 CAM 기법들을 각각 적용하여 조명 후보 영역을 추출한다. 제안 시스템은 클러스터링 결과를 바탕으로 최대 3개의 바운딩 박스를 생성하며, 비교군인 CAM 기법들은 활성 맵(Activation Map)의 상위 30% 영역을 이진화한 뒤 동일하게 최대 3개의 바운딩 박스를 추출하여 비교하였다. 그림8은 추출된 바운딩 박스 결과이다. 그림 8(a)는 제안한 시스템이며 그림 8(b)(c)(d)는 기존 CAM 기법들의 결과이다.

Fig. 8.

Bounding box results of each method

제안 방법과 기존 기법 간의 성능 비교를 위해 GIoU(Generalized Intersection over Union)와 Center Similarity 두 가지 지표를 도입하였다.

GIoU는 두 바운딩 박스 간의 겹침 정도를 평가하는 지표로, 겹치지 않는 경우에도 두 박스를 포함하는 최소 외접 사각형을 고려하여 거리에 따른 페널티를 부여한다. 값의 범위는 -1에서 1 사이이며, 1에 가까울수록 일치도가 높음을 의미한다.

Center Similarity는 두 영역의 중심점 간 유클리드 거리(Euclidean Distance)를 이미지 대각선 길이로 정규화하여 0~1 사이의 값으로 변환한 지표이다. GIoU가 면적의 겹침을 중시한다면, Center Similarity는 위치의 정확성을 보완적으로 평가하기 위해 사용되었다.

표 1은 각 기법에서 추출된 상위 3개의 후보 영역 중 실제 조명 위치와 가장 유사한 경우(Top)와 가장 유사하지 않은 경우(Worst)의 평균 점수를 나타낸다. 제안하는 시스템은 Top 기준 평균 0.46을 기록하여, 기존 CAM 기법들(0.03~0.05) 대비 약 9~15배 높은 성능을 보였다. 이는 제안 방법이 실제 조명 영역을 훨씬 더 정밀하게 타겟팅함을 시사한다.

Table 1.

Comparison of lighting placement accuracy

Worst 점수의 해석에 있어서는 주의가 필요하다. Worst는 예측에 실패한 경우가 아니라, 실제 조명 위치와 일치하지 않는 나머지 후보 박스들의 GIoU 값을 의미한다. 이미지 내에 두 개의 ground truth 박스가 존재하고 제안 시스템이 두 위치를 모두 정확히 예측한 경우를 가정하면, Top은 1.0에 근접하는 반면 Worst는 두 박스가 서로 겹치지 않으므로 0 이하의 값을 기록하게 된다. 즉, Top과 Worst 간의 편차가 클수록 각 후보 박스가 서로 다른 위치를 명확히 구분하여 예측하고 있음을 의미하며, 이는 시스템의 예측이 정밀하게 국소화되어 있음을 나타낸다. 반면 기존 CAM 기법들은 활성화 영역이 상대적으로 넓게 분포하는 경향이 있어, 실제 위치와 일치하지 않는 경우에도 일부 영역이 포함되면서 GIoU 값의 감소가 비교적 완만하게 나타나는 특성을 보였다. 따라서 본 시스템의 Worst GIoU -0.57은 성능 저하가 아닌, 예측의 정밀성과 후보 간 명확한 위치 분리를 나타내는 지표로 해석될 수 있으며, 별도의 임계값 조정이나 후처리 없이도 신뢰도 높은 예측이 가능함을 의미한다.

위치 정확도를 나타내는 Center Similarity에서도 제안 시스템은 Top 기준 0.97을 달성하여, 기존 기법 대비 25% 이상 향상된 성능을 보였다. 이는 추출된 후보 영역의 중심이 실제 조명의 중심과 거의 일치함을 의미한다. Worst의 경우 본 연구의 방식은 기존 CAM 기법들이 Top 대비 10% 이하의 감소폭을 보인 것과 달리 약 30%의 감소폭을 보였는데, 이는 GIoU 결과와 마찬가지로 실제 조명 위치와 일치하지 않는 후보 박스의 경우 중심 위치 역시 함께 이탈하면서 유사도가 명확히 감소하는 특성에 기인하며, 이 역시 예측의 국소적 정밀성을 방증한다.

기법 간 비교를 통해, 본 연구의 방식은 기존 CAM 기법들 대비 실제 조명 위치를 보다 효과적으로 특정하고 있음을 확인할 수 있다.

4.3 정성적 분석(시각적 비교)

두 지표 간 수치 차이의 원인을 정량적 결과만으로 충분히 설명하기에는 한계가 있다. 이에 따라 정량적 수치만으로는 설명하기 어려운 각 기법의 활성화 특성을 분석하기 위해, 추출된 바운딩 박스를 시각화하여 비교하였다. 그림 9는 제안한 시스템과 기존 CAM 기법들에서 추출된 바운딩 박스를 원본 이미지 위에 시각적으로 비교한 결과이다. 각 기법에서 강조한 영역을 시각적으로 비교하기 위하여 제안한 시스템은 노란색, Grad-CAM은 파란색, Grad-CAM++는 초록색, KPCA-CAM은 분홍색을 나타내었다. 시각적 비교 분석 결과, 다음과 같은 세 가지의 주요 차별점이 확인되었다.

Fig. 9.

Visual comparison analysis with existing methods

첫째, 활성화 범위의 정밀성에서 차이를 보였다. 그림 9(a)와 같이 기존 CAM 기법들은 조명 자체뿐만 아니라 빛이 반사된 주변 벽면이나 가구까지 광범위하게 활성화하는 경향을 보였다. 반면, 제안 시스템은 광원의 위치만을 국소적으로 정확하게 탐지하였다.

둘째, 다양한 조명 형태에 대한 강건성을 보였다. 그림 9(b)에서 기존 CAM기법들이 주로 스탠드와 같이 형체가 뚜렷한 조명에 주로 반응하였으나, 제안 시스템은 천장 매립등이나 간접 조명과 같이 형태가 불분명한 광원까지 효과적으로 검출하였다.

셋째, 조명 상태에 대한 독립성에서 차이를 보였다. 그림 9(c)와 같이 조명이 꺼져 있는 상태에서도 제안 시스템은 해당 객체가 조명임을 인지하고 위치를 활성화한 반면, 기존 기법들은 점등되지 않은 조명에 대해서는 반응이 미미하거나 탐지하지 못하였다.

이러한 결과를 종합했을 때, 본 연구의 시스템은 기존 CAM 기법 대비 조명의 위치를 정밀하게 특정할 뿐만 아니라, 조명의 형태나 점등 상태와 무관하게 일관된 탐지 성능을 보임으로써 조명 배치 자동화에 있어 우수한 신뢰성을 입증하였다.

V. 결론 및 향후 과제

본 연구는 전문가의 직관이나 반복적인 수동 시뮬레이션에 의존했던 기존 조명 설계 방식의 비효율성을 개선하기 위해, StyleGAN과 Diffusion 모델을 결합한 데이터 기반의 자동화된 조명 설계 시스템을 제안하였다. 개발된 시스템은 인테리어 이미지로부터 공간 특성을 분석하여 최적의 조명 위치를 추천하고, 이를 시각적으로 시뮬레이션함으로써 설계 프로세스의 신뢰성과 효율성을 크게 향상시켰다.

특히, StyleGAN의 잠재 공간 내에서 조명 속성을 제어하고 Grad-CAM을 통해 이를 시각화한 본 연구의 접근 방식은, 기존에 분류 모델에 주로 한정되었던 CAM 기법이 생성형 모델의 내부 해석에도 효과적으로 적용될 수 있음을 입증하였다. 이는 GAN과 같은 생성형 모델이 내재적으로 학습한 다양한 의미적 속성들을 해석하고 활용할 수 있는 새로운 가능성을 제시했다는 점에서 중요한 학술적 의의를 지닌다.

결론적으로, 본 연구는 인공지능 기반의 조명 설계 자동화 기술의 실효성을 입증하였으며, 향후 다양한 공간 디자인 분야에 적용 가능한 기술적 기반을 확립하였다. 이는 전문적인 설계 지식이 없는 사용자에게도 접근성 높은 설계 솔루션을 제공한다는 측면에서 산업적 활용 가치가 높을 것으로 기대된다.

본 연구의 한계점인 Worst Case의 낮은 GIoU 성능을 개선하기 위해, 향후 연구에서는 Grad-CAM 히트맵의 클러스터 응집도(Density)를 기반으로 한 신뢰도 점수(Confidence score)를 도입할 예정이다. 이를 통해 신뢰도가 낮은 불안정한 후보군을 사전에 필터링하거나 사용자에게 경고를 제공하는 후처리 기법을 도입함으로써 시스템의 신뢰도를 보완할 예정이다. 또한 적용 대상을 침실 외의 다양한 상업 및 주거 공간으로 확대하여 시스템의 범용성과 모델의 일반화 성능을 높일 계획이다. 아울러, 사용자 피드백(Human-in-the-loop)을 반영한 개인화 추천 알고리즘 및 객체 인식 기반의 정교한 마스킹 기법을 적용하여 시스템의 실용성과 사용자 경험을 지속적으로 고도화할 예정이다.

Acknowledgments

본 연구성과물은 2023년도 정부(교육부)의 재원으로 한국연구재단의 지원을 받아 수행된 기초연구사업임(No. RS-2023-00246191)

모든 저자들은 이 연구에 동등하게 기여하였음을 밝히는 바입니다.

References

Expert Market Research, "Lighting Market Size, Share, Growth and Analysis, Industry Trends | 2032", Aug. 2024. https://www.openpr.com/news/3616133/lighting-market-size-share-growth-and-analysis-industry, . [accessed: Oct. 15, 2025]
P. R. Boyce, Human Factors in Lighting (3rd edition), CRC Press, FL, 2014. [https://doi.org/10.1201/b16707]
N. Cross, "Expertise in design: an overview", Design Studies, Vol. 25, No. 5, pp. 427-441, Sep. 2004. [https://doi.org/10.1016/j.destud.2004.06.002]
C. Schoeneman, J. Dorsey, B. Smits, J. Arvo, and D. Greenberg, "Painting with light", Proc. of the 20th annual conference on Computer graphics and interactive techniques (SIGGRAPH '93), Association for Computing Machinery, New York, USA, pp. 143-146, Aug. 1993. [https://doi.org/10.1145/166117.166135]
J. Sorger, T. Ortner, C. Luksch, M. Schwärzler, E. Gröller, and H. Piringer, "LiteVis: Integrated Visualization for Simulation-Based Decision Support in Lighting Design", IEEE Transactions on Visualization and Computer Graphics, Vol. 22, No. 1, pp. 290-299, Jan. 2016. [https://doi.org/10.1109/TVCG.2015.2468011]
J. Liu, W. Xiong, I. Jones, Y. Nie, A. Gupta, and B. Ouguz. "CLIP-Layout: Style-Consistent Indoor Scene Synthesis with Semantic Furniture Embedding", arXiv:2303.03565, , pp. 1-17, Mar. 2023. [https://doi.org/10.48550/arXiv.2303.03565]
I. J. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, A. Courville, and Y. Bengio, "Generative Adversarial Nets", Advances in Neural Information Processing Systems 27 (NIPS 2014), Montreal, Canada, pp. 2672-2680, Dec. 2014. [https://doi.org/10.48550/arXiv.1406.2661]
Y. Shen, C. Yang, X. Tang, and B. Zhou, "InterFaceGAN: Interpreting the Disentangled Face Representation Learned by GANs", IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 44, No. 4, pp. 2004-2018, Apr. 2022. [https://doi.org/10.1109/TPAMI.2020.3034267]
S. Koda, A. Zeggada, F. Melgani, and R. Nishii, "Spatial and Structured SVM for Multilabel Image Classification", IEEE Transactions on Geoscience and Remote Sensing, Vol. 56, No. 10, pp. 5948-5960, Oct. 2018. [https://doi.org/10.1109/TGRS.2018.2828862]
C. Yang, Y. Shen, and B. Zhou, "Semantic Hierarchy Emerges in Deep Generative Representations for Scene Synthesis", arXiv:1911.09267, , pp. 1-15, Nov 2019. [https://doi.org/10.48550/arXiv.1911.09267]
R. Yang, X. Xu, Z. Xu, C. Ding, and F. Pu, "A Class Activation Mapping Guided Adversarial Training Method for Land-Use Classification and Object Detection", IGARSS 2019 - 2019 IEEE International Geoscience and Remote Sensing Symposium, Yokohama, Japan, pp. 9474-9477, Jul.-Aug. 2019. [https://doi.org/10.1109/IGARSS.2019.8897938]
R. R. Selvaraju, M. Cogswell, A. Das, R. Vedantam, D. Parikh, and D. Batra, "Grad-CAM: Visual Explanations from Deep Networks via Gradient-Based Localization", 2017 IEEE/CVF International Conference on Computer Vision (ICCV), Venice, Italy, pp. 618-626, Oct. 2017. [https://doi.org/10.1109/ICCV.2017.74]
Z. Huang, K. Wang, Y. Xiao, and Z. Xiang, "Research and Application of LSTM Model and Diffusion Model", 2024 IEEE 2nd International Conference on Sensors, Electronics and Computer Engineering (ICSECE), Jinzhou, China, pp. 875-878, Aug. 2024. [https://doi.org/10.1109/ICSECE61636.2024.10729552]
B. Yang, et al., "Paint by Example: Exemplar-based Image Editing with Diffusion Models", 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Vancouver, BC, Canada, pp. 18381-18391, Jun. 2023. [https://doi.org/10.1109/CVPR52729.2023.01763]
G. B. Mohan, R. Harigaran, P. S. Varshan, R. Srimani, R. P. Kumar, and R. Elakkiya, "Image Caption Generation using Contrastive Language Image Pretraining", 2024 15th International Conference on Computing Communication and Networking Technologies (ICCCNT), Kamand, India, pp. 1-5, Jun. 2024. [https://doi.org/10.1109/ICCCNT61001.2024.10725907]
T. Karras, S. Laine, and T. Aila, "A Style-Based Generator Architecture for Generative Adversarial Networks", 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Long Beach, CA, USA, pp. 4401-4410, Jun. 2019. [https://doi.org/10.1109/CVPR.2019.00453]
F. Yu, A. Seff, Y. Zhang, S. Song, T. Funkhouser, and J. Xiao, "LSUN: Construction of a Large-scale Image Dataset using Deep Learning with Humans in the Loop", arXiv:1506.03365, , pp. 1-9, Jun. 2015. [https://doi.org/10.48550/arXiv.1506.03365]
E. Härkönen, A. Hertzmann, J. Lehtinen, and S. Paris, "GANSpace: Discovering Interpretable GAN Controls", arXiv:2004.02546, , pp. 1-19, Apr. 2020. [https://doi.org/10.48550/arXiv.2004.02546]
C. M. Tsai and J.-D. Lee, "Grad-CAM Visualization and Ensemble Learning for Improved Gastrointestinal Disease Classification Using CNNs", 2024 IEEE 13th Global Conference on Consumer Electronics (GCCE), Kitakyushu, Japan, pp. 971-972, Oct.-Nov. 2024. [https://doi.org/10.1109/GCCE62371.2024.10760260]
D. Deng, "DBSCAN Clustering Algorithm Based on Density", 2020 7th International Forum on Electrical Engineering and Automation (IFEEA), Hefei, China, pp. 949-953, Sep. 2020. [https://doi.org/10.1109/IFEEA51475.2020.00199]
B. Yang, S. Gu, B. Zhang, T. Zhang, X. Chen, X. Sun, D. Chen, and F. Wen, "Paint by Example: Exemplar-based Image Editing with Diffusion Models", arXiv:2211.13227, , pp. 1-15, Nov. 2022. [https://doi.org/10.48550/arXiv.2211.13227]