[ Article ]

The Journal of Korean Institute of Information Technology - Vol. 24, No. 4, pp.85-93

ISSN: 1598-8619 (Print) 2093-7571 (Online)

Print publication date 30 Apr 2026

Received 06 Mar 2026 Revised 18 Mar 2026 Accepted 21 Mar 2026

DOI: https://doi.org/10.14801/jkiit.2026.24.4.85

로봇 작업 셀 내 전역 물리 환경 인지를 통한 VLA 전략 선택 프레임워크

최윤서^*

; 주은정^**

; 이정화^**

; 유철중^**

; 류덕산^*

*전북대학교 소프트웨어공학과
**㈜미라클에이지아이
*전북대학교 소프트웨어공학과(교신저자)

A VLA Strategy Selection Framework via Global Physical Environment Awareness in Robot Workcells

Yunseo Choi^*

; Eunjeong Ju^**

; Jeonghwa Lee^**

; CheolJung Yoo^**

; Duksan Ryu^*

Correspondence to: Duksan Ryu Dept. of Software Engineering, Jeonbuk National University, jeonju, Korea Tel.: +82-63-270-4805, Email: duksan.ryu@jbnu.ac.kr

초록

최근 VLA(Vision-Language-Action) 모델은 로봇 조작에서 행동 생성을 중심으로 발전해 왔으나, 실제 산업 현장에서는 행동 생성 이전에 전역 물리 환경 해석을 통한 계층적 의사결정이 필수적이다. 본 연구는 VLA 모델을 물리 환경 인지를 통한 고수준 전략 선택기로 활용하는 프레임워크를 제안하고 그 가능성을 분석한다. 이를 위해 시뮬레이션 기반의 Normal, Cautious, Defensive 전략 선택 시나리오를 구성하여 두 가지 규칙 기반 시스템과 성능을 비교하였다. 실험 결과, 단일 객체 환경에서는 유사했으나 다중 객체 환경에서 제안 모델은 완벽한 분류 성능을 달성했다. 반면 규칙 기반 시스템은 위험 과소평가 및 과잉 방어의 한계를 보였다. 이는 VLA 모델이 물리 맥락을 통합 해석하여 전략적 의사결정을 수행할 수 있음을 입증하며, Physical AI의 활용 범위를 전략 판단 단계로 확장할 가능성을 제시한다.

Abstract

While Vision-Language-Action (VLA) models have primarily focused on low-level robot control, industrial applications necessitate hierarchical decision-making based on global physical context. This study proposes a framework utilizing VLA models as high-level strategic selectors and evaluates its efficacy. We compared the proposed model with two rule-based systems across simulation scenarios involving normal, cautious, and defensive strategies. In single-object environments, both approaches performed similarly; however, in multi-object settings, the VLA-based model achieved perfect classification, whereas rule-based systems exhibited risk underestimation or over-defense. These findings demonstrate that VLA models can effectively integrate physical contexts for strategic decision-making, extending the scope of physical AI from action generation to high-level tactical judgment.

Keywords:

VLA, physical AI, hierarchical decision making, strategy selection, global physical context

Ⅰ. 서 론

최근 로봇 조작 기술은 VLA 모델의 발전과 함께 물리 환경에서의 지능적 작업 수행을 목표로 빠르게 발전하고 있다. 대규모 사전학습 모델을 기반으로 VLA 연구는 이미지와 자연어 정보를 입력으로 받아 연속적인 로봇 행동을 생성함으로써, 복잡한 조작 작업을 end-to-end 방식으로 수행할 수 있는 가능성을 제시하였다. 특히 산업 자동화, 협동 로봇, 스마트 물류 분야에서는 다양한 작업에 유연하게 대응할 수 있는 범용적 조작 능력이 중요해지고 있다[1].

그러나 기존 VLA 연구는 주로 입력받은 정보를 통해 저수준 연속 제어 명령을 생성하는 행동 중심 구조에 초점을 두어 왔다[2]. 이러한 접근은 개별 작업 수행에는 효과적이지만, 안전과 효율을 동시에 고려해야 하는 복합적인 운용 환경에서 요구되는 상위 수준의 전략 판단 문제는 제한적으로 다루고 있다는 한계가 있다. 이러한 환경에서 전통적인 규칙 기반(Rule-based) 제어 방식은 조건이 늘어날수록 설계 복잡도가 기하급수적으로 증가하며, 새로운 환경에 대한 일반화 능력이 제한되는 문제가 있다[3]. 따라서 전역 물리 환경 정보를 통합적으로 해석하고, 상황에 적합한 조작 전략을 선택할 수 있는 지능형 의사결정 구조가 필요하다.

이에 본 연구에서는 VLA 모델을 저수준 행동 생성기가 아닌 전략 선택기로 활용하는 Physical AI 프레임워크를 제안한다. 제안 프레임워크는 작업 셀의 전역 물리 환경 정보를 입력으로 받아 최적의 전략을 선택하는 구조로 설계된다. 이를 위해 시뮬레이션 환경에서 다양한 전역 시나리오를 구현하여 산업 환경의 물리 요소를 반영한 상황을 구성하고, 전략 선택 능력을 정량적으로 평가한다. 이를 통해 작업 셀 환경에서 안전성과 상황 적응성을 고려한 프레임워크의 유효성을 확인하고자 한다.

본 연구의 주요 기여는 다음과 같다.

첫째, 기존 VLA 기반 로봇 제어 연구가 저수준 행동 생성에 초점을 두었던 것과 달리, 고수준 의사결정 관점에서의 VLA 적용 가능성을 분석하였다.

둘째, 전역 물리 환경 요소를 반영한 전략 선택 시나리오를 설계하고, 위험 상황 인지 성능과 과잉 방어 경향을 함께 분석함으로써 전략 수준 의사결정을 정량적으로 평가하였다.

Ⅱ. 관련 연구

2.1 규칙 기반 로봇 제어

로봇 제어 분야에서 규칙 기반 접근은 산업 자동화 및 안전 제어 환경에서 널리 활용되어온 전통적인 의사결정 방식이다. 대표적으로 FSM(Finite State Machine)과 BT(Behavior Tree) 기반 구조가 사용된다. FSM은 로봇 동작을 상태(State)와 상태 전이(Transition)로 구성하여 조건 충족 시 사전에 정의된 행동을 수행하며, Behavior Tree는 작업을 계층적 모듈로 분해하여 실행 흐름을 관리한다. 이러한 방식은 명확한 논리 구조와 높은 해석 가능성을 제공하여 산업 로봇 및 협업 로봇 환경에서 안정적인 동작을 보장한다[4].

특히 사람-로봇 협업 환경에서는 동적으로 전환되는 안전 구역을 기반으로 로봇의 속도를 조절하는 SSM(Speed and Separation Monitoring)과 같은 규칙 기반 안전 제어 방식이 활용되고 있다[5]. 이러한 접근은 안전 요구사항을 명시적으로 이행할 수 있으나, 사전에 정의된 조건과 상태에 의존하기 때문에 환경 변수와 객체 수가 증가할수록 설계 복잡도가 증가하고 확장성이 제한되는 한계가 있다.

2.2 Vision-Language-Action 기반 로봇 제어

최근에는 시각 정보와 자연어 지시를 통합하여 로봇의 행동을 생성하는 VLA 기반 연구가 활발히 진행되고 있다. M. Shridhar et al.[6]은 3D 공간 표현 기반 조작 행동 예측 구조를 제안하였으며, B. Zitkovich et al.[2]의 RT-2는 대규모 Vision-Language 모델을 로봇 제어에 적용하여 다양한 미학습 작업에 대한 일반화 성능을 보였다.

이들 연구는 주로 환경 인식 결과로부터 저수준(Low-level) 조작 행동을 직접 생성하는 End-to-End 제어 구조에 초점을 맞춘다. 그러나 S. Haddadin et al.[7]에 따르면 실제 산업 환경에서는 행동 생성 이전에 주변 환경의 위험 수준을 판단하고 적합한 안전 제어 전략을 선택하는 상위 수준의 의사결정이 중요하다.

본 연구는 VLA 모델을 저수준 행동 생성이 아닌 전략 선택 문제에 적용하여 전역 환경 인지 기반의 고수준 의사결정 능력을 분석한다. 표 1은 제안 프레임워크와 기존 VLA 접근법 간의 주요 차별성을 나타낸다.

Table 1.

Differences between conventional framework and proposed framework

2.3 시뮬레이터 데이터 기반 학습

로봇 학습에서 대규모 데이터 확보는 비용, 시간, 안전 측면에서 큰 제약이 있다. 이러한 문제를 해결하기 위해 시뮬레이터 기반 데이터 생성 및 학습 전략이 널리 활용되고 있다.

J. Tobin et al.[8]은 Domain Randomization 기법을 통해 시뮬레이터 환경의 조명, 텍스처, 물리 파라미터 등을 무작위로 변화시켜 실제 환경으로의 전이(Sim-to-real transfer)를 가능하게 하였다. 또한 O. M. Andrychowicz et al.[9]은 물리 기반 시뮬레이터에서 대규모 강화학습을 수행하여 실제 로봇 조작에서의 안정적인 성능을 보였다. 최근에는 GPU 기반 가속 물리 시뮬레이션을 활용한 대규모 학습 환경도 제안되었다. V. Makoviychuk et al.[10]이 제안한 Isaac Gym은 수천 개의 병렬 시뮬레이션을 동시에 실행하여 대량의 합성 데이터를 고속으로 생성할 수 있도록 설계된 플랫폼이다.

본 연구에서는 이러한 시뮬레이션 기반 환경을 활용하여 전략 선택 문제를 분석하기 위한 시나리오 기반 데이터를 구성하였다.

Ⅲ. 연구 방법

3.1 문제 정의

본 연구는 로봇 시점의 이미지를 기반으로 최적의 제어 전략을 선택하는 문제를 다룬다. 모델은 입력 이미지가 주어졌을 때 기본(Normal), 주의(Cautious), 보수(Defensive) 중 하나를 결정하며, 이는 장면의 맥락을 종합적으로 고려하는 고수준 의사결정 과정이다. 특히 전략 선택 문제는 오분류 비용이 비대칭적인 특성을 가진다. 위험 상황에서 Defensive 전략을 선택하지 못하는 경우는 안전 측면에서 치명적인 결과를 초래할 수 있으며, 반대로 과도한 방어 전략은 작업 효율을 저하시킬 수 있다. 따라서 본 연구는 단순 정확도뿐만 아니라 안전과 효율 측면에서 물리 환경 인지 기반 VLA의 전략 선택 능력을 평가한다.

현재 산업 자동화 환경에서는 객체 인식과 같은 인지 단계에 딥러닝 기반 모델이 활용되고 있으나, 안전성이 요구되는 제어 단계에서는 규칙 기반 방식이 주로 사용되고 있다. 본 연구는 이러한 규칙 기반 중심의 제어 단계에서 장면의 물리적 맥락을 해석하여 전략을 선택할 수 있는 VLA 기반 접근의 적용 가능성을 검증한다.

3.2 전체 프레임워크

본 연구의 전체 프레임워크는 시뮬레이터 기반 데이터 생성, 입력 구성 및 전처리, 전략 학습, 성능 평가의 4단계로 구성된다. 그림 1은 프레임워크의 전반적인 구조를 그림으로 나타내며, Algorithm 1은 프레임워크 전체 절차를 의사코드로 나타낸 것이다.

Fig. 1.

Overall framework of the proposed VLA system

3.2.1 시뮬레이터 기반 데이터 생성

Isaac Sim 환경에서 다양한 장면을 구성하여 시뮬레이션 데이터를 생성한다. Scene Setup 단계에서는 객체의 종류, 위치, 색상 및 배치를 정의하고, Data Collector Setup 단계를 통해 이미지와 메타 정보를 수집한다. 그리고 모델의 일반화 성능을 높이기 위해 Domain Randomization을 적용하여 환경 변수를 다양화한다.

이후 객체의 색상과 위치를 기반으로 semantic labeling을 거쳐 이미지-전략 쌍으로 시뮬레이션 데이터를 구축한다.

산업 로봇 시스템에서는 위험 수준에 따라 제어 모드를 단계적으로 전환하는 방식이 사용된다[11]. 본 연구는 이를 단순화하여 각 이미지 장면을 하나의 운용 상황으로 간주하고 전략을 선택하는 분류 문제로 모델링한다.

3.2.2 입력 구성 및 전처리

생성된 시뮬레이션 데이터는 VLA 모델 학습을 위한 입력 형태로 변환된다. VLA 학습을 위해 지시문, 전략, 근거를 포함한 입력 데이터를 구성한다(3~4행). 여기서 전략은 장면 내 객체의 색상과 위치에 따라 정의된다. 본 연구에서는 빨간색 객체를 위험 요소로 정의하고, 위험 요소가 작업 경로 중앙에 위치한 경우 Defensive, 작업 대상 인근에 위치한 경우 Cautious, 위험 요소가 없는 경우 Normal로 분류하였다.

입력 이미지는 vision encoding을 통해 시각 특징으로 변환되며, multimodal alignment를 통해 이미지와 텍스트 정보가 통합된다. 또한, prompt engineering을 통해 대화형 템플릿 형태로 입력을 통일한다(5행). 마지막으로 전체 데이터는 학습 데이터와 평가 데이터로 분할되어 VLA 모델 학습에 사용된다(6행). 표 2는 학습에 사용된 데이터의 예시를 나타낸다. 학습 데이터는 전략의 판단 근거를 함께 학습하도록 구성함으로써, 모델이 특정 시각적 패턴에 의존하는 것을 방지하고 객체의 속성, 거리,위험 요소 간의 인과관계를 학습하도록 유도하였다.

Table 2.

Example of VLA Input and output structure

3.2.3 전략 학습

본 연구에서는 구성된 학습 데이터를 입력으로 받아, 모델이 전략과 근거를 동시에 출력하도록 학습한다.

구체적으로, 모델은 mini-batch 단위로 구성된 학습 데이터를 입력으로 받아 입력 시퀀스를 생성하고(10~11행), 이에 대응하는 JSON 토큰을 학습 신호로 설정한다(12행). 이후 토큰 단위의 예측 결과를 산출하며(13행), 예측값과 정답 간의 cross-entropy loss를 계산하여, 역전파를 통해 모델 파라미터 업데이트에 반영한다(14~15행).

학습 과정에서는 LoRA 기반 경량 파라미터 튜닝을 적용하여 대규모 사전학습 모델을 효율적으로 fine-tuning한다.

3.2.4 성능 평가

학습된 VLA 전략 선택 모델은 시나리오 기반 평가 환경에서 성능을 검증한다. 본 연구는 전략 선택 능력을 정량적으로 분석하기 위해 두 가지 시나리오를 구성하였다.

단일 객체 시나리오(Single Object Scenario)

단일 객체만 존재하는 환경에서 객체의 위험 여부를 기반으로 모델의 위험 인지 능력을 평가한다.

다중 객체 시나리오(Multiple objects scenario)

여러 객체가 존재하는 환경에서 맥락 정보를 종합적으로 고려하여 전략을 선택하는 모델의 의사결정 능력을 평가한다.

Ⅳ. 실험 설정

4.1 연구 질문

본 연구는 단일 객체 환경과 다중 객체 환경에서 VLA 기반 전략 선택 모델의 위험 인지 능력과 맥락 기반 의사결정 능력을 단계적으로 분석하기 위해 다음과 같은 연구 질문을 설정하였다.

RQ1: 단일 객체 환경에서 VLA 기반 전략 선택 모델은 위험 상황을 안정적으로 인지할 수 있는가?

RQ2: 다중 객체 환경에서 VLA 모델은 규칙 기반 시스템 대비 맥락 정보를 활용한 전략 결정을 수행할 수 있는가?

4.2 데이터

본 연구에서 사용된 데이터의 전체 구성은 표 3과 같다. 단일 객체 시나리오와 다중 객체 시나리오는 각각 3,000개와 15,000개의 이미지로 구성된다. 모든 데이터는 시나리오 단위로 8:2 비율로 분할되어 학습 및 검증에 사용되었다.

Table 3.

Dataset overview

각 시나리오의 전략 클래스 분포는 표 4에 정리하였다. 단일 객체 시나리오는 위험 여부를 구분하는 이진 전략 구조로 구성되며 Cautious 클래스는 포함되지 않는다. 반면, 다중 객체 시나리오는 Normal, Cautious, Defensive 세 가지 전략이 비교적 균형 있게 분포되도록 설계되었다.

Table 4.

Class distribution per scenario

4.3 성능 평가 지표

본 연구는 VLA 기반 전략 선택 문제를 세 가지 전략으로 구성된 다중 클래스 분류 문제로 정의한다. 성능 평가는 혼동 행렬 기반 지표를 사용한다.

먼저 실제 Defensive 상황 중 모델이 Defensive 전략을 올바르게 선택한 비율인 Defensive Recall을 주요 지표로 사용하며, 이는 식 (1)로 정의된다. 또한 실제 Defensive 상황이 아닌 경우 중 Defensive 전략을 선택한 비율인 Defensive FPR(False Positive Rate)를 식 (2)로 계산하여 모델의 과잉 방어 경향을 분석한다. 모델의 전반적인 전략 분류 성능 평가는 Macro-F1 Score로 측정하며, 이는 각 클래스의 F1-Score를 식 (3)으로 계산한 후 평균한 값이다.

다중 객체 시나리오에서는 중간 수준의 위험 상황을 인식하는 능력을 평가하기 위해 실제 Cautious 상황 중 모델이 Cautious 전략을 올바르게 선택한 비율인 Cautious Recall을 추가로 측정한다.

R e c a l l = T P T P + F N

(1)

F P R = F P F P + T N

(2)

F 1 = 2 T P 2 T P + F P + F N

(3)

4.4 Baseline

본 연구는 Qwen3-VL-8B[12] 모델을 기반으로 VLA 전략 선택 프레임워크를 시연하며, 제안하는 방법을 검증하기 위해 두 가지 규칙 기반 시스템과 비교한다. 두 baseline은 입력된 정보에 의존하여 사전에 정의된 조건-행동 규칙을 수행하는 단순한 의사결정 구조를 가지며, Russell & Norvig[13]이 분류한 단순 반사 에이전트(Simple reflex agent)의 개념과 유사한 전통적 규칙 기반 접근을 대표한다.

4.4.1 R1: Color-only rule-based system

R1은 전역 단서를 제외하고 객체의 색상 정보만을 기반으로 전략을 결정하는 단순 규칙 기반 시스템이다. 단일 객체 시나리오에서는 객체가 red이면 Defensive, 그 외에는 Normal 전략을 선택한다. 다중 객체 시나리오에서는 장면 내 red 객체가 하나라도 존재하면 Defensive, 존재하지 않으면 Normal을 선택한다. R1은 위험 여부를 이진적으로 판단하는 최소 baseline이다.

4.4.2 R2: Color + Count rule-based system

R2는 객체의 색상과 개수 정보를 함께 사용하는 확장 규칙 기반 시스템이다. 다중 객체 시나리오에서 red 객체의 개수에 따라 다음과 같이 전략을 선택한다.

red = 0 → Normal
red = 1 → Cautious
red ≥ 2 → Defensive

R2는 단순 색상 기반 판단을 넘어 객체 수에 따른 위험 수준을 반영한 확장된 baseline이다.

Ⅴ. 실험 결과

5.1 RQ1: 단일 객체 환경에서 VLA 기반 전략 선택 모델은 위험 상황을 안정적으로 인지할 수 있는가?

단일 객체 환경에서는 객체의 색상에 의해 위험이 명확하게 결정된다. 이러한 조건에서 VLA 모델과 규칙 기반 시스템(R1)을 비교하였다.

실험 결과(표 5), 제안하는 VLA 모델과 R1 모두 Defensive Recall 1.0000, Defensive FPR 0.0000을 기록하였다. 이는 위험 상황을 누락 없이 탐지하면서 불필요한 방어 전략도 발생하지 않았음을 의미한다. 해당 결과는 단일 객체 환경에서는 위험 판단이 색상 정보로 결정되기 때문에 단순 규칙 기반 접근만으로도 충분한 성능을 달성할 수 있음을 보여준다.

Table 5.

Performance in single object scenario

5.2 RQ2: 다중 객체 환경에서 VLA 모델은 규칙 기반 시스템 대비 맥락 정보를 활용한 전략 결정을 수행할 수 있는가?

다중 객체 환경에서는 단일 색상 정보만으로 전략을 결정하기 어렵고, 객체 개수와 위험 수준 간의 관계를 통합적으로 판단해야 한다. 이러한 환경에서 VLA 모델과 두 가지 규칙 기반 시스템(R1, R2)의 성능을 비교하였다.

실험 결과(표 6)에 따르면, 제안한 VLA 모델은 모든 평가 지표에서 최적의 성능을 보였다. Macro-F1, Defensive Recall, Cautious Recall은 모두 1.0000으로 나타났으며, Defensive FPR은 0.0000으로 측정되었다.

Table 6.

Performance in multiple objects scenario

이러한 성능은 VLA 모델이 객체 색상뿐만 아니라 상대적 위치와 공간적 배치 등 장면의 맥락적 관계를 통합적으로 해석할 수 있기 때문으로 분석된다. 특히 사전에 정의된 조건 조합에 의존하지 않고 장면 전체를 맥락 단위로 이해함으로써, 복합적인 위험 상황에서도 전략 수준 판단을 안정적으로 수행하였다.

반면, 규칙 기반 시스템은 맥락적 정보 해석에 구조적 한계를 보였다. R1은 red 객체의 존재 여부만을 기준으로 전략을 결정하기 때문에 Cautious 상황을 모두 Defensive로 분류하였다. 그 결과 Defensive Recall은 1.0000으로 유지되었으나, Defensive FPR이 0.6231로 크게 증가하였다. 이는 Cautious 클래스가 모두 Defensive로 분류되면서 위험을 과도하게 판단하는 보수적 편향을 보였음을 의미한다. 이러한 경향은 그림 2의 혼동행렬에서 명확히 확인된다.

Fig. 2.

Confusion matrix of R1

R2는 객체 개수를 고려한 규칙을 적용하였으나, Cautious와 Defensive 상황을 명확히 구분하지 못하였다. Defensive Recall은 0.2178로 크게 감소하였으며, Cautious Recall 역시 0.6742로 나타났다. 그림 3의 혼동행렬을 보면, 다수의 Defensive 샘플이 Cautious로 오분류되었음을 확인할 수 있다. 이는 객체 수 기반의 단순 임계 규칙이 위험 수준의 미묘한 차이를 정교하게 반영하지 못함을 의미한다.

Fig. 3.

Confusion matrix of R2

이러한 결과는 다중 객체 환경과 같이 전역 물리 맥락을 통합적으로 해석해야 하는 상황에서 규칙 기반 접근이 구조적 한계를 가질 수 있음을 보여준다. 반면, VLA 기반 전략 선택은 시각적 맥락과 객체 간 관계를 종합적으로 반영하여 위험 수준을 안정적으로 판단할 수 있음을 보여준다.

VI. 위협 요소

6.1 내적 타당성(Internal validity)

본 연구에서는 그룹별 층화 추출을 통해 각 시나리오가 학습 및 검증 세트에 동일한 비율로 분포하도록 통제하였으나, 시뮬레이터 기반 데이터가 사전에 정의된 규칙에 따라 생성되었기 때문에 데이터가 특정 구조적 패턴을 포함할 가능성이 있다. 이는 모델이 일반적인 위험 개념을 이해하기보다는 데이터 생성 규칙에 기반한 패턴을 학습했을 가능성이 존재한다.

6.2 외적 타당성(External validity)

본 연구는 단일 객체 환경과 다중 객체 환경이라는 두 가지 시나리오를 기반으로 모델의 전략 선택 능력을 평가하였다. 그러나 실제 산업 환경에서는 동적 장애물, 센서 노이즈, 복합 위험 요인 등 다양한 변수들이 존재하므로 본 연구에서 구성한 시나리오로 모든 환경을 일반화하기에는 한계가 있다.

또한 본 실험은 시뮬레이터 기반 데이터로 수행되었기 때문에 실제 환경과의 차이가 존재할 수 있다.

마지막으로, 본 연구는 Qwen3-VL-8B 단일 모델을 사용하여 실험을 수행하였다. 해당 모델은 최근 Vision-Language 계열 연구에서 우수한 성능을 보이는 모델이지만, 다른 아키텍처 또는 규모의 모델에 대해 동일한 결과가 재현될 것이라고 일반화하기에는 한계가 있다.

VII. 결론 및 향후 과제

본 연구는 VLA 모델을 고수준 전략 선택기로 활용하는 전역 물리 환경 인지 기반 프레임워크를 제안하고, 규칙 기반 시스템과의 비교 실험을 통해 그 가능성을 분석하였다.

실험 결과, 위험 요소가 명확하게 정의된 단일 객체 환경에서는 VLA 모델과 규칙 기반 시스템이 동등한 수준의 성능을 보였다. 이는 단순 위험 판단 문제에서는 간단한 규칙 기반 시스템도 충분한 성능을 달성할 수 있음을 의미한다. 반면, 전역 맥락 해석이 필요한 다중 객체 환경에서는 VLA 기반 전략 선택 모델이 상황별 적합한 전략을 선택함으로써 우수한 성능을 보였다.

본 연구는 VLA 모델을 의사결정 문제에 적용하여 Physical AI 관점에서의 고수준 전략 선택 가능성을 실험적으로 검증하였다. 또한 시뮬레이터 기반 전역 시나리오와 전략 분류 체계를 통해 전략 선택 문제를 체계적으로 정의하였다.

그러나 본 연구는 실제 산업 환경의 다양한 변수 반영 문제와 단일 모델 기반 실험의 한계로 추가적인 검증이 필요하다. 따라서, 향후 연구에서는 시나리오를 확장하여 실제 산업 환경에서 발생 가능한 예외 상황을 반영하고, 다양한 아키텍처와 규모의 모델을 적용하여 전반적인 일반화 능력을 검증할 예정이다.

References

V. Villani, F. Pini, F. Leali, and C. Secchi, "Survey on human–robot collaboration in industrial settings: Safety, intuitive interfaces and applications", Mechatronics, Vol. 55, pp. 248-266, Nov. 2018. [https://doi.org/10.1016/J.MECHATRONICS.2018.02.009]
B. Zitkovich, et al., "RT-2: Vision-language-action models transfer web knowledge to robotic control", Proc. of the 7th Conference on Robot Learning, Atlanta, GA, USA, pp. 2165-2183, Nov. 2023.
M. Iovino, E. Scukins, J. Styrud, P. Ögren, and C. Smith, "A survey of behavior trees in robotics and ai", Robotics and Autonomous Systems, Vol. 154, Art no. 104096, Aug. 2022. [https://doi.org/10.1016/j.robot.2022.104096]
N. Sünderhauf, et al., "The limits and potentials of deep learning for robotics", The International Journal of Robotics Research, Vol. 37, No. 4-5, pp. 405-420, Apr. 2018. [https://doi.org/10.1177/0278364918770733]
P. Karagiannis, et al., "Adaptive speed and separation monitoring based on switching of safety zones for effective human robot collaboration", Robotics and Computer-Integrated Manufacturing, Vol. 77, Art no. 102361, Oct. 2022. [https://doi.org/10.1016/j.rcim.2022.102361]
M. Shridhar, L. Manuelli, and D. Fox, "Perceiver-actor: A multi-task transformer for robotic manipulation", Proc. of the 6th Conference on Robot Learning, Auckland, New Zealand, pp. 785-799, Dec. 2022.
S. Haddadin and E. Croft, "Erratum to: Physical Human–Robot Interaction", Springer Handbook of Robotics, pp. 1835-1874, Jan. 2016. [https://doi.org/10.1007/978-3-319-32552-1_81]
J. Tobin, et al., "Domain randomization for transferring deep neural networks from simulation to the real world", Proc. of the 2017 IEEE/RSJ International Conference on Intelligent Robots and Systems, Vancouver, BC, Canada, pp. 23-30, Sep. 2017. [https://doi.org/10.1109/IROS.2017.8202133]
O. M. Andrychowicz, et al., "Learning dexterous in-hand manipulation", The International Journal of Robotics Research, Vol. 39, No. 1, pp. 3-20, Jan. 2020. [https://doi.org/10.1177/0278364919887447]
V. Makoviychuk, et al., "Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning", Proc. of the 35th Conference on Neural Information Processing Systems (NeurIPS), Online, pp. 1-12, Aug. 2021. [https://doi.org/10.48550/arXiv.2108.10470]
P. A. Lasota, T. Fong, and J. A. Shah, "A survey of methods for safe human–robot interaction", Foundations and Trends in Robotics, Vol. 5, No. 4, pp. 261-349, May. 2017. [https://doi.org/10.1561/2300000052]
S. Bai, et al., "Qwen3-vl technical report", arXiv Preprint, arXiv:2511.21631, , pp. 1-42, Nov. 2025. [https://doi.org/10.48550/arXiv.2511.21631]
S. Russell and P. Norvig, "Artificial Intelligence: A Modern Approach", 4th ed., Hoboken, NJ: Pearson, pp. 67-69, Apr. 2020.

저자소개

최 윤 서 (Yunseo Choi)

2025년 8월 : 전북대학교 소프트웨어공학과(공학사)

2025년 9월 ~ 현재 : 전북대학교 소프트웨어공학과 석사과정

관심분야 : 소프트웨어 결함 예측, 소프트웨어 신뢰성, SE4AI, AI4SE

주 은 정 (Eunjeong Ju)

2024년 8월 : 전북대학교 소프트웨어공학과(공학사)

2026년 2월 : 전북대학교 소프트웨어공학과(공학석사)

2026년 1월 ~ 현재 : ㈜미라클에이지아이 주임연구원

관심분야 : 소프트웨어 결함 예측, SE4AI, AI4SE, 피지컬 AI

이 정 화 (Jeonghwa Lee)

2024년 8월 : 전북대학교 소프트웨어공학과(공학사)

2026년 2월 : 전북대학교 소프트웨어공학과(공학석사)

2026년 1월 ~ 현재 : ㈜미라클에이지아이 주임연구원

관심분야 : 소프트웨어 결함 예측, SE4AI, AI4SE, 피지컬 AI

유 철 중 (CheolJung Yoo)

1982년 2월 : 전북대학교 전산통계학과(이학사)

1985년 8월 : 전남대학교 계산통계학과(이학석사)

1994년 8월 : 전북대학교 전산통계학과(이학박사)

2012년 1월 ~ 2013년 7월 : University of California, Irvine(UCI) 국외연구교수

1997년 1월 ~ 2025년 2월 : 전북대학교 컴퓨터과학과/소프트웨어공학과 교수

2026년 1월 ~ 현재 : ㈜미라클에이지아이 피지컬AI로봇센터장

관심분야 : 피지컬 AI, 소프트웨어 품질 보증, 소프트웨어 테스팅, 소프트웨어 도메인 모델링, 빅데이터 분석, 스마트팜

류 덕 산 (Duksan Ryu)

2012년 2월 : KAIST 및 Carnegie Mellon University 소프트웨어공학(공학석사)

2016년 8월 : KAIST 전산학부(공학박사)

2018년 9월 ~ 현재 : 전북대학교 소프트웨어공학과 부교수

관심분야 : SE4AI, AI4SE, AI/LLM 기반 소프트웨어 분석, 소프트웨어 결함 예측, 소프트웨어 신뢰성, 소프트웨어 메트릭스, 소프트웨어 품질 보증

Category	Conventional VLA framework	Proposed VLA framework
Objective	Manipulation success rate	Strategic flexibility & Efficiency
Output form	Continuous control	High-level strategy
Decision unit	Individual actions	Situation
Strengths	Precise control possible	Context-aware decision making

Simulation Image	Instruction	Strategy	Reason
	Please analyze the image to choose between Normal, Cautious, and Defensive. Please write the output in JSON format only below. {"strategy":"<Normal\|Cautious\|Defensive>", "reason":"<1 Sentence Description>"}	Defensive	Since the central task destination has been identified as red and fatal hazards have been detected, select a defensive strategy to prevent accidents.
	Please analyze the image to choose between Normal, Cautious, and Defensive. Please write the output in JSON format only below. {"strategy":"<Normal\|Cautious\|Defensive>", "reason":"<1 Sentence Description>"}	Cautious	The center is secure, but the risk factor is close to the right, so we judge it as a moderate risk and choose a Cautious strategy.

Scenario	Images	Train	Val	Classes
Single object	3,000	2,400	600	2
Multiple objects	15,000	12,000	3,000	3

Model	Macro-F1	Defensive Recall	Defensive FPR	Cautious Recall
VLA	1.0000	1.0000	0.0000	1.0000
R1	0.5399	1.0000	0.6231	0.0000
R2	0.6176	0.2178	0.2030	0.6742