Korean Institute of Information Technology
[ Article ]
The Journal of Korean Institute of Information Technology - Vol. 21, No. 11, pp.89-94
ISSN: 1598-8619 (Print) 2093-7571 (Online)
Print publication date 30 Nov 2023
Received 04 Oct 2023 Revised 20 Oct 2023 Accepted 23 Oct 2023
DOI: https://doi.org/10.14801/jkiit.2023.21.11.89

다양한 채널 혼잡도에 적응하는 셀룰러 V2X의 DQN 기반 분산혼잡제어

이은화* ; 김연아* ; 문철**
*한국교통대학교 교통에너지융합학과
**한국교통대학교 전자공학과 교수(교신저자)
DQN-based Adaptive Decentralized Congestion Control in Cellular-V2X Networks
Eunhwa Lee* ; Yeona Kim* ; Cheol Mun**

Correspondence to: Cheol Mun Dept. of Electronocs Engineering Korea National University of Transportation Tel.: +82-43-841-5361, Email: chmun@ut.ac.kr

초록

3GPP LTE C-V2X(Cellular Vehicle-to-Everything) mode 4에서 SB-SPS(Sensing-Based Semi-Persistent Scheduling) MAC(Medium Access Control)에 의해 차량 단말(VUE, Vehicle User Equipment)은 독립적으로 무선자원을 선택하고 메시지를 전송한다. 따라서, VUE 밀도가 증가할수록 패킷 충돌이 발생할 확률이 높아지고, 이로 인해 PDR(Packet Delivery Ratio)과 IPG(Inter-Packet Gap) 성능이 열화된다. 본 논문은 3GPP LTE C-V2X의 mode 4에서 다양한 차량단말 밀도 환경에서 DQN 에이전트를 학습시켜 차량단말 밀도에 적응적으로 최적 메시지 전송 주기를 결정할 수 있는 개선된 DQN 기반 분산혼잡제어 기술을 제안하였다. 시뮬레이션을 통해 개선된 기술이 다양한 차량단말 밀도 환경에서 우수한 성능을 보임을 비교 분석하였다.

Abstract

In a 3GPP LTE cellular vehicle-to-everything(C-V2X) mode 4, each vehicle user equipment(VUE) independently selects available radio resources using the sensing-based semi-persistent scheduling(SB-SPS) algorithm. As the density of VUEs increases, packet collisions increase, which leads to performance deterioration. This paper has proposed an enhanced DQN(Deep Q-Network)-based distributed congestion control(DCC) to adaptively control the transmission time interval according to densities of VUE(Vehicle User Equipment)s by training a DQN agent for various densities of VUE. Simulation results show that the enhanced DQN based DCC outperforms in environments of various VUE densities.

Keywords:

cellular vehicle-to-everything mode 4, decentralized congestion control, reinforcement learning, deep Q-network

Ⅰ. 서 론

3GPP는 LTE(Long Term Evolution) release 14에서 교통안전 서비스를 위해 차량 간에 BSM(Basic Safety Message)과 같은 안전 메시지를 교환하기 위한 물리계층과 MAC(Medium Access Control) 계층을 정의하는 cellular-V2X(Cellular Vehicle-to-Everything)를 표준화하였다[1]. C-V2X는 PC5 인터페이스를 통해 차량 단말(VUE, Vehicle User Equipment)간 V2V(Vehicle-to-Vehicle) 직접 통신을 지원한다. 특히, 모드 4에서 사이드링크(Sidelink)를 통해 각 VUE는 셀룰러 인프라 지원 없이 독자적으로 무선 자원을 선택하여 메시지를 전송하는 SB-SPS(Sensing-Based Semi-Persistent Scheduling) 기법을 사용한다[2].

LTE C-V2X의 mode 4에서 각 VUE는 사이드링크를 통해 인프라 지원 없이 독자적으로 무선자원을 예약하여 메시지를 전송한다. 따라서, 사이드링크에서 경쟁하는 VUE가 증가할수록 메시지 충돌 가능성이 높아지게 되므로, 각 VUE가 채널 혼잡도를 추정하고 혼잡도에 따라 메시지 전송주기(TTI, Transmission Time Interval)를 결정하는 분산혼잡제어(DCC, Distributed Congestion Control)가 제안되었다[3]-[5]. 또한, 혼잡도에 따른 메시지 전송주기를 결정하는 중요한 파라메터인 혼잡도 임계값에 대한 최적값을 DQN(Deep-Q Network)을 기반으로 결정하는 기술이 제안되었다[6][7]. 여기서, DQN 기반 DCC의 에이전트가 사전에 학습한 혼잡도와 동일한 혼잡도를 가지는 환경에서는 기존 DCC에 비해 우수한 성능을 보임을 검증하였으나, 에이전트가 학습한 혼잡도와 다른 혼잡도를 가지는 환경에서 수행될 경우에도 우수한 성능을 제공할 수 있는지에 대해 분석되지 않았다.

도로 교통의 특성상 시간과 위치에 따라 VUE 밀도는 변하게 되며, 이러한 다양한 VUE 밀도 상황이 DCC 알고리즘의 성능에 영향을 주게 된다. 본 논문에서는 주어진 단일한 VUE 밀도 환경에서 학습된 DQN 에이전트가 사전에 학습한 VUE 밀도와 다른 VUE 밀도 환경에서는 DCC 성능이 열화됨을 분석한다. 또한, 이러한 성능 열화를 극복하기 위해 다양한 VUE 밀도를 고려하여 최적 메시지 전송 주기를 적응적으로 조절하는 DQN기반 DCC 기술을 제안한다. 시뮬레이션을 통해 다양한 VUE 밀도를 가지는 혼잡도에서 학습된 DQN 에이전트를 사용하는 제안 기술과 기존 DCC 기술 및 특정 VUE 밀도를 가지는 혼잡도에서 학습된 DQN의 성능을 비교 분석한다.


Ⅱ. 차량단말 밀도 기반 분산혼잡제어

2.1 J2945/1 단말 밀도기반 분산혼잡제어

SAE J2945/1는 VUE 밀도를 혼잡도 척도로 사용하는 DCC 기술을 제안하고 있으며, 각 VUE가 주변 VUE 밀도를 추정하고 미리 정해진 VUE 밀도의 혼잡 임계값들과 비교하여 다음 식 (1)과 같이 메시지 전송 주기인 TTI를 결정한다[5].

TTIti=100msVDtiB100×VDti/BmsB<VDti<6B600msVDti6B(1) 

여기서, TTIti는 시간 t에서 VUE i의 다음 전송 주기를 뜻하며 반경 100m 내 VUE 밀도인 VDitB에 기반하여 결정된다. VDit는 VUE i가 수신한 CAM(Cooperative Awareness Message)에 포함된 각 VUE의 위치, 방향 정보 등을 이용하여 결정한다. B는 혼잡도 임계값을 결정하며 J2945/1에서 B = 25로 설정하고 있다. 이 경우 VDti가 25 이하이면 기본 전송 주기인 100ms, 25 초과 150 미만인 경우는 4VDtims, 150 이상일 경우에는 600ms를 사용한다. 따라서, 혼잡도 임계값 B는 전송 주기를 결정하는 핵심 파라미터이다.

2.2 DQN 분산혼잡제어

J2945/1에서는 혼잡도 임계값 계수 B를 25라는 상수로 설정하고 있으나, B가 도로의 혼잡도에 따라 최적화되어야 할 변수로써, VUE별로 처한 도로의 혼잡도에 따라 최적 B를 찾는 DQN 기반 분산혼잡제어(DQN-DCC)가 제안되었다[6][7]. 최적 B는 패킷 충돌을 최대한 억제하여 PDR(Packet Delivery Ratio)을 최대화도록 결정되어야 한다.

다만, PDR 최대화만을 고려할 경우 전송 주기를 과도하게 증가시켜 채널 사용률(CBR, Channel Busy Ratio)을 과도하게 낮추어 결과적으로 IPG(Inter Packet Gap)을 증가시킬 우려가 있다. 따라서, 채널 사용률 CBR을 일정 목표치에 근접시키면서, PDR을 최대화도록 하는 최적화 문제를 다음과 같이 정의한다.

P1:maxTTItiPDRit,js.t.minTTItiCBRtarget -CBRit(2) 

여기서 CBRtarget은 0.65로 설정하며, CBRi[t]는 서브프레임 t에서 측정된 VUE i의 CBR로 과거 100ms 동안 서브채널 사용률을 추정한 값이다. 또한, 서브프레임 tj번째 서브채널을 사용한 VUE i의 패킷 성공률 PDRi[t,j]는 VUE i에서 전송된 패킷 중 오류 없이 전송된 패킷의 비율을 나타낸다.

[6][7]에서는 식 (2)의 최적화 문제를 해결하기 위해 DQN 알고리즘을 사용한다. Q-value는 VUE it에서 상태가 s이고 에이전트의 행동이 a일때 받을 리워드와 앞으로 받을 리워드에 대한 기댓값이며 Q(s,a)로 표현한다. DQN은 더 높은 Q-value값을 갖도록 학습하므로 PDR을 최대화하면서 CBR을 0.65에 근접하게 식 (2)를 사용하여 리워드식을 정의하면 아래와 같다.

rti=PDRit,j-CBRtarget -CBRit(3) 

그림 1은 DQN-DCC의 학습과정을 보여주며, 멀티 에이전트 강화학습에서 사용되는 CTDE(Centralized Training Decentralized Execution)를 기반으로 한다. 3GPP LTE C-V2X의 MAC 계층을 모사하는 LTEV2Vsim[8] 시뮬레이터를 이용하여 표 1의 파라메터와 주어진 차량 밀도에 대한 환경을 구축한다. 시뮬레이션 상에서 에이전트 VUE iCBRi[t]을 측정하여 메인 신경망의 입력 값 sti로 입력한다. 메인 신경망의 출력 Q (s,a;θ)에 ϵ-greedy policy를 적용하여 ati을 결정하고 식 (1)에 대입하여 TTIti을 구한다. 에이전트 VUE i의 전송주기 TTIti는 시뮬레이터에 입력되어 t + 1에서 rtist+1i을 관찰하고 sti,ati,rti,st+1i를 리플레이 메모리에 저장한다. 메모리에 저장된 데이터들은 미니 배치로 두 신경망에 들어가 신경망 업데이트에 필요한 Q-value를 출력한다.

Fig. 1.

DQN-based DCC training preocess

simulation parameter

메인 신경망은 미니 배치 행동을 따라 Q-value Q을 구하고 타겟 신경망은 St+1에서 greedy한 Q-value Q^를 고른다. 타켓 Q-value는 오차 역전파를 통해 신경망을 업데이트한다.

학습할 때 에이전트는 시뮬레이션 상에서 계산할 수 있는 PDRi[t,j]과 CBRi[t]을 통해 리워드 rti을 계산한다. 반면 실행과정에서는 에이전트들이 학습된 모델을 가지고 시뮬레이션 하기 때문에 리워드 정보가 필요하지 않다. 따라서 시간 t에서 에이전트 VUE i의 상태 sti=CBRit만을 가지고 혼잡도 임계값 B의 후보값 집합 {5,15,25,45,65}에서 하나의 원소를 행동 ati로 선택한다.

도로 교통의 특성상 시간과 위치에 따라 VUE 밀도는 변하게 되며, 이러한 다양한 VUE 밀도 상황이 DCC의 성능에 영향을 주게 된다. 특히, 혼잡도에 따른 메시지 전송주기를 결정하는 중요한 파라메터인 혼잡도 임계값에 대한 최적값을 DQN을 기반으로 결정하는 기술[6][7]에서, DQN 기반 DCC가 미리 학습한 혼잡도 환경에서는 기존 DCC에 비해 우수한 성능을 보임을 검증하였으나, 미리 학습된 혼잡도 환경과 다른 혼잡도 환경에서도 우수한 성능을 제공할 수 있는지에 대해 분석되지 않았다.


Ⅲ. 제안하는 다양한 혼잡도에 적응하는 DQN 분산혼잡제어

본 논문에서는 기존 DQN DCC의 경우 에이전트가 사전에 학습한 혼잡도와 다른 혼잡도를 가지는 환경에서 수행될 경우에 DCC 성능이 열화됨을 분석한다. 또한, 이러한 성능 열화를 극복하기 위해 시뮬레이션을 통해 다양한 VUE 밀도의 혼잡도에서 학습된 DQN 에이전트를 사용함으로써 다양한 혼잡도 환경에서 최적 메시지 전송 주기를 적응적으로 조절하는 DQN기반 DCC 기술을 제안한다.

3GPP LTE C-V2X 네트워크 자원할당 성능을 평가하는 LTEV2Vsim[8] 시뮬레이터를 기반으로 다양한 혼잡도 환경에서 최적 메시지 전송 주기를 적응적으로 조절하는 DQN기반 DCC 알고리즘의 학습과정과 실행과정을 수행한다. LTEV2Vsim은 3GPP LTE C-V2X의 MAC과 물리계층을 모사한 시스템 레벨 시뮬레이션을 지원하며 자원할당 알고리즘을 평가할 수 있는 동적 시뮬레이터이다. 표 1은 시뮬레이션 파라미터들을 보여준다. 시뮬레이터는 5.9GHz 주파수 대역에 10MHz 대역폭을 사용하여 300bytes 크기의 패킷을 각 VUE에서 브로드캐스팅 한다. V2V 경로 손실은 일반적인 도시의 마이크로셀 환경인 WINNER Ⅱ의 B1 모델을 사용하였다. 시뮬레이션 환경은 왕복 8차선 2km 도로이고 차량 평균속도는 60km/h이며 표준편차는 3km/h이다. 도로 상 차량들의 밀집도를 다양하게 하기 위해서 포아송 분포를 사용하였다. 시뮬레이션은 1회 20초 동안 진행되는데 이는 에이전트가 1 episode 또는 20,000 step을 학습하는 시간과 같다.

제안하는 적응 DQN은 학습 중 일정 에피소드가 지나면 2km 이내 VUE 대수, 즉 차량 혼잡도를 400대와 600대로 변화시키며 학습을 수행한다. 이에 반해, 고정 DQN(fixed DQN) DCC 특정 단일 VUE 밀도 환경에서만 학습을 수행한다. 즉, 고정 DQN(400)과 고정 DQN(600)은 각각 2km내 400대와 600대의 VUE가 분포하는 개별 시뮬레이션 환경에서 학습을 수행한다.

fixed DQN은 도로상에 존재하는 차량 개수를 고정해 놓은 모델이다. 이러한 모델은 학습할 때 사용되었던 고정 밀도 외의 다른 상황에서 좋은 성능을 기대하기 어렵다. 따라서 학습 중 일정 에피소드가 지나면 차량 밀도를 변화시키며 학습하는 adaptive DQN을 제안한다.


Ⅳ. 적응 DQN DCC 성능 분석

모든 DQN-DCC알고리즘의 시뮬레이션 결과는 실행과정을 거친 모델들의 PDR과 평균 IPG값이다. 그림 2는 혼잡도가 높은 600대 VUE 분포 환경에서, J2945/1의 DCC, 고정 DQN(400), 고정 DQN(600), 그리고 적응 DQN DCC의 성능을 비교 분석하였다. 적응 DQN과 고정 DQN(600)은 관심 영역인 송수신기간 거리가 100m 이내에서 J2945/1 DCC보다 우수한 PDR 성능을 보인다. 반면에, 고정 DQN(400)은 실행 환경 보다 혼잡도가 낮은 400대 VUE 분포환경에서 학습되었기 때문에, 높은 혼잡도 환경에서 실행됨에도 불구하고 낮은 혼잡도에 적합한 보다 짧은 TTI를 선택하게 된다. 짧은 TTI에 의해 IPG는 다른 기술보다 감소하지만, 과도하게 채널 사용률 CBR이 증가되어 패킷 충돌을 증가되고 이로 인해 다른 기술보다 열화된 PDR 성능을 나타낸다. 따라서, 고정 DQN DCC의 경우에는 DQN 에이전트가 사전에 학습한 VUE 밀도와 다른 VUE 밀도 환경에서는 DCC 성능이 열화됨을 확인할 수 있다.

Fig. 2.

Comparison of PDR and IPG (600 VUEs/2km)

그림 3은 500대 VUE 분포 환경에서, J2945/1의 DCC, 고정 DQN(400), 고정 DQN(600), 그리고 적응 DQN DCC의 성능을 비교 분석하였다. 고정 DQN이 사전에 학습한 400대 또는 600대 VUE 분포 환경과는 다른 500대 VUE 분포 환경에서, 각각 과도하게 작거나 큰 TTI를 선택하기 때문에 고정 DQN(600)은 높은 PDR과 열화된 IPG 성능을, 그리고 고정 DQN(400)은 열화된 PDR과 높은 IPG 성능을 보이게 된다. 반면에 400대와 600대 VUE 분포 환경 모두에서 학습된 적응 DQN은 사전에 학습한 환경과 다른 500대 VUE 분포 환경에서도 최적 TTI를 선택하여 J2945/1과 비슷한 IPG 특성을 보이면서 J2945/1보다 우수한 PDR 성능을 보임을 확인할 수 있다. 따라서, 제안하는 다양한 VUE 밀도의 혼잡도에서 학습된 DQN 에이전트를 사용하는 적응 DQN DCC가 학습되지 않은 다양한 혼잡도 환경에서도 최적 메시지 전송 주기를 적응적으로 조절할 수 있음을 확인하였다.

Fig. 3.

Comparison of PDR and IPG (500 VUEs/2km)


V. 결 론

본 논문은 3GPP LTE C-V2X의 mode 4에서 채널 혼잡에 의한 성능 열화를 극복하도록 제안했던 DQN 기반 분산혼잡제어를, 다양한 차량단말 밀도 환경에서 DQN 에이전트를 학습시켜 다양한 차량 단말 밀도에서 적응적으로 최적 메시지 전송 주기를 결정할 수 있는 적응 DQN 기반 DCC로 개선하였다. 다양한 VUE 밀도 환경에서의 시뮬레이션을 통한 성능 비교 분석을 통해, 제안하는 다양한 VUE 밀도의 혼잡도에서 학습된 DQN 에이전트를 사용하는 적응 DQN 기반 DCC가, 학습되지 않은 다양한 혼잡도 환경에서도 메시지 전송 주기를 최적으로 조절할 수 있으며 이를 통해 기존 DCC 보다 우수한 PDR과 IPG 성능을 보임을 확인하였다.

Acknowledgments

2022년 한국교통대학교 지원을 받아 수행하였음

References

  • R. Molina-Masegosa, J. Gozalvez, and M. Sepulcre, "Comparison of IEEE 802.11p and LTE-V2X: An Evaluation With Periodic and Aperiodic Messages of Constant and Variable Size", IEEE Access, Vol. 8, pp. 121526-121548, Jul. 2020. [https://doi.org/10.1109/ACCESS.2020.3007115]
  • 3GPP, TS 36.300 Evolved Universal Terrestrial Radio Access(E-UTRA) and Evolved Universal Terrestrial Radio Access Network(E-UTRAN); Overall description; Stage 2(v14.8.0, Release 14), 2018.
  • A. Mansouri, V. Martinez, and J. Härri, "A first invesꠓtigation of congestion control for LTE-V2X mode 4", 2019 15th Annual Conference on Wireless On-demand Network Systems and Services(WONS), Wengen, Switzerland, pp. 56-63, Jan. 2019. [https://doi.org/10.23919/WONS.2019.8795500]
  • Qualcomm, "Congestion control for V2V", 3GPP TSGRAN1-87, Nov. 2016. http://www.3gpp.org/ftp/TSG_RAN/WG1_RL1/TSGR1_87/Docs/R1-1611594.zip, [accessed: Mar. 21, 2021]
  • SAE International, on-board system require- ments for V2V safety communications, Standard Doc. J2945/1, 2016.
  • J. Y. Choi, H. S. Jo, C. Mun, and J. G. Yook, "Deep Reinforcement Learning-Based Distributed Congestion Control in Cellular V2X Networks", IEEE Wireless Communications Letters, Vol. 10, No. 11, pp. 2582-2586, Nov. 2021. [https://doi.org/10.1109/LWC.2021.3108821]
  • E. H. Lee, G. S. Joung, J. Y. Choi, and C. Mun, "Deep Q-Network Based-Distributed Con- gestion Control in Cellular V2X", KICS Summer Conference, Jeju, Korea, pp. 1135-1136, Jun. 2021.
  • Web page of WilabV2Xsim, https://github.com/alessandrobazzi/LTEV2Vsim, , Jan. 2022. [accessed: Feb. 17, 2022]
저자소개
이 은 화 (Eunhwa Lee)

2020년 2월 : 한국교통대학교 정보통신공학과(공학사)

2022년 2월 : 한국교통대학교 교통에너지융합공학과(공학석사)

2022년 4월 ~ 현재 : 애자일소다 선임연구원

관심분야 : 강화학습, V2X 통신, 무선통신시스템

김 연 아 (Yeona Kim)

2014년 2월 : 한국교통대학교 정보통신공학과(공학사)

2016년 2월 : 한국교통대학교 정보기술융합학과(공학석사)

2020년 3월 ~ 현재 : 한국교통대학교 교통에너지융합학과 박사과정 수료

관심분야 : 협력자율주행, V2X 통신

문 철 (Cheol Mun)

1995년 2월 : 연세대학교 전자공학과(공학사)

1997년 2월 : 연세대학교 전자공학과(공학석사)

2001년 2월 : 연세대학교 전자공학과(공학박사)

2003년 8월 ~ 현재 : 한국교통대학교 교수

관심분야 : 협력자율주행, V2X 통신, 무선통신시스템

Fig. 1.

Fig. 1.
DQN-based DCC training preocess

Fig. 2.

Fig. 2.
Comparison of PDR and IPG (600 VUEs/2km)

Fig. 3.

Fig. 3.
Comparison of PDR and IPG (500 VUEs/2km)

Table 1.

simulation parameter

V2X Mode C-V2X mode 4
Simulation run time 20s
MCS index 6(=modulation:QPSK,code rate:0.48)
Center frequency 5.9GHz
Bandwidth 10MHz
Packet size 300 bytes
Pathloss model WINNER Ⅱ, Scenario B1
Road environment 2km Highway, 8 Lanes
Vehicle velocity 60km/h with std of 3km/h
Vehicle density 400,500,600 vehicles/2km