Korean Institute of Information Technology
[ Article ]
The Journal of Korean Institute of Information Technology - Vol. 19, No. 7, pp.9-17
ISSN: 1598-8619 (Print) 2093-7571 (Online)
Print publication date 31 Jul 2021
Received 29 Jun 2021 Revised 22 Jul 2021 Accepted 25 Jul 2021
DOI: https://doi.org/10.14801/jkiit.2021.19.7.9

삼중 경로 mDAPPM을 활용한 실시간 의미론적 분할 성능 향상 연구

김종식* ; 강대성**
*동아대학교 전자공학과 박사과정
**동아대학교 전자공학과 교수(교신저자)
A Study of Real-time Semantic Segmentation Performance Improvement Using Three-pathway mDAPPM
Jong-Sik Kim* ; Dae-Seong Kang**

Correspondence to: Dae-Seong Kang Dept. of Dong-A University,37 NaKdong-Daero 550, beon-gil saha-gu, Busan, Korea, Tel.: +82-51-200-7710, Email: dskang@dau.ac.kr

초록

본 논문에서는 실시간 의미론적 분할에서 최근에 많이 사용되는 이중 경로 백본을 변형한 삼중 경로 방식과 BiSeNet v2 알고리즘의 핵심인 집계 레이어(Aggregation layer)를 mDAPPM(Modified Deep Aggregation Pyramid Pooling Module)로 변경하였을 때 실시간 의미론적 분할 성능 향상을 제안한다. 기존의 집계 레이어는 단순히 2가지 경로의 특징 표현을 병합하도록 설계되었다면, 본 논문에서는 삼중 경로 mDAPPM을 이용하여 다양한 크기의 폴링 커널과 서로 다른 깊이를 통합하여 다중 스케일 특징점 추출을 진행하였다. 그 결과 실시간 속도는 기존 BiSeNet v2 동일한 88fps가 나오면서, mIOU는 BiSeNet v2 대비 max_iter = 30,000 기준으로 최대 3% 향상된 결과를 얻었다.

Abstract

In this paper, we propose real-time Semantic segmentation performance improvements when changing the aggregation layer, the core of the recently popular Two-pathway backbone and the BiSeNet v2 algorithm, to Modified Deep Aggregation Pyramid Pooling Module (mDAPPM). Existing aggregation layers are designed to simply merge feature representations from two branches, but in this paper, we use Three-pathway mDAPPM to integrate different depths with different sizes of pooling kernels to proceed with multi-scale feature point extraction. As a result, the real-time speed is 88fps identical to that of existing BiSeNet v2, and mIOUs obtain up to 3% improvement based on max_iter= 30,000 over BiSeNet v2.

Keywords:

CNN, Deep learning, Semantic segmentation, DAPPM

Ⅰ. 서 론

현재 의미론적 분할은 자율 주행 차량의 실시간 주변 장면을 이해하는 데 중요한 기술이며, 실시간 성능 향상을 위한 방식은 백본 네트워크의 구조 설계에 따라 크게 3가지로 구분된다.

첫째, 팽창 백본은 다운 샘플링 작업 제거 및 고해상도 기능 표현을 유지하기 위해 해당 필터 커널 업 샘플링을 활용하며 DeepLab, PSPNet이 해당한다[1]-[4]. 둘째, 인코드-디코드 백본은 하향식 및 스킵 연결을 사용하여 디코더 부분에서 고해상도 기능 표현 방식으로 인코더는 컨텍스트 정보를 추출 심층 네트워크, 디코더는 조밀한 예측을 달성하기 위해 해상도를 복원 방식으로 ESPNet, ERFNet이 해당한다[5]. 셋째, 이중 경로 백본은 정확도와 속도 사이의 균형을 잘 맞추기 위해 일반적인 인코더의 경로 외에도 고해상도의 얕은 경로를 추가하여 풍부한 공간 세부 정보를 이용하는 방식으로 BiSeNet, ICNet이 해당한다[6]-[8]. 본 연구는 기존 BiSeNet v2의 이중 경로 백본의 문제점인 지역적 의미론적 특징 정보를 제대로 표현하지 못하여 일부 이미지에서 흐리게 표현되는 부분이 있어 삼중 경로 방식을 채용하여 개선하였고, 실시간 의미론적 분할의 정확도 향상을 위하여 기존의 집계 레이어 대신에 mDAPPM(Modified Deep Aggregation Pyramid Pooling Module)로 변경하여 실시간 의미론적 분할의 정확도 향상에 관해 연구하였다. 그림 1에는 기존 BiSeNet v2의 시스템 구성을 표시하였다.

Fig. 1.

Configuration diagram of BiSeNet v2


Ⅱ. 관련 이론

2.1 이중 경로 백본(Two-pathway backbone)

인코드-디코드 백본은 계산을 크게 줄이지만 반복적인 다운 샘플링 과정에서 부분 정보가 손실되고 업 샘플링으로 복원할 수 없기 때문에 의미론적 분할 성능이 저하된다. 이 문제를 완화하기 위해 양방향 아키텍처가 제안된다[2][6]. 의미론적 정보를 획득하는 일반적인 인코더의 한 경로 외에도 다른 고해상도의 얕은 경로는 풍부한 공간 세부 정보를 보충 자료로 제공된다. 정확도와 속도 사이의 균형을 잘 맞추기 위해 두 경로는 충분한 깊이의 경량 인코더와 몇 개의 회선으로 구성된 얕지만 넓은 분기가 될 수 있다. BiSeNet v2에서는 두 경로가 처음에 분리되어 있으며 본 논문에서는 두 경로 외에 깊이 경로(Deep branch)를 추가하여 입력 영상 정보가 마지막 합하여 특징이 추가될 수 있도록 설계되었다.

그림 2에는 이중 경로 백본 구조 및 제안하는 삼중 경로 백본 구조를 표시하였다.

Fig. 2.

Two-pathway backbone and proposed backbone structure

2.2 집계 레이어(Aggregation layer)

BiSeNet v2 알고리즘의 핵심인 집계 레이어는 의미론적 경로(Semantic branch)와 세부 경로(Detail branch)에서 추출된 특징을 융합하는 역할을 수행한다. 의미론적 경로는 높은 레벨용이며, 세부 경로는 낮은 레벨용이다. 단순한 특징점의 조합은 정보의 다양성을 무시하여 성능은 저하하고 최적화를 어렵게 만들고 인식률 저하로 이어진다. 그래서 양 경로의 보완 정보를 융합하기 위해 BiSeNet v2에서는 집계 레이어를 추가하였다. 즉 의미론적 경로의 컨텍스트 정보를 사용하여 세부 경로의 기능을 합치는 방식이다. 이러한 방식은 단순한 조합에 비해 효율적인 통신을 두 지점 간에 가능하게 하는 방식이다. 그림 3에는 집계 레이어의 동작 방식이다[6].

Fig. 3.

Principle of aggregation layer operation

2.3 DAPPM (Deep Aggregation Pyramid Pooling Module)

DAPPM는 새로운 컨텍스트 추출 모듈로 딥 피처 집계와 피라미드 폴링으로 구성되어 있다. 그림 4에는 DAPPM[7]의 전체 구조도이다.

Fig. 4.

Principle of DAPPM operation

이것은 Res2Net[9] 및 WSPP(Waterfall Atrous Spatial Pooling)[10] 구조에서 영감을 받아 DDRNet에 최초 적용이 되었다. DAPPM 내부에서 더 큰 풀링 커널에 의해 추출된 컨텍스트는 더 깊은 정보 흐름과 통합되며, 다양한 크기의 풀링 커널과 서로 다른 깊이를 콘캣하여 다중 스케일 특성을 얻는다. 많은 컨볼루션 레이어와 더 복잡한 구성으로 되어 있지만, 입력 이미지 해상도의 16x16에 불과하므로 추론 속도에 영향을 미치지 않는다.


Ⅲ. 제안하는 방법

3.1 삼중 경로 mDAPPM

BiSeNet v2 알고리즘을 활용하여 mDAPPM을 적용하기 위해서는 의미론적 경로의 마지막 단계인 컨텍스트 임베딩 블록의 크기를 기존 1/32에서 1/64로 변경이 되어야 한다. 이렇게 되면 mDAPPM의 구조 변경 없이도 바로 BiSeNet v2와 연결을 할 수 있다. 그리고 삼중 경로도 기존 세부 경로와 별개로 깊이경로의 이미지 크기를 1/8로 줄여 입력 이미지에서 바로 특징점이 마지막 단에 전달이 될 수 있도록 하였다. 콘벌루션은 기존의 세부 경로와 같은 Conv2d를 사용하였다. 그리고 의미론적 경로의 특징 맵에서 손실을 계산하여 부스터 훈련 전략을 통해 분할 헤드는 기존 BiSeNet v2의 방식을 그대로 계속 활용했다. 그리고 양방향 가이드(Bilateral guided) 집계 레이어 마지막에 합한 것처럼 맨 마지막에 의미론적 경로의 컨텍스트 정보와 세부 경로의 컨텍스트 정보, 그리고 깊이경로의 입력 이미지 특징점까지 합치는 방식으로 수행하였다. 그림 5는 삼중 경로 mDAPPM을 BiSeNet v2에 적용한 방법을 그림으로 상세히 표현하였다.

Fig. 5.

Modified DAPPM based BiSeNet system

3.2 콘벌루션(Convolution) 계층

표 1에는 BiSeNet v2 콘벌루션 계층 구조를 도식화했다. 세부 경로, 의미론적 경로와 깊이경로의 단계별 변화에 따른 설정 기준을 제시하였다.

Convolution layer

세부 경로는 1/2, 1/4, 1/8로 출력 특성 맵을 추출(얕은 레이어, 넓은 채널)하며, 깊이경로는 1/8로 출력 특성 맵을 추출(좁은 레이어, 깊은 채널)하며, 의미론적 경로는 1/2 ~ 1/64로 의미론적 정보 추출에 활용(깊은 레이어, 좁은 채널)한다.

3.3 변형 DAPPM

mDAPPM은 기존 DAPPM에서 더 깊은 특징점 추출을 위한 1x1 Conv를 각각 라인에 추가하였다. 그리고 그림 6에서는 mDAPPM의 구조에 대해 상세히 표현하였다. 다양한 크기의 풀링 커널과 서로 다른 스트라이드를 통하여 다양한 영역에서 다중 스케일 특징점을 추출하고, 업 샘플링한 다음 계층적 잔차 방식으로 서로 다른 스케일의 컨텍스트 정보를 융합한 다음 1x1 컨볼루션을 사용하였다. 그리고 각 기능 맵을 압축하기 위해 1x1 컨볼루션을 추가하였다.

Fig. 6.

Principle of modified DAPPM operation


Ⅳ. 실험 방법 및 결과

삼중 경로 mDAPPM을 활용한 실시간 의미론적 분할 성능 실험은 CPU: AMD Ryzen 7 3700X 8-Core Processor 3.6GHz, GPU: NVIDIA GeForce RTX 8000TI, RAM 32GB 컴퓨터 환경에서 실험을 진행하였다. 데이터 세트는 1개의 벤치마크 데이터 세트인 Cityscapes[11]만 사용하였다. 데이터 세트 정보는 표 2에 자세히 표시하였다.

Information of dataset

4.1 실험 결과

기존 BiSeNet v2 알고리즘, BiSeNet v2에 mDAPPM을 적용한 경우와 삼중 경로 mDAPPM을 모두 적용한 3가지 조건으로 실시간 분할 성능 향상을 비교 실험한 결과를 표 3에 max_iter = 30,000과 150,000 기준으로 테스트한 결과를 표시하였다.

Test result based on 30,000 and max_iter = 150,000

싱글스케일(ss)로 학습한 테스트한 결과 mIOU 큰 차이가 없으나 멀티스케일(ms)로 학습한 후 테스트한 mIOU는 표 3에서처럼 최대 3% 개선된 결과를 얻었다. 하지만 플립증강 방식과 플립평가 방식을 통한 학습에서는 mIOU가 큰 차이가 없었다.

그리고 표 4에는 삼중 경로 mDAPPM을 활용한 실시간 프레임 Segmentation 성능 비교 실험 결과, max_iter = 150,000 기준으로 BiSeNet v2와 같은 88fps 결과가 나왔다.

Test result of fps based on max_iter = 150,000

그리고 표 5에는 BiSeNet v2, mDAPPM 그리고 삼중 경로 mDAPPM에 대해서 max_iter = 30,000과 150,000 기준으로 Segmentation 성능 향상을 테스트한 결과를 표시하였다. 참고로 mDAPPM은 Modified DAPPM 만을 적용하였다는 의미이다. 그리고 실험은 여러 이미지 중 5가지 이미지를 테스트한 결과만을 표시하였다. 기존 BiSeNet v2보다 세세한 부분에 대해 개선이 되었으며, max_iter = 30,000에서는 많은 부분이 개선된 것을 알 수 있으나 max_iter = 150,000에서는 큰 차이는 없으나 일부 이미지에서 차이를 확인 할 수 있다. 자세한 내용은 표 6에 표시하였다.

max_iter = test segmentation result based on 30,000 and 150,000

표 6에는 max_iter = 30,000과 150,000 기준으로 주요 포인트 성능 차이를 그림으로 보여 준다. image_1에서는 BiSeNet v2만 표지판 위쪽으로 건물의 기둥을 도로 안내 표지판 기둥으로 잘못 인식하여 Segmentation 한 결과를 보이며, image_2에서는 BiSeNet v2에서 도로 안내 표지판을 정확히 분할을 하지 못하나 삼중 경로 mDAPPM에서는 정확히 표시되는 결과를 얻었다. 그리고 image_3에서는 가로등 기둥이 BiSeNet v2에서 표시되지 않으나 삼중 경로 mDAPPM에서는 정확히 표시되는 것을 알 수 있다. image_4에서는 BiSeNet v2에서 도로 안내 표지판을 정확히 분할하지 못하나 삼중 경로 mDAPPM에서는 정확히 표시되고 있다. 하지만 image_5에서는 수직으로 설치된 상점 간판이 BiSeNet v2에서는 정확히 분할을 하나 삼중 경로 mDAPPM에서는 일부만 표시되는 결과를 얻었다. 실험 결과 삼중 경로 mDAPPM이 모든 면에서 BiSeNet v2보다 의미론적 분할 성능이 좋다고 말하기는 어려우나 객체 검출 성능은 확실히 개선된 것으로 보인다.

Key performance comparison of segmentation


Ⅴ. 결 론

본 논문에서는 실시간 의미론적 분할에서 최근에 많이 사용되는 이중 경로 백본의 변형한 삼중 경로 방식과 BiSeNet v2 알고리즘의 핵심인 집계 레이어를 mDAPPM으로 변경하였을 때 실시간 의미론적 분할 성능 향상을 제안하였다. 실험 결과 기존 BiSeNet v2 알고리즘의 핵심인 이중 경로 백본 및 집계 레이어보다 삼중 경로 mDAPPM 기반 BiSeNet v2 알고리즘은 특징점 추출에 강인한 결과를 얻었다. max_iter = 30,000 기준으로 mIOU가 3% 정도 개선되었다. 하지만 max_iter = 150,000 기준으로는 mIOU가 최대 1% 정도 개선된 결과를 얻었다. 그리고 실시간 FPS(Frame Per Second)는 기존 BiSeNet v2와 동일한 88fps를 달성하였다. 추후 삼중 경로 mDAPPM의 추가 기술 개발과 여러 실험을 통해 mIOU 및 FPS의 개선된 성능을 끌어내기 위한 추가 연구가 필요하다.

Acknowledgments

이 논문은 2017 정부(교육부)의 재원으로 한국연구재단의 지원을 받아 수행된 연구임(No.2017R1D1A1B04030870)

References

  • L. C. Chen, G. Papandreou, F. Schroff, and Hartwig Adam, "Rethinking Atrous Convolution for Semantic Image Segmentation" Computer Vision and Pattern Recognition, arXiv preprint arXiv:1706.05587v3, , Dec. 2017.
  • L. C. Chen, Yukun Zhu, George Papandreou, Florian Schroff, and Hartwig Adam, "Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation" The European Conference on Computer Vision (ECCV), pp. 801-818, Aug. 2018. [https://doi.org/10.1007/978-3-030-01234-2_49]
  • J. S. Kim and D. S. Kang, " RSPP Based Semantic Segmentation Performance Improvement Study" Proceedings of KIIT Conference, Chungju, Korea, pp. 15-18. Oct. 2020.
  • J. S. Kim and D. S. Kang, " Improved Segmentation Object Detection Using Discrete Wavelet Transform(DWT)" Journal of Korean Institute of Information Technology (JKIIT), pp. 249-251, Nov. 2019.
  • Sachin Mehta, Mohammad Rastegari, Linda Shapiro, and Hannaneh Hajishirzi, "ESPNetv2: A Light-Weight, Power Efficient, and General Purpose Convolutional Neural Network", Computer Vision and Pattern Recognition (cs.CV), pp. 9190-9200, Jun. 2019. [https://doi.org/10.1109/CVPR.2019.00941]
  • Changqian Yu, Changxin Gao, Jingbo Wang, Gang Yu, Chunhua Shen, and Nong Sang, "BiSeNet V2: Bilateral Network with Guided Aggregation for Real-time Semantic Segmentation", Computer Vision and Pattern Recognition (cs.CV), https://arxiv.org/abs/2004.02147, , Apr. 2020.
  • Y. Hong, H. Pan, W. Sun, and Y. Jia, "Deep Dual-resolution Networks for Real-time and Accurate Semantic Segmentation of Road Scenes", Computer Vision and Pattern Recognition (cs.CV), https://arxiv.org/abs/2101.06085, , Jan. 2021.
  • Hengshuang Zhao, Xiaojuan Qi, Xiaoyong Shen, Jianping Shi, and Jiaya Jia, "ICNet for Real-Time Semantic Segmentation on High-Resolution Images", Proceedings of the European Conference on Computer Vision (ECCV), Munchi, Germany, pp. 405-420, Aug. 2018.
  • S. H. Gao, M. M. Cheng, Kai Zhao, Xin-Yu Zhang, Ming-Hsuan Yang, and Philip Torr, "Res2Net: A New Multi-Scale Backbone Architecture", IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol 43, pp. 652-662, Aug. 2019. [https://doi.org/10.1109/TPAMI.2019.2938758]
  • B. Artacho and A. Savakis, "Waterfall Atrous Spatial Pooling Architecture for Efficient Semantic Segmentation", Sensors, Vol. 19, No. 24, 5361, Oct. 2019. [https://doi.org/10.3390/s19245361]
  • M. Cordts, M. Omran, S. Ramos, T. Rehfeld, M. Enzweiler, R. Beꠓnenson, U. Franke, S. Roth, and B. Schiele, "The cityscapes dataset for semantic urban scene understanding", in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, USA, pp. 3213–3223, Sep. 2016. [https://doi.org/10.1109/CVPR.2016.350]
저자소개
김 종 식 (Jong-Sik Kim)

1991년 2월 : 부경대학교 전자공학과(공학사)

2020년 9월 ~ 현재 : 동아대학교 전자공학과 박사과정

관심분야 : 영상처리, AI

강 대 성 (Dae-Seong Kang)

1994년 5월 : Texas A&M 대학교 전자공학과(공학박사)

1995년 ~ 현재 : 동아대학교 전자공학과 교수

관심분야 : 영상처리, AI, 패턴인식

Fig. 1.

Fig. 1.
Configuration diagram of BiSeNet v2

Fig. 2.

Fig. 2.
Two-pathway backbone and proposed backbone structure

Fig. 3.

Fig. 3.
Principle of aggregation layer operation

Fig. 4.

Fig. 4.
Principle of DAPPM operation

Fig. 5.

Fig. 5.
Modified DAPPM based BiSeNet system

Fig. 6.

Fig. 6.
Principle of modified DAPPM operation

Table 1.

Convolution layer

Table 2.

Information of dataset

Dataset Train data Validation data Test data
Cityscapes 2975 500 1525

Table 3.

Test result based on 30,000 and max_iter = 150,000

Method mIoU(%)
ss ssc msf mfsc
ss : single scale,  ssc : single scale crop evaluation, 
msf : multi-scale evaluation with flip augment,
mscf : multi-scale crop evaluation with flip evaluation.
BiSeNet V2(30) 0.65 0.65 0.65 0.65
mDAPPM(30) 0.66 0.66 0.67 0.67
Three-pathway mDAPPM(30) 0.66 0.66 0.68 0.67
BiSeNet V2(150) 0.74 0.74 0.75 0.75
mDAPPM(150) 0.74 0.74 0.76 0.76
Three-pathway mDAPPM(150) 0.74 0.74 0.76 0.76

Table 4.

Test result of fps based on max_iter = 150,000

Method FPS
BiSeNet V2 Three-pathway mDAPPM
max_iter = 150,000 88 88

Table 5.

max_iter = test segmentation result based on 30,000 and 150,000

Image_1 RGB Ground truth
max_iter 30k 150k
BiSeNet V2
mDAPPM
Three-pathway mDAPPM
Image_2 RGB Ground truth
max_iter 30k 150k
BiSeNet V2
mDAPPM
Three-pathway mDAPPM
Image_3 RGB Ground truth
max_iter 30k 150k
BiSeNet V2
Three-pathway mDAPPM
Image_4 RGB Ground truth
max_iter 30k 150k
BiSeNet V2
Three-pathway mDAPPM
Image_5 RGB Ground truth
max_iter 30k 150k
BiSeNet V2
Three-pathway mDAPPM

Table 6.

Key performance comparison of segmentation

image_1 30k 150k
BiSeNet V2
mDAPPM
Three-pathway mDAPPM
image_2 30k 150k
BiSeNet V2
mDAPPM
Three-pathway mDAPPM
image_3 30k 150k
BiSeNet V2
mDAPPM
image_4 30k 150k
BiSeNet V2
mDAPPM
image_5 30k 150k
BiSeNet V2
mDAPPM