Korean Institute of Information Technology

Home

The Journal of Korean Institute of Information Technology - Vol. 20 , No. 3

[ Article ]
The Journal of Korean Institute of Information Technology - Vol. 20, No. 3, pp. 9-17
Abbreviation: Journal of KIIT
ISSN: 1598-8619 (Print) 2093-7571 (Online)
Print publication date 28 Feb 2022
Received 22 Dec 2021 Revised 17 Mar 2022 Accepted 20 Mar 2022
DOI: https://doi.org/10.14801/jkiit.2022.20.3.9

NRP-Sys: YOLO 기반 동일 물체 분리 검출을 위한 비선형 회귀 예측 시스템
한준* ; 강대성**
*동아대학교 전자공학과 석사과정
**동아대학교 전자공학과 교수(교신저자)

NRP-Sys: Nonlinear Regression Prediction System for YOLO-based Separation Detection of Identical Objects
Jun Han* ; Dae-Seong Kang**
Correspondence to : Dae-Seong Kang Dept. of Dong-A University, 37 NaKdong-Daero 550, beon-gil saha-gu, Busan, Korea, Tel.: +82-51-200-7710, Email: dskang@dau.ac.kr

Funding Information ▼

초록

최근 4차 산업혁명이 가속됨에 따라 딥러닝은 제조업과의 융합이 두드러지고 있다. 제조업의 공정 과정은 대부분 수동적인 작업으로 이루어지고 있고 숙련된 작업자에 의존도가 매우 높다. 그로 인해 사람에 의한 실수나 오류 때문에 작업의 속도와 생산성이 저하되고 있다. 이러한 실수를 보완하기 위해서 딥러닝의 기술을 접목하여 개선을 할 수 있다. 본 논문에서는 YOLO 기반 철근 끝점 인식 및 추적을 통한 자동 철근 교정 작업을 하는 철근 끝점 예측 검출 모델 NRP-Sys(Nonlinear Regression Prediction System)를 제안한다. 비전 카메라로부터 철근 끝점 검출 및 추적을 수행한다. 이를 통해 수집한 좌표 정보를 회귀 분석 중 급격한 변화에 덜 민감한 2차 회귀 함수로 끝점 위치를 예측한다. 제안하는 방법은 둘 이상의 끝점의 시작점을 설정하여 위치를 분리하고 각각을 예측하는 방법으로 예측값과 실제값을 비교하여 out-cell의 평균 정확도 94.51%, in-cell의 평균 정확도 95.53%를 보인다.

Abstract

As the 4th Industrial Revolution accelerates recently, convergence with the manufacturing industry is emerging. Most of the manufacturing process processes are passive and highly dependent on skilled workers. As a result, the speed and productivity of work are deteriorating due to human mistakes or errors. In order to compensate for these mistakes, improvement can be made by combining deep learning technology. In this paper, we propose a reinforcement endpoint prediction detection model NRP-Sys(Nonlinear Regression Prediction System) that automatically corrects rebar through YOLO-based reinforcement endpoint recognition and tracking. The reinforcement endpoint is detected and tracked from the vision camera. Through this, the location of the endpoint is predicted with a quadratic regression function that is less sensitive to rapid changes during regression analysis. The proposed method shows 94.51% average accuracy of out-cell and 95.53% average accuracy of In-cell by comparing the predicted and actual values by setting the starting point of two or more endpoints to separate locations and predicting each.


Keywords: deep learning, object detection, regression, prediction, YOLO

Ⅰ. 서 론

최근 4차 산업혁명이 가속함에 따라 생산 및 제조 기술과의 융합으로 스마트 공장이 밝은 전망을 보인다. 인공지능 기반의 기술들을 여러 분야에서 적용되어 새로운 혁신을 보여주고 있다[1].

철근 가공생산에서 철근 교정 작업은 품질에 영향을 미치는 중요한 항목 중 하나이다. 현재 가공 철근 교정은 절단/절곡과 같은 교정 작업이 자주 이루어지며 숙련된 작업자가 필수적이다. 교정 오류로 불량 제품이 생산되기 시작하면 장비 가동을 반드시 멈추고 올바른 철근이 생산되기 위해 교정 작업을 수행해야 한다. 그로 인해 발생하는 시간적 지연이 가공 철근 생산성 하락에 주요 요인이 된다. 또한, 사람이 직접 생산에 관여하기 때문에 안전사고의 발생 확률이 높다는 문제점을 가지고 있다. 그러므로 작업자의 숙련도 의존 없이 정확하게 판단하고 안전성을 지닌 교정 작업과 불량 제품이 나오기 전 교정에 대한 오류를 예측할 수 있는 기술이 필요하다. 하지만 국내에서는 기계를 이용한 철근 절곡/절단 자동화 설비는 하드웨어적인 기계장치 중심으로 구성되어있고, 국외에서도 설비 중심의 자동화에 중점을 두고 있다[2][3].

기존의 물체 예측 시스템은 대부분 그림 1과 같이 보행자 검출이나 자율주행 자동차에 치중되어 있으며 카메라뿐만 아니라 거리 센서나 라이다 센서 등 여러 센서를 통한 예측 기법이 많다[4][5].


Fig. 1. 
Prediction system through IoT sensor

본 논문에서는 카메라를 통해 얻어지는 영상 정보만을 딥러닝의 기술을 적용하여 개선된 물체 예측 시스템을 구현하였다. 기존의 OPPDet(Object Position Prediction Detection)은 하나의 끝점만 검출 및 추적을 통해 끝점 하나만을 예측했다[6]. 본 논문에서는 둘 이상의 끝점을 예측하기 위해 비전 카메라로부터 들어오는 철근 끝점 영상으로 기존의 OPPDet 알고리즘에 끝점에 대한 시작점을 설정하여 분리하고 끝점 각각을 예측하는 모델 NRP-Sys(Nonlinear Regression Prediction System)를 제안한다.


Ⅱ. 관련 이론
2.1 YOLO

물체 인식은 특정 이미지에서 Bounding Box를 통해 영역을 설정하고 해당 영역 내 물체의 검출 여부나 물체의 종류를 구별한다[7].

기존의 물체 검출은 두 단계로 나눠 검출하는 two-stage 검출기로 정확도는 높지만 속도는 느린 편이다. 하지만 YOLO는 one-stage 검출기로 이미지를 한 번만 보고 물체의 종류와 위치를 판단하기 위해 만들어진 심층 신경망이다. 정확도는 two-stage 검출기보다 조금 낮지만 빠른 속도를 가지고 있어 실시간 상황에 매우 알맞으며 최근 연구에서는 정확도와 검출 속도 둘 다 개선되었다.

YOLO의 물체 인식 과정은 우선 이미지를 S*S개의 grid cell로 나누고 cell마다 Anchor Box를 통해 하나의 객체를 추측한다. 그리고 Bounding Box를 통해 그림 2와 같이 객체 위치 및 크기를 파악하여 시각화한다. 또한, 물체의 종류와 위치를 동시에 검출하기 때문에 위치에 대한 물체 중심 좌표 데이터를 쉽게 얻을 수 있다.


Fig. 2. 
YOLO's object detection result

2.2 비선형 회귀 분석

회귀 분석은 2가지 이상의 변수 간에 함수관계를 파악하고 통계적으로 추론하는 기술이다. 시간에 따라 변하는 데이터나 가설, 인과 관계를 통계적 예측한다. 회귀 계수로 크게 선형과 비선형을 나누어지며 대부분 선형성을 만족하지 않고 실제 데이터를 정확히 반영하지 못해 오차가 발생하게 된다. 하지만 그림 3과 같이 비선형 회귀는 유연성을 지니고 있어 복잡한 데이터를 가지는 패턴도 비교적 정확한 분석이 가능하다[8][9].


Fig. 3. 
Non-linear and linear regression graphs

2.3 오버피팅

모델 학습을 진행하면서 만나게 되는 일반적인 문제로 학습데이터가 모자라거나 비슷한 데이터로 인해 학습이 제대로 되지 않아 정확도가 떨어지게 되는 언더피팅(Underfitting)과 학습데이터에 너무 정확히 들어맞게 학습이 된 오버피팅(Overfitting)이 있다. 오버피팅은 학습데이터에 너무 정확하게 학습되어있으므로 학습데이터를 가지고 판단하면 아주 높은 정확도를 보이지만 다른 데이터를 입력으로 넣으면 정확도가 급격히 떨어지는 경우가 있다. 하지만 본 논문에서는 특정 물체 1가지에 대해서만 정확히 인식하는 것을 목적으로 오버피팅의 성질을 이용한다[10].

2.4 군집화

비지도 학습의 대표적인 기술로 레이블이 지정되어있지 않은 데이터를 그룹화 하는 분석 알고리즘이다. 그림 4와 같이 데이터들의 특성을 고려해 비슷한 특성을 가진 데이터들의 집합 인 클러스터를 정의하고 데이터 집단에 대표할 수 있는 중심점을 찾는 것으로 데이터 마이닝의 한 방법이다.


Fig. 4. 
General results of clustering

본 논문에서는 이러한 군집화의 개념을 기반으로 시간에 대한 데이터 위치를 분석하여 둘 이상의 물체를 구분하는 알고리즘으로 사용했으며[11], 추가로 물체의 시작점을 초기에 설정하고 같은 물체의 위치를 다른 물체처럼 처리할 수 있도록 구분하여 데이터가 수집하였다.


Ⅲ. 제안하는 방법

본 논문에서 그림 5는 제안하는 방법으로 특정 물체를 학습하여 실시간 검출하며 수집된 데이터를 기반으로 회귀 분석을 통해 미래의 위치를 예측하는 알고리즘이다. 아래는 그 과정을 설명한 것이다.


Fig. 5. 
System flowchart of NRP-Sys model

우선, 철근 끝점을 검출 및 추적하기 위해서 철근 끝점에 대한 데이터셋을 구축한다. 테스트 영상을 프레임마다 캡처를 수행하여 이미지를 추출한다. 추출된 이미지는 물체 인식을 위해 특정 클래스 정보를 지정해 줘야 한다.

본 논문에서는 철근 끝점에 대한 인식 및 검출이 필요하므로 철근 끝점 위치와 크기를 레이블링 프로그램으로 설정하고 학습을 위한 데이터셋 형태로 생성한다. 만들어진 데이터셋은 YOLO를 통해 학습하는데 사용된다.

데이터셋의 클래스는 1가지이기 때문에 YOLO의 초기 설정값 수정을 수행하고 특정 물체의 인식률을 높이려고 일부러 비슷한 이미지와 환경에 대한 정보를 사용하여 오버피팅으로 진행한다. 그리고 학습이 완료된 가중치를 YOLO v3에 적용하고 비전 카메라로부터 들어오는 철근 끝점 영상을 입력으로 사용한다. 입력 영상은 학습된 YOLO v3에 의해 바운딩 박스를 그리며 철근 끝점을 검출 및 추적하여 철근 끝점의 위치 정보를 좌표의 형태로 얻게 된다.

다음으로 철근 끝점의 중심 좌표(x, y)를 시간에 대한 식(x, t), (y, t)으로 나눈다. 철근 끝점이 두 개이기 때문에 (x1, t), (y1, t), (x2, t), (y2, t) 4개의 식을 만들 수 있다. 여기서 t는 시간 축으로 프레임의 흐름을 말하며 프레임마다 인식되는 물체에 대한 좌표를 시간 순서대로 배열을 통해 저장한다. 마지막으로, 각각의 식을 2차식 비선형 회귀 분석을 통해 예측 함수를 4개를 생성한다. 예측 함수가 만들어지면 예측을 원하는 위치의 시간 정보를 입력하여 출력으로 예측 결과를 확인할 수 있다. 여기서 사용한 비선형 회귀 함수는 꺾임의 정도가 다른 비선형 함수에 비해 적어 예측 오차에 대해 보완이 가능하므로 2차 식을 적용했다.

앞의 과정은 기존의 OPPDet와 비슷하지만 OPPDet은 하나 이상의 물체가 인식된다면 위치가 다른 두 물체에 대한 구분이 어렵다. 본 논문에서 제안하는 방법은 NRP-Sys이다. 위치 정보를 좌표의 형태로 바꾸는 두 번째, 세 번째 과정 사이에 현재 프레임의 좌표 정보와 직전 프레임의 좌표 정보를 비교한다. 그리고 근접한 정보들끼리 묶는 작업과 철근 초기 위치 구분을 위한 시작점 설정을 추가하여 인식되는 두 개의 물체 위치 정보를 나눈다. 오류를 방지하기 위해 급격한 변화를 가져오는 데이터는 불필요한 데이터로 분류하여 버림을 통해 끝점 예측에 오류를 줄였다[12].


Ⅳ. 실험결과

본 논문의 실험은 철근 사출 영상을 통해 진행했다. 우선 철근 끝점에 대해 학습이 완료된 모델을 통해 철근 끝점 인식률을 확인해보았을 때 그림 6과 같이 원하는 물체와 위치 및 크기에 대한 바운딩 박스가 시각적으로 표시가 된다.


Fig. 6. 
Rebar endpoint recognition accuracy

그림 7과 같이 기존의 물체 하나만 검출 및 추적하는 경우와 같은 물체 두 개를 동시에 검출하는 경우를 비교하고 같은 물체 구분이 없을 때의 결과를 보았다. 물체의 구분이 없으면 회귀 예측 수행 시 데이터의 변화가 심해 정확한 예측이 힘들어지는 걸 알 수 있다.


Fig. 7. 
Tracking and prediction results of an object

그림 8은 물체 초기 위치 시작점 설정을 통해 그림 9와 같이 물체의 위치를 구분하고 각각 데이터를 수집 및 분류하여 회귀 예측 시 정확한 위치 예측을 얻을 수 있다.


Fig. 8. 
Object classification prediction result through initial starting point setting


Fig. 9. 
Separation of two object detection data

제안하는 방법을 통해 그림 10과 같이 이미지에서의 물체 인식 좌표값을 그대로 표시한 것으로 철근 끝점이 두 개이기 때문에 (x1, t), (y1, t), (x2, t), (y2, t) 4개의 식에 대한 그래프를 생성하여 시각화하였다. x, y는 물체의 위치이고 t는 시간축을 의미한다. 노란색의 좌표는 (x1, t), (y1, t) 파란색의 좌표는 (x2, t), (y2, t)를 그래프의 형태로 표시한 것이다. 시간에 대한 좌표 정보의 값과 예측 함수의 모양을 볼 수 있다.


Fig. 10. 
Separation of rebar endpoint tracking data and regression analysis

또한, 그림 11은 기존의 3차 회귀 함수 (a)에서 2차 회귀 함수 (b)로 변화에 따른 그래프 차이를 통해 예측 오차의 차이가 줄어드는 걸 알 수 있다.


Fig. 11. 
Difference in the prediction graph according to the change in the regression function

철근 끝점이 검출 및 추적이 되며 예측 그래프에서 얻은 정보를 통해 몇 프레임 앞의 예측 지점을 그림 12와 같이 빨간 점과 파란 점으로 시각화한 것이다. 빨간 점은 위 철근에 대한 예측 지점이고 파란 점은 아래 철근에 대한 예측 지점이다.


Fig. 12. 
Visualize grid cells through rebar endpoint tracking and prediction

표 1은 철근 끝점에 대한 실제 위치(x, y)와 예측 위치(x, y) 사이의 정확도를 나타낸 것이다. 평균 정확도가 94.51~95.53%로 상당히 높은 정확도라는 것을 알 수 있다.

Table 1. 
Comparative analysis of predicted location and actual location
Out coil
Prediction value Actual value Accuracy(%)
[ 682.80, 734.26 ] [ 600, 753 ] 91.86
[ 607.46, 722.02 ] [ 588, 700 ] 96.77
[ 536.84, 761.55 ] [ 553, 700 ] 94.14
[ 612.84, 684.00 ] [ 553, 679 ] 94.22
[ 554.91, 646.89 ] [ 555, 647 ] 99.98
[ 708.41, 686.18 ] [ 855, 715 ] 89.41
[ 766.41, 699.06 ] [ 816, 706 ] 96.47
[ 826.81, 688.99 ] [ 919, 681 ] 94.4
[ 494.61, 749.45 ] [ 552, 705 ] 91.65
[ 519.64, 733.73 ] [ 537, 703 ] 96.20
Average accuracy(%) 94.51
In coil
Prediction value Actual value Accuracy(%)
[ 562.74, 723.19 ] [ 551, 719 ] 98.64
[ 600.44, 834.43 ] [ 622, 784 ] 95.05
[ 589.61, 823.57 ] [ 610, 786 ] 95.94
[ 552.22, 846.03 ] [ 538, 801 ] 95.87
[ 437.25, 850.77 ] [ 484, 794 ] 91.60
[ 441.48, 816.95 ] [ 487, 784 ] 93.22
[ 772.33, 832.44 ] [ 736, 783 ] 94.37
[ 560.61, 714.34 ] [ 561, 714 ] 99.94
[ 447.71, 729.98 ] [ 495, 736 ] 94.81
[ 530.22, 713.09 ] [ 498, 726 ] 95.88
Average accuracy(%) 95.53

예측을 통해 얻어지는 좌표를 실제 환경에 적용하기 위해서는 그리드셀과 매칭이 중요하며 예측 지점을 그리드셀 위에 표시하면 그리드셀에서 해당하는 셀 번호를 획득할 수 있다. 각 셀 번호는 표 2과 같이 교정을 위한 고유의 롤러 교정치 값이 존재하며 매칭이 된 셀 번호를 통해 사람이 수동으로 확인했을 때보다 매우 빠르게 철근 교정 기계에 정보를 전달한다. 영상이 진행함에 따라 실제 위치와 예측 위치와 아주 근접한 것을 알 수 있다. 롤러 교정값은 [‘R1’, ‘R2’, ‘R3’, ‘R4’, ‘R5’, ‘R6’, ‘R7’, ‘R8’, Out, In]의 형태로 전송한다. 그리고 실제 교정을 위해 사용하는 롤러는 R5, R6, R7, R8이며, Out은 R5, R7 / In은 R6, R8으로 조절한다.

Table 2. 
Roller braces that match the prediction point cell number
Roller calibration transfer protocol form
[ ‘0’, ‘0’, ‘0’, ‘0’, ‘40’, ‘40’, ‘60’, ‘-30’, 78, 31]
[ ‘0’, ‘0’, ‘0’, ‘0’, ‘40’, ‘40’, ‘60’, ‘-30’, 78, 31]
[ ‘0’, ‘0’, ‘0’, ‘0’, ‘40’, ‘40’, ‘60’, ‘-30’, 78, 31]
[ ‘0’, ‘0’, ‘0’, ‘0’, ‘40’, ‘0’, ‘60’, ‘-30’, 78, 32]
[ ‘0’, ‘0’, ‘0’, ‘0’, ‘40’, ‘0’, ‘60’, ‘-30’, 78, 32]
[ ‘0’, ‘0’, ‘0’, ‘0’, ‘40’, ‘0’, ‘60’, ‘-30’, 78, 32]
[ ‘0’, ‘0’, ‘0’, ‘0’, ‘40’, ‘0’, ‘60’, ‘-30’, 78, 32]
[ ‘0’, ‘0’, ‘0’, ‘0’, ‘40’, ‘0’, ‘60’, ‘-30’, 78, 32]
[ ‘0’, ‘0’, ‘0’, ‘0’, ‘40’, ‘0’, ‘60’, ‘-30’, 78, 32]
[ ‘0’, ‘0’, ‘0’, ‘0’, ‘40’, ‘0’, ‘60’, ‘-30’, 78, 32]


Ⅴ. 결 론

본 논문에서는 기존의 YOLO 기반 비선형 회귀 분석 철근 끝점 예측 모델 OPPDet에 둘 이상의 물체 분리 알고리즘과 2차 식 회귀 함수 및 철근 초기 위치 시작점 설정을 추가하여 NRP-Sys을 제안하였다. 제안된 방법은 실제 위치와 예측 위치의 좌표가 아주 근접하여 평균 정확도가 94.51~95.53%로 높은 정확도를 보여준다. 그리고 YOLO 기반이라 실시간으로 분석이 가능하며 철근 위치에 대한 오류를 예측함으로써 제품의 불량률을 줄이고 생산되기 전에 교정 시간과 정확도의 개선을 이루었다.

하지만 현재 가까운 미래를 예측하는 것에 대한 정확도는 높지만 먼 미래를 예측하는 데에 있어서 정확도가 떨어지는 어려움이 있어 추가적인 연구가 필요하다.


Acknowledgments

이 논문은 2017 정부(교육부)의 재원으로 한국연구재단의 지원을 받아 수행된 연구임(No.2017R1D1A1B04030870)


References
1. W. Sagong, S. C. Lee, Y. H. Jang, and C. H. Park, "Analysis of Data from a Rubber Manufacturing Process Based on Hadoop Ecosystem and Machine Learning for Smart Factor", KIISE Transactions on Computing Practices, Vol. 26, No. 12, pp. 519-527, Dec 2020.
2. J. S. Kho and J. P. Jeong, "Design and Implementation of Smart Factory MES Model Based on Process Visualizationa for Small and Medium Business in Korea", The Journal of The Institute of Internet, Broadcasting and Communication (IIBC), Vol. 19, No. 5, pp. 135-141, Oct 2019.
3. H. C. Han, J. H. Jung, S. R. Kim and Y. G. Kim, "Decision-making system for the resource forecasting and risk management using regression algorithms", The Journal of The Institute of Internet, Broadcasting and Communication (IIBC), Vol. 15, No. 6, pp. 311-319, Dec 2015.
4. S. H. Lee and N. I. Cho, "Pedestrian detection using YOLO and Tracking", Proceedings of the Korean Society of Broadcast Engineers Conference. pp. 79-81, Jun. 2018.
5. A. Kamenev and N. Smolyanskiy, "PredictionNet: Predicting the Future in Multi-Agent Environments for Autonomous Vehicle Applications", GTC 2020, 2020.
6. J. Han and D. S. Kang, "OPPDet: Object Position Prediction Detection Model for Predicting Endpoints of Rebar", Proceedings of KIIT Conference, Cheongju Korea, pp. 135-137, Oct. 2020.
7. J. Redmon and A. Farhadi, "YOLOv3: An Incremental Improvement", CVPR, Apr 2018.
8. S. Gomaa, R. Emara, O. Mahmoud, and A. N. El-hoshoudy, "New correlations to calculate vertical sweep efficiency in oil reservoirs using nonlinear multiple regression and artificial neural network", JKSUES, Vol. 33, No. 7, Nov. 2021.
9. H. R. Gosselt, M. M. A. Verhoeven, M. Bulatović-Ćalasan, P. M. Welsing, Maurits C. F. J. de Rotte, Johanna M. W. Hazes, Floris P. J. G. Lafeber, Mark Hoogendoorn, and Robert de Jonge, "Complex Machine-Learning Algorithms and Multivariable Logistic Regression on Par in the Prediction of Insufficient Clinical Response to Methotrexate in Rheumatoid Arthritis", MDPI Personalized Medicine, Vol. 11, No. 1, 44, Jan 2021.
10. M. M. Bejani and M. Ghatee, "A systematic review on overfitting control in shallow and deep neural networks", Artificial Intelligence Review, Vol. 54, No. 7, pp. 6391-6438, Mar. 2021.
11. J. Han, H. Y. Lim, and D. S. Kang, "SOLDet: Separated Object Locating Detection Model for Multi-point Prediction", ITC-CSCC, Jun. 2021.
12. L. Zheng, M. Tang, Y. Chen, G. Zhu, J. Wang, and H. Lu, "Improving Multiple Object Tracking with Single Object Tracking", CVPR, pp. 2453-2462, Jun. 2021.

저자소개
한 준 (Jun Han)

2020년 2월 : 동아대학교 전자공학과 (공학사)

2020년 3월 ~ 현재 : 동아대학교 전자공학과 석사과정

관심분야 : 영상처리, 인공지능

강 대 성 (Dae-Seong Kang)

1994년 5월 : Texas A&M 대학교 전자공학과 (공학박사)

1995년 ~ 현재 : 동아대학교 전자공학과 교수

관심분야 : 영상처리, 인공지능