DSEM-Trajectory의 데이터 품질 향상을 위한 데이터 품질평가 기법
초록
사용자의 이동 경로를 수집한 데이터셋인 DSEM-Trajectory는 더 정확한 학습을 위해 데이터 수집 시 전처리를 통해 데이터 품질을 향상시켰다. 하지만, 데이터셋에 대한 품질평가 기준이 존재하지 않아 명확하게 품질이 향상되었는지 확인하기 어렵다. 따라서 본 논문은 DSEM-Trajectory 데이터셋의 품질평가 기법을 제안하고 실제 데이터셋의 품질평가 결과를 분석한다. 이를 위하여 데이터 프로파일링 기법에 기반하여 데이터 현상을 파악하고, 기존 품질평가 연구들을 비교하여 데이터셋에 적합한 품질평가 기준을 선정한다. 이후 데이터셋의 데이터 품질을 측정하고, 측정된 결과를 분석하여 평가한다. 본 논문은 데이터 품질평가 결과 8개의 품질관리 기준 중 4개의 기준에서 개선이 필요한 것으로 평가하였으며, 데이터 품질 향상을 위한 각 기준의 개선 방법을 제시하였다.
Abstract
DSEM-Trajectory, a dataset that collects users' movement paths, improves data quality through preprocessing when collecting data for more accurate learning. However, it is difficult to confirm whether the quality has been clearly improved because there is no quality evaluation criteria. Therefore, this paper proposes a quality evaluation technique for the DSEM-Trajectory dataset and analyzes the quality evaluation result of the actual dataset. To this end, data phenomena are identified based on data profiling techniques, and quality evaluation criteria suitable for the dataset are selected by comparing existing quality evaluation studies. Thereafter, the data quality of the dataset is measured, and the measured results are analyzed and evaluated. As a result of data quality evaluation, this paper evaluated that improvement was needed in 4 of the 8 quality management criteria and suggested improvement methods for each criteria for data quality improvement.
Keywords:
data quality, data quality evaluation, data quality evaluation criteria, trajectory datasetⅠ. 서 론
최근 데이터 품질에 관한 이슈가 증가하고 있다. 고령화와 웰빙에 대한 사람들의 관심 증가로 헬스케어 산업이 성장하였고, 건강에 대한 헬스케어 산업이 성장하며 라이프로그에 관한 관심이 증가하였으며, ‘데이터 3법’ 통과 후 가명 정보 개념이 도입되며, 개인정보인 라이프로그 데이터를 활용해 서비스하는 곳이 증가하였다[1][2]. 데이터 ‘GIGO(Garbage In, Garbage Out)'에 따르면 데이터 품질이 빅데이터 분석에 영향을 주며, 빅데이터 분석은 서비스에 영향을 준다. 결과적으로 좋은 서비스를 위해서는 데이터 품질을 보장해야 한다[3].
데이터 품질에 대한 이슈는 데이터를 정제하는 방법[4]-[6]과 데이터의 품질을 관리하는 방법[7]-[11] 등으로 구분될 수 있으며, [12]와 같이 사용된다. 특히 데이터 품질관리 기법들은 데이터 품질의 기준 정의부터 시작하여 데이터 품질을 진단하고 평가하는 방법 등, 데이터를 검증하고 신뢰성을 향상시키기 위한 방법들을 제시한다.
[7]은 데이터 프로파일링 기반의 데이터 품질평가를 위해 메타데이터 분석, 도메인 분석 등을 활용한 데이터 프로파일링 절차와 기법을 제시하며, [8]은 데이터 품질, 데이터 품질관리, 데이터 품질진단을 정의하고 메타데이터 분석, 컬럼 속성분석, 유형별 프로파일링 분석을 통해 품질을 진단한다. [9]는 데이터가 데이터베이스에 저장되기 전 품질 검증을 실행하며 반구조화 데이터의 스키마를 활용해 품질을 진단한다. [10]은 데이터 자체의 품질관리를 위해 행정안전부의 품질관리 평가 모델을 수정하여 제안한다. 이에 따라 비효율적인 과정을 줄이고 결과를 평가하며 데이터 품질관리 비중을 높여 오류 개선에 많은 시간을 투입할 수 있게 하였다. [11]은 과학기술정보통신부와 한국데이터산업진흥원이 만든 국내 공식 품질 인증인 DQC(Data Quality Certification)이며, 데이터의 정합률에 따라 다른 등급의 인증을 부여한다.
한편, DSEM-Trajectory는 사용자 이동 경로 예측을 위해 수집된 라이프로그 데이터셋이다[13]. 데이터 수집 구조는 먼저 스마트 워치를 이용하여 GPS 위치를 포함한 다양한 사용자의 라이프로그를 측정한다. 이후 사용자의 스마트폰을 통해 측정된 라이프로그 데이터를 주기적으로 서버로 전송하며, 서버는 하나의 에이전트를 이용하여 데이터를 전송받는다. 이러한 데이터셋은 스마트폰, 서버를 거쳐 데이터베이스에 저장되기까지 그 모든 과정을 거치며 수집된 연속성을 가진 데이터이다.
DSEM-Trajectory는 구조적 문제로 사용자가 늘어날수록 서버의 부하가 커지는 문제가 발생하여 품질 이슈로 이어질 수 있다. 따라서 데이터셋의 품질 향상을 위해 다양한 연구를 진행하였다. 데이터셋의 품질평가는 품질의 기준 정의, 데이터 요소 및 값 분석, 수집 및 운영상의 문제 요소 분석 등 다양한 방면에서의 분석 및 평가가 요구된다. 하지만, DSEM-Trajectory 데이터셋에 대한 품질평가 기준이 존재하지 않아 데이터 품질이 향상되었는지 확인하는 데 어려움이 있다.
따라서, 본 논문은 DSEM-Trajectory 데이터셋의 품질 향상을 위하여 데이터 품질평가 기법을 제안하고, 실제 데이터셋의 분석을 통하여 데이터 품질평가 및 개선방안을 제시한다. 이를 위하여 품질평가 연구를 비교하고 DSEM-Trajectory에 적합한 기준을 선정하여 평가를 진행하고 분석한다.
본 논문의 구성은 다음과 같다. 제2장에서 데이터 품질평가의 관련 연구를 소개하고, 제3장에서 DSEM-Trajectory 데이터셋을 분석한다. 제4장에서 데이터 품질평가 기법을 정의하며, 제5장에서 데이터 품질평가 결과를 분석한다. 마지막으로 제6장에서 결론을 기술한다.
Ⅱ. 관련 연구
이 절은 데이터 품질평가를 위해 국내에서 활용되고 있는 기법과 표준들을 기술한다[14]-[18].
[14]는 한국데이터베이스진흥원의 “데이터 품질진단 절차 및 기법”이며, 데이터 품질진단을 위한 실무 지침으로 정형화된 데이터와 비정형화된 데이터의 품질 측정 기법을 설명한다. 데이터 품질진단 프로세스를 정의한 후 품질을 진단하지만, 복합 테이블에 중점 되었다.
[15]는 한국정보화진흥원의 “공공데이터 품질관리 매뉴얼”로 공공데이터의 품질 확보 방안을 마련하기 위해 제정되었다. 데이터 품질관리 전반에 관해 설명하지만, 공공데이터를 위한 복잡한 설명을 하며 서류 위주의 평가를 진행하고 있다.
[16]은 한국데이터베이스진흥센터의 “데이터 품질관리 지침”으로 데이터 품질관리 절차와 방법에 대한 지침이다. 데이터 관리 대상 및 관점에 따라 다양한 품질관리 프레임워크를 제시하지만, 기관/기업의 운영을 위한 품질관리 지침으로 전문 지식을 요구한다.
[17]은 국내 품질관리 연구에서 사용하는 국제 표준으로 ISO/IEC 25000 시리즈인 SQuaRE(Software product Quality Requirments and Evaluation) 프로젝트 중 ISO/IEC 25012이다. 이 표준은 데이터 품질평가 모델에 관한 연구이며, 데이터 품질평가 모델과 기준을 정의하였으나, 품질평가를 위한 자세한 내용이 존재하지 않지만, [18]과 같이 데이터의 품질관리를 위해 이러한 국제 표준을 이용한 다양한 연구들이 진행되고 있다.
기존의 품질평가는 문서 위주의 평가로 많은 준비 과정이 필요하다. 또한, 기관/기업 중심으로 진행되며, 데이터 품질평가를 위한 설명이 부족하여 전문 지식 없이는 품질평가를 진행하기 어렵다는 문제가 있다.
본 연구에서는 관련 연구를 이용하여 데이터 품질평가 프로세스를 정의한다. 먼저, 데이터셋, 데이터 수집 후 진행한 설문조사 결과와 같은 DSEM-Trajectory 데이터셋의 품질을 평가하기 위한 자료들을 수집한다. 데이터 현상을 파악하고 분석하기 위해 데이터 프로파일링을 진행한 후, 데이터 품질평가 기법들을 비교하여 데이터셋에 적합한 데이터 품질평가 기준을 선정하고, 데이터의 품질을 측정한 후 결과를 분석하여 품질을 평가한다.
Ⅲ. DSEM-Trajectory 데이터셋
3.1 DSEM-Trajectory
DSEM-Traj2018은 국내의 한 대학의 대학생들을 대상으로 스마트 워치만을 사용하여 수집한 라이프로그 데이터셋이다[12].
DSEM-Trajectory는 DSEM-Traj2018을 확장하여 2018년 7월부터 2020년 1월까지 수집된 라이프로그 데이터셋으로, 스마트워치로부터 수집될 수 있는 사용자의 이동 경로, 심박수, 행동 유형, 3축 가속도 데이터 등을 수집하였다. 이 데이터셋은 사용자 이동 경로 예측을 위해 이동하는 연속적인 점들을 수집한 이동 궤적 데이터이며, 다양한 정제 기법들이 적용되었다[13][19][20].
데이터셋의 정제는 다음과 같은 순서로 진행된다. 스마트 워치를 이용해 수집된 파일 데이터를 서버로 전송하고, 전송된 데이터는 데이터베이스에 저장하기 전 시간 필터와 범위 필터를 이용해 정제한 후 궤적 식별자를 생성한다. 이동 경로 중 머무르는 지점인 POI(Point of Interest)를 파악하여 주변 노이즈를 제거하였으며, 스마트 워치로 수집한 행동 분류가 정확하지 않다고 판단하여 랜덤 포레스트를 활용해 사용자의 행동을 분류하였다. 또한, 더 정확한 학습을 위해 데이터를 확인하며 수작업 정제를 진행하였다.
구축된 데이터셋의 컬럼은 id, userid, time, set_id, set_seq, x, y, z, HR, lat, lon, alt, acttype으로 구성되어 있으며, 정의와 특징은 표 1과 같다.
하지만, 다양한 정제 기법 적용 및 수작업 정제를 통해 데이터셋을 구축했음에도 불구하고, 데이터셋의 품질을 보장하기 어렵다. 따라서 데이터 프로파일링 기법을 통한 DSEM-Trajectory 데이터셋의 특징 및 현상을 분석하고 품질평가 기법을 통하여 명확한 데이터 품질을 진단하는 것이 요구된다.
3.2 데이터 프로파일링
데이터 프로파일링은 통계적 기법을 사용하여 데이터셋의 데이터 현상을 파악하고 잠재적 오류를 발견하기 위한 기법이다. 데이터 프로파일링을 위해 형식, 데이터 총 개수, 최소값, 최대값, 최소길이, 최대길이, 유일값수, null 개수, 최소빈도값, 최소빈도수, 최대빈도값, 최대빈도수를 측정한다[21][22].
최소값과 최대값을 통해 수집된 데이터의 범위 파악할 수 있으며, 최소길이와 최대길이를 통해 데이터 형식이 다른 일부분을 파악할 수 있다. 유일값수를 통해 중복된 데이터의 개수를 파악할 수 있으며, null 개수를 통해 공백 데이터의 개수를 파악할 수 있다. 또한, 최소빈도값과 최대빈도값을 통해 데이터 중 가장 적게 나온 값과 가장 많이 나온 값을 파악할 수 있다.
그림 1은 DSEM-Trajectory 데이터셋을 프로파일링 한 결과이며, 이를 통해 데이터 현상을 파악할 수 있다. userid의 최소값, 최대값, 유일값수를 통해 59명의 데이터 수집자가 1부터 59까지의 번호를 부여받았음을 알 수 있다. time의 최소값과 최대값을 통해 수집 기간이 2018년 7월 10일부터 2020년 1월 2일까지 수집되었고, set_id의 유일값수를 통해 35,107개의 이동 경로가 수집되었음을 알 수 있다. HR의 최소값과 최대값을 보아 이상 수치가 존재함을 알 수 있고, lat, lon을 통해 가장 많이 방문한 지점을 유추할 수 있다. 또한, acttype을 통해 사용자가 가장 많이 하는 행동과 가장 적게 하는 행동을 알 수 있다.
Ⅳ. 데이터 품질평가 기법
4.1 데이터 품질평가 기준 정의
데이터 품질평가를 진행하기 위해 기준마련이 필요하다. 이를 위하여 국내에서 활용되고 있는 4가지 기법 및 표준들[14]-[17]에서 정의된 데이터 품질평가 기준을 통합한다. 표 2는 본 논문에서 정리한 10가지의 데이터 품질평가 기준과 그 정의를 보인다. 또한, 표 3은 각 기법이 어떤 데이터 품질평가 기준을 사용하는지에 대한 범위를 비교한 결과이다.
4.2 데이터 품질평가 기준 선정
정의된 모든 기준이 DSEM-Trajectory 데이터셋 품질평가에 활용되기 어려우므로, 해당 데이터셋의 품질평가를 위한 적절한 기준을 선정해야 한다. 이후, 선정된 기준들은 진단 대상에 맞게 데이터 값 진단과 데이터 운영 진단으로 분류한다.
데이터 값 진단은 데이터 값 자체의 신뢰를 위한 품질진단으로 데이터셋 자체의 값만을 이용해 품질을 측정하며, 데이터 운영 진단은 데이터베이스 활용을 위해 데이터 수집부터 모니터링까지의 품질을 측정한다. 표 4는 데이터 값 진단과 데이터 운영 진단으로 분류된 기준들과 그 세부기준을 보인다.
Ⅴ. 데이터 품질평가 결과
이 장은 데이터 품질평가 기준 별 품질평가를 진행하며, 세부기준 정의, 측정 방법, 진단 대상, 측정 결과를 기술한다.
5.1 완전성
완전성 평가의 세부기준은 데이터의 누락(Missing)이 존재하는지를 확인하는 것이다. 누락은 필수 컬럼에서 데이터의 값이 없는 것을 의미한다.
누락의 측정 방법은 진단 대상 컬럼에서 null 또는 공백의 수를 확인하여 진단 대상들이 누락이 얼마나 존재하는지를 측정한다.
측정 대상은 데이터셋 전체 컬럼인 id, userid, time, set_id, set_seq, x, y, z, HR, lat, lon, acttype으로 선정한다. 측정 결과 모든 컬럼의 누락은 없는 것으로 확인되었다.
5.2 유일성
유일성의 세부기준은 데이터의 중복(Redundancy)이 발생하는지를 확인하는 것이며, 중복은 데이터셋 내에서 대상 컬럼이나 컬럼들의 집합에서 동일한 값이 존재하는 것을 의미한다.
중복의 측정 방법은 진단 대상의 값의 수에서 값의 종류의 수를 빼는 것으로 측정한다. 진단 대상은 id, (userid, time), (set_id, set_seq)로 선정한다.
Id는 행 번호로 고유한 번호를 가져야 하며, (userid, time)은 같은 사용자가 같은 시간에 여러 개의 데이터를 수집할 수 없으므로 중복되지 않아야 한다. (set_id, set_seq)은 하나의 이동 궤적에서의 점의 순서이므로 중복되지 않아야 한다. 측정 결과 중복 오류는 없는 것으로 확인되었다.
5.3 일관성
일관성은 데이터 타입과는 다른 의미를 가지며 문자열 타입을 대상으로 진행된다. 따라서, 일관성의 첫 번째 세부기준은 데이터가 정해진 구조(Pattern)를 따르는지 확인하는 것이다. 예를 들어, 주민등록번호는 ‘999999-9999999’와 같은 구조를 지니며 데이터들은 이러한 구조를 따라야 한다.
구조의 측정 방법은 사전에 지정한 구조와 대조하여 다른 구조를 확인하는 것으로 측정한다. 진단 대상은 userid와 set_id로 선정한다. userid는 ‘GAH0000’구조를 지니며, set_id는 ‘GAH0000-0000-00-00-0000000’구조를 지닌다. 측정 결과 구조 오류는 없는 것으로 확인되었다.
일관성의 두 번째 세부기준은 데이터가 정해진 표현(Expression)을 사용하는지 확인하는 것이다. 예를 들어, 데이터의 값 표현 시 긍정은 1, 부정은 0과 같이 정의할 수 있다.
표현의 측정 방법은 문자열 중 사전에 정의한 내용과 다른 표현을 찾는 것으로, 진단 대상은 acttype으로 선정한다. acttype은 STATIONARY, WALKING, RUNNING, IN_CAR, IN_VEHICLE 5가지로 표현된다. 측정 결과 표현 오류는 없는 것으로 확인되었다.
5.4 유효성
유효성의 세부기준은 데이터가 정해진 범위(Range) 안에 존재해야 하는 것이며, 범위는 데이터가 존재할 수 있는 시작 값과 끝 값의 사이를 의미한다.
범위의 측정 방법은 진단 대상의 유효범위 외의 값을 찾는 것으로 측정하며, 유효범위는 데이터 프로파일링의 결과와 데이터셋 구축 시 정한 규칙을 이용하여 정의하다. 진단 대상은 id, userid, time, set_seq, HR, lat, lon이다.
Id는 행 번호이기 때문에 1 이상의 값을 가져야 하며, userid는 59명의 수집자로 ‘GAH0001’와 ‘GAH0059’사이의 값을 가져야 한다. time은 수집 기간인 ‘2018-07-01 00:00:00.000’과 ‘2020-01-0223:59:59.999’ 사이의 값을 가져야 하며, set_seq는 궤적 번호로 1 이상의 값을 가져야 한다. HR은 사람의 심박수인 느린맥 40에서 빠른맥 180 사이의 값을 가져야 한다. lat과 lon은 수집 구역인 위도 35.9404700397269와 35.9517589630128, 경도 126.677071880745와 126.689 57293113624 사이 값을 가져야 한다. 측정 결과 범위 오류 중 HR의 오류가 337,900개 확인되었다.
5.5 정확성
정확성의 첫 번째 세부기준은 데이터의 선후 관계(Order)가 정확한지 확인하는 것이며, 선후 관계는 시간을 기준으로 조건에 맞는 데이터의 순서가 올바른 것을 의미한다.
선후 관계의 측정 방법은 time을 기준으로 조건 내에서 해당 값이 과거의 값 보다 이전의 값인 수를 확인하는 것으로 측정한다. 진단 대상은 (userid, set_id), (set_id, set_seq)다. 같은 userid 그룹에서 set_id는 필터를 통해 생성한 궤적으로 순서가 정확해야 하며, 같은 set_id 그룹에서 set_seq는 궤적 내에 이동한 점의 순서를 나타낸 것으로 순서가 정확해야 한다. 측정 결과 선후 관계 오류 중 (userid, set_id)의 오류가 500개 확인되었다.
정확성의 두 번째 세부기준은 데이터의 계산/집계(Calculation/aggregation)가 정확한지 확인하는 것이며, 계산/집계는 조건에 맞는 계산 또는 집계가 오류 없이 수행된 것을 의미한다.
계산/집계의 측정 방법은 다른 컬럼에서의 계산 또는 집계 값이 해당 컬럼의 값과 일치하는지 확인하는 것으로 측정한다. 진단 대상은 (set_id, set_seq)로 선정한다. (set_id, set_seq)는 같은 set_id의 개수는 해당 set_id 그룹 내의 set_seq 중 가장 큰 수와 일치해야 한다. 측정 결과 계산 집계 오류의 (set_id, set_seq) 오류가 5,612개 확인되었다.
5.6 적시성
적시성의 세부기준은 데이터가 최신값(Up-to-date)을 가지는지 확인하는 것이며, 최신값은 데이터 사용자가 현실 세계에서 일어나는 일을 바로 확인할 수 있는 것과 같은 의미이다.
최신값의 측정 방법은 데이터 수집부터 모니터링까지의 시간을 확인하는 것으로 측정한다. 진단 대상은 데이터 수집 시작 날짜부터 모니터링할 수 있는 날짜까지의 시간으로 선정한다. 표 5는 데이터 수집부터 정제까지 한 사이클의 수집 일정을 보인다. 데이터는 2주 동안 수집한 후 서버로 전송하여 2주간 전처리를 진행한다. 이후 1주 동안 데이터베이스를 수정하는 과정을 거치므로 데이터 사용자는 수집한 날짜의 데이터를 3~5주 후 모니터링을 할 수 있다.
5.7 유용성
유용성의 첫 번째 세부기준은 데이터의 정보 가치(Information value)가 있는지 확인하는 것이며, 정보 가치는 사용자가 이용할 만한 수준의 데이터를 가지는 것을 의미한다. 정보 가치의 측정 방법은 데이터 수집자의 1일 평균 이동 개수를 확인하는 것으로 측정한다. 그림 2는 수집 개수 구간별 데이터 수집자 수를 보인다. 이때, 1인 평균 이동 개수는 3.4개이며, 가장 적게 수집한 사람의 개수는 1.3개 가장 많이 수집한 사람의 개수는 5.958개이다.
유용성의 두 번째 세부기준은 데이터 사용 시 편의성(Convenience)이 있는지 확인하는 것이며, 편의성은 데이터 수집자, 관리자, 사용자의 이용이 편리해야 하는 것을 의미한다. 편의성의 측정 방법은 데이터 수집자, 관리자, 사용자를 대상으로 한 설문조사를 분석하는 것이다. 진단 대상은 수집과정, 데이터베이스 사용, 모니터링 툴에 대한 설문조사 응답지로 선정한다.
불편함을 느낀 비율은 식 (1)과 같이 계산되며, 그 결과는 표 6과 같다. 수집과정 중 불편함은 평균 31.386%이며, 데이터베이스와 모니터링 툴의 불편함은 존재하지 않는다.
(1) |
5.8 보안성
보안성의 첫 번째 세부기준은 정보에 암호화(Encryption)가 이루어졌는지 확인하는 것이며, 암호화는 로그인 없이 데이터의 열람 및 삭제를 할 수 없는 것을 의미한다.
암호화의 측정 방법은 스마트 워치, 서버, 데이터베이스의 로그인을 확인하는 것으로 측정한다. 진단 대상은 스마트 워치의 수집 파일, 서버에 저장된 raw 데이터 파일, 데이터베이스 데이터셋으로 선정한다. 진단 대상들은 DSEM-Trajectory을 구축하기까지의 모든 데이터로 기계학습을 위한 중요한 데이터이다. 측정 결과 워치 수집 파일은 서버로 전송할 경우 파일의 암호화가 이루어지지 않아 열람 및 삭제를 할 수 있지만, 서버 파일과 데이터베이스 데이터셋의 경우 암호화로 파일 및 데이터 열람 및 삭제가 불가능하다.
보안성의 두 번째 세부기준은 데이터에 접근 통제(Access control)가 존재하는지 확인하는 것이며, 접근 통제는 사용자에 따른 데이터베이스 접근 수준이 다른 것을 의미한다.
측정 방법은 데이터베이스에 로그인 별로 데이터 접근을 시도하는 것으로 측정한다. 진단 대상은 데이터베이스로 선정한다. 측정 결과 데이터베이스는 관리자 계정과 사용자 계정 두 가지로 관리하고 있으나, 데이터 삽입, 삭제 등과 같은 모든 접근이 가능하다.
보안성의 세 번째 세부기준은 데이터를 비식별화(De-identification)하는 것이며, 비식별화는 데이터 수집자의 개인정보 식별이 불가능한 것을 의미한다.
측정 방법은 데이터 수집자와 데이터의 연관성을 확인하는 것으로 측정한다. 진단 대상은 데이터베이스와 데이터 수집자의 정보이다. 측정 결과 데이터 수집 후 전처리 시점에서 피실험자를 아이디화 하여 저장하며, 테이블에 피실험자의 인적사항을 등록하지 않아 사용자를 특정하기 어렵다.
5.9 품질평가 결과 분석
본 논문은 DSEM-Trajectory 데이터셋의 품질평가를 위하여 데이터 값 진단 평가와 데이터 운영진단 평가를 실시하였다.
표 7은 데이터 값 진단 평가의 진단 결과를 보인다. 데이터 값 진단 평가는 총 5개의 기준으로 진행하였고, 완전성, 유일성은 데이터 품질에 이상이 없어 개선할 사항이 없으며, 일관성, 유효성, 정확성은 개선이 필요하다고 분석된다. 자세한 분석 결과는 다음과 같다.
유효성 분석 결과 HR 범위에서 오류가 전체 2,220,511개 중 33,790개로 0.015%가 확인되었다. HR 오류는 데이터는 수로만 보면 큰 오류이지만, 전체 비율로 봤을 경우 적은 오류이며, 이는 데이터 수집 시 스마트 워치 측정값 이상으로 발생한 것으로 판단된다. HR 오류 데이터를 개선하기 위해서는 크게 삭제와 대체가 있지만 삭제를 진행할 경우 학습에 영향을 줄 수 있으므로 주변 값의 사이 값을 사용하여 대체한다.
정확성 분석 결과(userid, set_id) 선후 관계에서 오류가 전체 35,107개의 이동 경로 중 500로 0.014%가 확인되었다. 이는 전처리 후 시간순으로 정렬하지 않고 파일을 받은 순서대로 set_id를 설정하여 발생한 것으로 판단된다.
선후 관계는 데이터셋 구축 목적인 이동 경로 예측을 위한 중요한 요소 중 하나이며, 순서가 다르면 이동 경로에 대한 예측도 달라질 수 있으므로 시간순으로 정렬한 후 수집된 파일과 비교하며 set_id와 set_seq를 재설정하여 품질을 개선해야 한다. (set_id, set_seq) 계산/집계에서 오류가 35,107개의 set_id 중 5,612개로 15.985%가 확인되었다. 궤적 생성 후 이동 좌표 중 근접한 좌표들을 제거하고 set_seq를 다시 설정하지 않아 발생한 것으로 판단된다. 선후 관계가 명확하여 학습에 큰 영향을 주지 않으나 품질을 떨어뜨리고 있으며, set_seq의 번호를 사용할 수 없다는 문제가 있다. 이를 개선하기 위해서는 set_seq의 재설정이 필요하다.
한편, 표 8은 데이터 운영 진단 평가의 진단 결과를 보인다. 데이터 운영 진단 평가는 총 3개의 기준으로 진행하였고, 유용성은 개선할 사항이 없으나 적시성, 보안성은 개선이 필요하다고 분석된다. 자세한 분석 결과는 다음과 같다.
적시성 분석 결과 데이터 수집 후 모니터링하기 위한 시간이 오래 걸리는 것으로 확인되었다. 데이터 확인을 위한 실시간성이 떨어져 사용자의 편의에 영향을 미치며, 모니터링을 위한 시간을 단축하기 위해서는 자동화된 전처리를 통해 최신값의 품질을 향상시킨다. 유용성 분석 결과 정보 가치는 이동 경로를 학습하기 위해 ‘집→학교’와 ‘학교→집’을 기본 경로로 선택하여 1일 이동 개수가 2개 이상인 경우 가치가 있다고 판단하였다.
1일 평균 이동 개수가 3.4개이며, 2개 이상인 경우가 91.525%로 정보로서 가치가 있으며 경로 예측에 적합하다고 판단된다.
편의성 중 수집과정의 편의성은 낮은 편이지만 차수가 진행되며 수집 앱의 발전, 수집자의 적응, 수집 방법 개선을 통해 불편함이 감소한 것을 통해 문제가 없음을 확인할 수 있다.
보안성 분석 결과 암호화는 서버와 데이터베이스의 암호화가 잘 이루어지지만, 워치에서 서버로 파일을 전송할 시 암호화가 이루어지지 않아 모든 데이터가 공개되므로 파일 자체의 암호화를 통해 보안성을 강화해야 한다. 접근 통제의 경우 데이터베이스 관리를 root와 관리자 두 가지 계정으로 관리하고 있으며, 다른 사용자가 확인 시 관리자 계정으로 접근하여 모든 권한을 가지고 있으므로 VIEW 기능만을 위한 사용자 계정 생성이 필요하다.
Ⅵ. 결 론
DSEM-Trajectory는 사용자의 이동 경로 예측을 위해 구축되었다. 하지만, 데이터셋 구축 시 데이터 품질을 관리하기 위한 기준이 없었다. 따라서, 본 논문은 기존의 데이터 품질평가 기법들을 조사 및 비교하여 DSEM-Trajectory 데이터셋의 품질평가를 위한 완전성, 유일성, 일관성, 유효성, 정확성, 적시성, 유용성, 보안성과 같이 8가지 기준을 선정하였다. 이후 각 기준 별 세부기준을 정의하여 품질평가를 진단하였다.
또한, 품질평가 결과를 분석하여 데이터셋 개선방안을 마련하였다. 데이터 품질평가 결과, DSEM-Trajectory 데이터셋은 8개의 품질관리 기준 중 개선이 필요하지 않은 기준 4개, 개선이 필요한 기준 4개가 있는 것으로 평가되었다.
본 논문은 DSEM-Trajectory 데이터셋의 품질관리를 위한 기준을 통해 체계적인 품질관리가 가능하며, 품질평가 결과 데이터셋 개선방안을 제시하여 품질 향상을 기대할 수 있다. 또한, 향상된 데이터셋 품질은 더 정확하고 정밀한 기계학습 등을 가능하게 하며, 그 결과 DSEM-Trajectory 데이터셋의 최종 목적인 사용자 이동 경로 예측의 정확도 향상 역시 기대할 수 있다.
향후에는 실시간 수집 플랫폼을 개발하고 플랫폼 내에서 자동으로 수집된 데이터를 평가할 필요가 있다. 따라서 품질평가의 기준을 자동으로 정의하고 평가할 수 있는 연구를 진행할 예정이다.
Acknowledgments
2020학년도 충북대학교 학술연구지원사업의 연구비 지원에 의해 연구되었음
References
- H. Jung and M. Park, "Domestic and foreign healthcare industry trends", Korean Society of Computer Information Review, pp. 11-17, Jun. 2016.
- D. Kang, "2020 KISA REPORT", Korea Internet & Security Agency, pp. 14-19, Feb. 2020.
- S. Park, K. Lee, and A. Lee, "An Empirical Study on the Effects Of Source Data Quality on the Usefulness and Utilixation of Big Data Analytics Results", Journal of Information Technology Applications and Management, pp. 197-214, Dec. 2017.
- Q. X. Yang, S. S. Yuan, Luchun, and J. Rajasekera, "An Important Issue in Data Mining-Data Cleaning", Proceedings of the Korean Society for Language and Information Conference, Vol. 2002, pp. 455-464, Jan. 2002.
- H. Park, Y. Gwon, and Y. An, "Big Data and Big Data Refining Technology", Journal of The Korea Society of Computer and Information, Vol. 21, No. 1, pp. 1-8, Jun. 2013.
- Y. H. Liu, "Data Quality and Data Proprocessing on an IoT-based Ecosystem for Smart Maintenance in the Manufacturing Industry", Department of Computer Science and Information Technology La Trobe University, Mar. 2021.
- S. Im, J. Lee, C. Lee, and J. Lee, "Data quality assessment based on data profiling", Proceedings of the Fall Conference of the Korean Institute of Industrial Engineers, pp. 2440-2444, Nov. 2018.
- I. Na, D. Kim, Y. Oh, G. Kim, J. Lee, H. Kim, M. Hyun, Y. Lee, K. Noh, and S. Jo, "Data profiling for quality management of national climate data", Proceedings of the Korean Meteorological Society Conference, pp. 262-263, Oct. 2013.
- S. Kim and S. Jeong, "Verification of Data Quality in Data Platform", Proceedings of the Institute of Electronics and Information Engineers Conference, pp. 792-794, Nov. 2020.
- J. Kim and S. Kim, "Analyzing the effectiveness of the public data quality management evaluation system according to the digital New Deal policy and presenting and improved evaluation model", Proceedings of Korean Institute of Information Technology Conference, pp. 263-266, Jun. 2021.
- Data Certified, https://www.dqc.or.kr, . [accessed: Dec. 30, 2021]
- D. Ryu, M. Sung, J. Lee, and H. Jung, "Data management of academic information system using data quality diagnosis technique", Journal of the Korea Institute of Information and Communication Engineering, Vol. 26, No. 4, pp. 598-604, Apr. 2022.
- S. Nam, S. Kim, and S. Lee, "DSEM-Traj2018:Building Lifelog Dataset using Smartwatch for Path Prediction", World IT Congress 2019, Feb. 2019.
- C. Lee, S. Kim, S. Sin, J. Seo, S. Lim, D. Lee, S. Park, and J. Myung, "Data Quality Assessment Procedure Manual", Korea Database Agency, pp. 1-156, Oct. 2009.
- B. Seo, "Open Government Data Quality Management Manual v2.0", NATIONAL INFORMATION SOCIETY AGENCY, pp. 25-164, Jan. 2018.
- C. Gye, J. Myung, J. Park, T. Park, Y. Lee, S. See, S. Jang, M. Choi, M. Park, S. Kim, S. Shin, I. Kim, B. Lee, and Y. Bae, "The Guideline for Data Quality Management", Korea Database Promotion Center, pp. 1-162, Nov. 2006.
- ISO 25012, https://iso25000.com/index.php/en/iso-25000-standards/iso-25012, . [accessed: Sep. 20, 2021]
- F. Gualo, M. Rodriquez, J. Verdugo, I. Caballero, and M. Piattini, "Data Quality Certification using ISO/IEC 25012:Industrial Experiences", Journal of Systems and Software, Vol. 176. No. 110938, pp. 1-17, Jun. 2021. [https://doi.org/10.1016/j.jss.2021.110938]
- S. Kim and S. Lee, "Clustered Noise Filtering Based Trajectory refinement Method", Journal of Korean Institute of Information Technology, Vol. 18, No. 3, pp. 11-20, Nov. 2020. [https://doi.org/10.14801/jkiit.2020.18.3.11]
- S. Park, S. Jeong, and S. Lee, "A Refinement Method of Activity Recognition Data for DSEM-Traj2018 using Random Forest", Proceedings of Korean Institute of Information Technology Conference, pp. 403-404, Nov. 2019.
- S. Kim, "A study on patent data quality assessment methods based on data profiling", Proceedings of Korean Institute of Industrial Engineers Conference, pp. 2008-2011, Apr. 2019.
- S. Kim, J. Choi, E. Lee, D. Jeong, and S. Lee, "Data Quality Assessment of DSEM-Traj2018 based on Data Profiling", Proceedings of KIIT Conference, pp. 481-483, Jun. 2021.
2017년 3월 ~ 현재 : 군산대학교 소프트웨어융합공학과 학부생
관심 분야 : 라이프로그, 데이터 품질, 데이터 분석, SQL
2012년 02월 : 고려대학교 컴퓨터정보학과(이학사),
2018년 09월 : 고려대학교 컴퓨터공학과(공학박사)
2020년 09월 ~ 현재: 충북대학교 소프트웨어학부 조교수
관심분야 : 소프트웨어 공학, 사물인터넷, 빅데이터 분석
2009년 2월 : 고려대학교 전자및정보공학부(학사)
2011년 2월 : 고려대학교 컴퓨터·전파통신공학과(공학석사)
2016년 2월 : 고려대학교 컴퓨터·전파통신공학과(공학박사)
2016년 3월 ~ 2017년 3월 : 아주대학교 의료정보학과 연구강사
2017년 4월 ~ 현재 : 군산대학교 소프트웨어융합공학과 부교수
관심 분야 : 사물인터넷, 메타데이터, 센서 레지스트리, 시맨틱 웹, 경로 예측