비식별 환경에서의 의료 데이터 공유를 위한 랜덤스케일 데이터 비식별 메커니즘
초록
매년 개인정보의 유출에 의한 대규모의 피해가 발생하고 있으며, 제 4차 산업혁명을 맞이하여 보다 많은 개인정보가 네트워크상에서 활용됨에 따라 향후 발생할 수 있는 개인정보 유출 에 의한 피해가 증가될 것으로 예측되고 있다. 특히 의료 프라이버시와 같은 분야에서는 개인정보의 유출을 방지하기 위한 다양한 방안을 적용하고 있으며, 의료 분야의 발전을 위한 데이터 공유를 위해 비식별화된 데이터에 기반의 데이터 공유체계가 요구되고 있다. 본 논문에서는 데이터의 비식별화를 위해 데이터를 랜덤한 단위로 구분하고, 재구성하여 제 3자에 의한 식별을 어렵도록 하는 데이터 랜덤스케일 비식별화 메커니즘을 제안한다.
Abstract
Every year, large-scale damage due to leakage of personal information occurs, and as more personal information is used on the network in the face of the 4th industrial revolution, it is predicted that the damage caused by leakage of personal information that may occur in the future will increase . In particular, in fields such as medical privacy, various measures are applied to prevent leakage of personal information, and a data sharing system based on de-identified data is required for data sharing for the development of the medical field. In this paper, for data de-identification, we propose a data random-scale de-identification mechanism that divides and reconstructs data into random units to make identification difficult by third parties.
Keywords:
blockchain, shared networks, medical data, personal information, de-identificationⅠ. 서 론
개인정보의 비식별화는 점차 증가하는 개인정보와 개인정보에 기반한 서비스들이 발전함에 따라 그 중요성이 부각되고 있다. 특히 사용자의 개인정보를 이용하는 마케팅 전략이나 의료데이터와 같이 특정 개인에 맞춤화된 서비스를 제공하기 위한 다양한 연구와 상용화가 진행되고 있다[1].
하지만 개인정보는 특정한 개인을 유추하는데 유효한 역할을 하는 데이터로서 외부의 유출에 민감하며, 유출에 의한 대규모의 피해를 발생시킬 수 있다는 점에서 관리와 외부 제공에 대해 매우 까다로운 기준의 적용이 요구된다[2][3].
이와 같은 문제의 대안으로서 적용되는 것이 개인정보 데이터를 외부의 제 3자에 의해 해석할 수 없도록 데이터 필드의 일정 부분을 삭제하거나 통합하는 등의 데이터 비식별화 기법이 연구되고 있다[4][5]. 특히나 의료데이터의 경우 단순한 상업용 목적 뿐만 아닌 연구용 데이터로써 활용될 수 있다는 점에서 공유가 요구되나 개인의 신체정보를 포함하기에 외부에 반출하는 경우 특정 개인의 유추가 불가능하도록 가공할 것을 요구하고 있다[6].
개인정보의 비식별화는 특정한 개인을 유추할 수 없도록 한다는 점에서 개인정보의 유출을 방지할 수 있으나, 연구 데이터로써 활용되기 위해서는 비식별화된 개인정보가 아닌 실제 데이터가 요구된다.
본 논문에서는 의료데이터의 공유를 위해 의료데이터를 2차원 배열의 데이터 필드로 구성하고, 기록되는 데이터의 위치를 무작위로 설정함으로서 데이터 필드만으로 기록된 데이터의 관계성을 유추할 수 없도록 하는 의료데이터 무작위 비식별화 메커니즘을 제안한다.
Ⅱ. 이론적 배경
2.1 보건 의료데이터
보건 의료데이터는 개인정보 보호법 제23조에 따른 민감정보의 하나로 건강에 관련된 정보를 의미한다. 보건 의료데이터는 20년도 8월 개정된 개인정보 보호법이 시행됨에 따라 가명정보 활용에 대한 법적인 근거가 마련되었으며, 추가정보와의 결합 없이 개인을 식별할 수 없도록 하는 식별자, 인적사항 등에 대한 처리 방법과 절차를 정의하여 보건 의료데이터의 가명처리 후 사용이 가능하게 됨에 따라 의료데이터의 비식별화가 중요해지고 있다[7]. 보건복지부에서 2020년도 발표한 보건의료데이터 활용 가이드라인에 따르면 과학적 연구를 위해 다음과 같은 표 1의 경우 비식별화된 보건데이터의 사용이 가능하도록 하고 있다[8]-[10].
2.2 개인정보 비식별화
비식별화는 데이터가 타인에 의해 식별될 수 없도록 하는 과정을 의미한다. 국내에서는 한국인터넷진흥원에서 발간한 개인정보 비식별 조치 가이드라인에서 비식별 조치에 대한 관리 절차와 비식별 조치 예시를 보이고 있다. 제시된 비식별 조치 단계는 4단계로 구성되어있으며, 각각 사전검토, 비식별 조치, 적정성 평가, 사후관리로 구성되어있다[11][12].
사전검토의 경우 활용이 요구되는 데이터의 개인정보 해당여부를 검토하며, 비식별 조치단계에서는 개인정보에 해당하는 데이터에 대해 특정한 개인을 식별할 수 없도록 하는 조치를 취한다. 다음으로 적정성 평가에서 비식별 조치 적정성 평가단을 통해 개인의 식별 가능 여부를 평가하며, 마지막으로 사후관리를 통하여 비식별 정보의 안전조치를 취하고, 재식별 가능성을 지속적으로 모니터링하여 활용하는 과정에서 재식별을 방지하기 위한 수단을 취하도록 되어있다[13][14].
개인정보의 비식별 조치 기법에는 데이터를 다른 내용으로 변경하는 가명처리, 데이터의 정보를 합산하여 처리하는 총계처리, 데이터에서 민감한 부분을 삭제하는 데이터 삭제, 데이터를 일정한 범주로 구분하는 데이터 범주화, 민감한 정보에 대해 잡음 또는 공백등을 추가하여 식별이 불가능하도록 하는 데이터 마스킹의 큰 범주가 존재하며, 각각에 대하여 소범주에 속하는 다양한 기법이 존재한다[15]-[17].
2.3 의료데이터 활용을 위한 비식별화 연구 동향
인공지능이 다양한 서비스와 연구에 접목됨에 따라 빅데이터 연구가 보다 본격적으로 활성화되고 있으며, 가명처리된 가명정보가 정보주체의 동의 없이 사용이 가능해짐에 따라 의료계에서도 분석을 위한 빅데이터의 중요성이 강조되고 있다.
선종수(2021)는 빅데이터 환경에서 학습을 위해 요구되는 데이터의 습득을 위해서는 정보주체의 동의가 선결되어야만 하며, 수집된 데이터의 활용을 위해서는 의료기관 사이에서 공유되어야만 의료 빅데이터로서의 활용이 가능함을 지적하며, 개인의료정보에 대한 법적 한계를 설정하는 것은 특수한 영역으로 단순히 정의할 수 없음을 지적하였다[18].
김정선(2020)은 기업에서의 가명정보 활용을 위해서는 기존의 정보보호 관리체계를 확장하여 프 라이버시 보호가 요구됨을 언급하며, 데이터 3법이 개정됨에 따라 가명데이터의 활용을 위해 요구되는 기술과 프로세스를 정리하였다[19].
천지영(2020)은 데이터 3법이 개정되어 가명처리된 개인정보가 정보주체의 동의 없이 사용이 가능해짐에 따라 다양한 연구 및 서비스에서 유용하게 활용될 수 있으나 프라이버시 침해를 막고 데이터의 신뢰성을 보장할 수 있는 환경이 요구됨을 지적하였다[20]-[22].
이처럼 의료데이터의 실질적인 이용을 위해서는 가명처리가 되지 않은 데이터가 의료기관간에 적극인 공유가 진행되어야만 의료 빅데이터를 완성할 수 있으나 비식별 처리가 진행된 가명정보는 빅데이터로서 활용하기에 많은 어려움을 가지고 있다. 따라서 본 논문에서는 비식별처리된 정보를 무작위로 비식별화 한 뒤 스토리지 서버에 기록하여 데이터간의 관계성을 파악할 수 없도록 하여 데이터의 기밀성을 강화함과 동시에 데이터의 검색 기능 수행시 원형 데이터 기반의 검색 수행을 통해 가용성을 높이는 메커니즘을 제안한다.
Ⅲ. 의료데이터 무작위 비식별화 메커니즘
제안하는 메커니즘은 크게 의료데이터의 비식별화, 기록된 스토리지 서버에서의 데이터 검색 단계로 구성된다. 먼저 의료데이터의 비식별화 단계에서는 CSV 파일과 같이 2차원 행렬로 구성되는 원장 데이터의 구성에 적용되며 모든 정보에 대해 해시연산을 수행하여 새로운 암호문을 생성하고, 새로운 암호문의 내용을 무작위로 변경하는 과정을 거쳐 최종적으로 무작위 비식별화가 진행된 암호문을 생성한다. 스토리지 서버 기록 단계에서는 무작위 비식별화가 진행된 암호문에 대해 스토리지 서버에 기록하여 데이터의 위변조 가능성을 낮춤으로서 데이터의 무결성을 강화하여 데이터의 신뢰성을 강화한다. 스토리지 서버 데이터 검색 단계에서는 데이터에 대한 검색 요청시, 원장 데이터를 입력으로 받아 비식별화된 암호문에서 데이터를 검색한다.
그림 1은 제안하는 메커니즘의 전반적인 개념도를 보이는 것이다.
3.1 의료데이터 무작위 비식별화 단계
입력 데이터는 CSV와 같이 2차원 배열로 구성된 데이터로 가정한다. 데이터는 나이, 신장, 체중과 같이 정해진 수치값을 가지는 고정형 데이터와 이름 등의 다양한 입력값인 비고정형 데이터로 구분한다. 이후 고정형 데이터의 경우 해시연산을 수행하며, 비고정형 데이터의 경우 공개키 기반 암호화를 수행한다.
이때, 사용되는 공개키는 기록하는 관리자의 비밀키에 의해 복원할 수 있는 공개키만을 사용하며, 외부 기관의 데이터 요청시에는 해당 기관의 공개키로 암호화를 수행하도록 한다.
1차적으로 암호화 및 해시연산을 수행한 암호문은 무작위 순서화를 진행한다. 무작위 순서화는 가장 처음의 인덱스값에 기반하여 다음 인덱스에 기록될 값의 위치값 연산을 수행한다. 위치값 연산을 수행하기 위한 초기 난수범위 지정값은 사용자에 의해 지정된다. 무작위 위치값 연산의 수행을 위해 인덱스는 먼저 수치화 과정을 진행한다. 식 (1)은 인덱스값을 수치화 데이터로 변경하는 과정을 보이는 것이다.
(1) |
식 (2)는 초기 난수범위 지정값의 범위를 보이는 것이며, 식 (3)은 무작위 위치값 연산을 수행하는 것을 보이는 것이다. 초기 난수범위 지정값은 행 또는 열의 최댓값보다 작은 숫자여야하며, 범위가 작을수록 보다 복잡한 난수화가 진행된다.
(2) |
(3) |
위의 식에 의해 연산된 무작위 위치값에 해당하는 값은 처음 인덱스의 다음 순서로 기록된다. 그림 2는 행에 대해 무작위 위치 연산을 수행한 결과의 예시를 보이는 것이다.
이 과정을 반복하며, 연산된 인덱스의 위치에 해당하는 값이 없는 경우 입력되지 않은 앞자리의 인덱스부터 위의 과정을 반복하여 수행한다. 행에 대해 무작위 순서화 과정을 진행한 다음 열에 대해 위와 동일한 순서에 의해 무작위 순서화를 진행한다. 초기 난수범위 지정값은 이후 무작위로 설정된 암호문의 복호화를 위한 키로 사용된다.
그림 3은 열에 대해 무작위 위치 연산을 수행한 결과의 예시를 보이는 것이다.
행과 열에 대해 동일한 초기 난수범위 지정값을 설정하는 경우 하나의 초기 난수범위 지정값이 비밀키가 된다.
3.2 원장 데이터 검색 단계
원장 데이터 검색 단계에서는 사용자에 의해 검색이 요구되는 대상자 또는 수치값을 입력값으로 사용하여 검색을 수행하여 무작위로 변환된 암호문에서 해당 데이터를 검색하는 단계이다. 고정형 데이터는 초기 난수범위 지정값을 가지는 경우, 원하는 수치값에 대해 검색의 수행이 가능하나 비고정형 데이터의 경우 원장을 보유하고 있는 기관에서 데이터를 요구하는 기관의 공개키로 다시 한번 암호화를 수행하여 기록할 필요성이 존재한다.
먼저 사용자에 의해 특정한 값에 대한 요청이 발생하는 경우 어플리케이션 서버는 스토리지 서버에서 암호문을 요청한다. 암호문을 받은 어플리케이션 서버는 열에 대해 복원을 수행하기 위해 기록되어있는 첫 번째 인덱스의 값을 식 (4)를 이용하여 상수값으로 변환하고, 식 (5)를 이용하여 열의 두 번째 인덱스값의 위치를 변경한다.
(4) |
(5) |
위의 과정을 반복하여 수행하되, 위치값이 열의 최댓값보다 커지는 경우 열의 공백 중 가장 앞에서부터 시작하여 위의 과정을 반복한다. 모든 열에 대해 복원이 수행된 이후, 행에 대해서 위의 과정을 수행하여 고정형 데이터와 비고정형 데이터가 비식별화 또는 암호화되어있는 1차 암호문으로 복호화한다.
이후 사용자의 검색값에 대해 해시연산을 수행하고, 해시 결과값을 대입하여 검색을 수행한다. 고정형 데이터의 범위 검색의 경우 입력된 최솟값에서부터 최댓값까지의 값에 대한 해시연산을 수행 후 검색을 수행한다. 이를 통하여 검색된 결과는 사용자에게 반환한다.
Ⅳ. 결 론
인공지능의 발전에 따라 빅데이터 기반의 서비스 및 연구가 적극적으로 이뤄지고 있으나, 보건 의료데이터는 특정 개인을 유추할 수 있는 가장 민감한 정보인 건강정보를 포함하는 특성상 정보주체의 동의를 얻어 사용하여야 한다. 하지만 의료 빅데이터 환경을 구성하기 위해서는 보다 많은 케이스의 의료데이터가 요구되나 수많은 정보주체의 동의를 구하는 것은 현실적으로 많은 어려움을 가지고 있다.
개인정보보호법이 개정되며 특정 개인임을 식별할 수 없도록 가명처리된 데이터에 한하여 정보주체의 동의 없이 사용 가능하도록 변경되었으나, 가명처리된 데이터는 의료 빅데이터 환경에서 요구하는 값을 포함하지 못할 수 있다. 또한 데이터의 공유 과정에서 해당 데이터의 신뢰성을 검증할 수 있어야만 한다는 문제를 가지고 있다.
본 논문에서는 입력 데이터를 무작위 비식별화하여 암호문의 인덱스간의 관계를 유추하기 어렵도록하며, 스토리지 서버에 기록된 데이터의 검색 수행시 원형의 데이터로 수행함으로서 가용성을 높인다.
향후, 비고정형 데이터의 암호화 과정에서 타 기관의 요청시 발생하는 비효율적인 재암호화 과정을 줄이는 방법에 대한 연구가 요구된다.
Acknowledgments
이 논문은 2020학년도 제주대학교 교원성과지원사업에 의하여 연구되었음 그리고, 2021년~2023년도 교육부의 재원으로 한국과학창의재단의 지원을 받아 수행된 성과물임.
References
- Kwang-soo Yeo, Chul-joong Kim, Jae Hyun Lee, and Soon Seok Kim, "Considering on De-Identification Method of Personal Information for National Medical Institute by using correlation", Smart Media Journal, Vol. 5, No. 4, pp. 83-89, 2016.
- Pil-Woo Lee, In-Jin In, Cheol-Joong Kim, Kwang-Soo Yeo, Gyeong-Taek Song, Ki-Geun Yoo, Jong-Baek, and Soon Seok Kim, "Research of Specific Domestic De-identification Technique for Protection of Personal Health Medical Information in Review & Analysis of Overseas and Domestic De-Identification Technique", Asia-pacific Journal of Multimedia Services Convergent with Art, Humanities, and Sociology, Vol. 6, No. 7, pp. 9-16, 2016.
- Jinsu Kim and Namje Park, "Lightweight knowledge-based authentication model for intelligent closed circuit television in mobile personal computing", Personal and Ubiquitous Computing, pp. 1-9, 2019.
- Jinsu Kim and Namje Park, "Blockchain-Based Data-Preserving AI Learning Environment Model for AI Cybersecurity Systems in IoT Service Environments", Applied Sciences, Vol. 10, No. 14, Jul. 2020. [https://doi.org/10.3390/app10144718]
- Chul-joong Kim, "Study on National Protected Health Information for Secondary Use and De-identification", Asia-pacific Journal of Multimedia Services Convergent with Art, Humanities, and Sociology, Vol. 6, No. 8, pp. 15-23, 2016.
- Paik Jong-il, Song Gyeong-taek, Choi Won-kyun, Yoo Gi-geun, Lee Pil-woo, Inin-jin, Kim Chul-joong, Yeo Kwang-soo, and Soon Seok Kim, "Study for the Pseudonymization Technique of Medical Image Data", Asia-pacific Journal of Multimedia Services Convergent with Art, Humanities, and Sociology, Vol. 6, No. 6, pp. 103-110, 2016.
- Namje Park, Byung-Gyu Kim, and Jinsu Kim, "A Mechanism of Masking Identification Information regarding Moving Objects Recorded on Visual Surveillance Systems by Differentially Implementing Access Permission", ELECTRONICS. Vol. 8, No. 7. 735. Jun. 2019. [https://doi.org/10.3390/electronics8070735]
- Donghyeok Lee and Namje Park, "Blockchain based privacy preserving multimedia intelligent video surveillance using secure Merkle tree", Multimedia Tools and Applications, pp. 1-18, Mar. 2020.
- Kyungsuk Choi, "Precision Medicine and Protection of Personal Information", Journal of the Korea Bioethics Association, Vol. 19, No. 2, pp. 39-56, 2018. [https://doi.org/10.37305/JKBA.2018.12.19.2.39]
- Sungwook Ryu, Jinsu Kim, Namje Park, and Yongseok Seo, "Preemptive Prediction-Based Automated Cyberattack Framework Modeling", Symmetry, Vol. 13, No. 5, pp. 793, May 2021. [https://doi.org/10.3390/sym13050793]
- Jinsu Kim, Donghyeok Lee, and Namje Park, "CCTV-RFID enabled multifactor authentication model for secure differential level video access control", Multimedia Tools and Applications, Vol. 79, pp. 23461-23481, 2020. [https://doi.org/10.1007/s11042-020-09016-z]
- Jinsu Kim and Namje Park, "Role‐based Access Control Video Surveillance Mechanism Modeling in Smart Contract Environment", Transactions on Emerging Telecommunications Technologies, pp.e4227, 2020.
- Namje Park and Donghyeok Lee, "Electronic identity information hiding methods using a secret sharing scheme in multimedia-centric internet of things environment", Personal and Ubiquitous Computing, Vol. 22, No. 1, pp. 3-10, 2018. [https://doi.org/10.1007/s00779-017-1017-1]
- Jinsu Kim, Namje Park, Geonwoo Kim, and Seunghun Jin, "CCTV video processing metadata security scheme using character order preserving-transformation in the emerging multimedia", Electronics, Vol. 8, No. 4, pp. 412, Apr. 2019. [https://doi.org/10.3390/electronics8040412]
- Dae-Hee Lee, "A Study on Psuedonymized and De-identified Information for the Protection and Free Movement of Personal Information", Journal of Korea Infomation Law, Vol. 21, No. 3, pp. 217-251, 2017.
- Namje Park, Younghoon Sung, Youngsik Jeong, Soo-Bum Shin, and Chul Kim, "The Analysis of the Appropriateness of Information Education Curriculum Standard Model for Elementary School in Korea", International Conference on Computer and Information Science. 2018. [https://doi.org/10.1007/978-3-319-98693-7_1]
- Jinsu Kim and Namje Park, "A Face Image Virtualization Mechanism for Privacy Intrusion Prevention in Healthcare Video Surveillance Systems", Symmetry, Vol. 12, No. 6, Jun. 2020. [https://doi.org/10.3390/sym12060891]
- Jong Soo Sun, "The Legal Problems of the Collection and Use of Medical Big Data in the Covid-19 Pandemic Situation", Korean Association of Comparative Criminal Low, Vol. 22, No. 4, pp. 145-173, 2021.
- Jeong-sun Kim, "Research on the Use of Pseudonym Data - Focusing on Technical Processing Methods and Corporate Utilization Directions -", Korea Institute Of Information Security & Cryptology, Vol. 30, No. 2, pp. 253-261, 2020.
- Ji Young Chun and Geontae Noh, "Suggestions for Applications of Anonymous Data under the Revised Data Privacy Acts", Journal of The Korea Institute of Information Security & Cryptology, Vol. 30, No. 3, pp. 503-512, Jun. 2020.
- Namje Park, Jin Kwak, Seungjoo Kim, Dongho Won, and Howon Kim, "WIPI Mobile Platform with Secure Service for Mobile RFID Network Environment", Conferences of Asia-Pacific Web Conference, Harbin, China, pp, 741-748, Jan. 2006. [https://doi.org/10.1007/11610496_100]
- Y. J. Jung, J. S. Kim, and N. J. Park, "Development and Effects of Intelligent CCTV Algorithm Creative Education Program Using Rich Picture Technique", Journal of the Korea Convergence Society, Vol. 11, No. 4, pp. 125-131, Apr. 2020.
2018년 9월 ~ 현재 : 제주대학교 사이버보안인재교육원 연구원
2019년 9월 ~ 현재 : 제주대학교 융합정보보안학협동과정 박사과정
관심분야 : 클라우드, 지능형 영상감시 시스템, IoT 등
2008년 2월 : 성균관대학교 컴퓨터공학과(공학박사)
2003년 4월 ~ 2008년 12월 : ETRI 정보보호연구단 선임연구원
2009년 1월 ~ 2010년 8월 : UCLA Post-Doc., ASU Research Scientist
2010년 9월 ~ 현재 : 제주대학교 교육대학 초등컴퓨터교육전공 교수, 대학원 융합정보보안 협동과정 교수
관심분야 : 정보교육, STEAM, 정보보호, 암호이론 등
2002년 2월 : 성균관대학교 산업공학과 (공학박사)
2003년 5월 ~ 현재 : 제주대학교 경상대학 경영정보학과 교수
관심분야 : MIS, EC, Agent, 정보시스템, 콘텐츠 비즈니스