자연어 질의 기반 부동산 환경 검색 시스템 구현
초록
기존 부동산 검색 시스템은 기본적으로 풀다운 메뉴를 통하여 부동산 소재 지역, 가격, 거래방식, 면적 등의 조건을 필터링하는 방식을 사용한다. 이러한 방식은 조건의 조합이 개인의 배경지식 여부에 전적으로 의존되며, 사전에 메뉴로 제공되지 않는 영역과의 복합 검색은 거의 불가능하다. 본 연구에서는 부동산 임대차 매물 정보를 자연 언어 질의를 통해 검색할 수 있는 부동산 환경 검색 시스템을 제안하고자 한다. 해당 시스템은 서울특별시 전월세 실거래가 데이터를 활용하여 BERT 모델과 Random Forest 모델로 자연어 질의를 처리한 후, 조건에 적합한 매물을 탐색한 후 디지털 지도상에 매물 위치를 시각화하여 검색 결과를 제공한다. 본 서비스의 장점은 자연 언어 질의의 다양성을 활용한 개인 맞춤형 매물 검색 지원이라고 할 수 있으며, 질의어 처리시간을 분석하여 시스템의 성능을 평가하였다.
Abstract
The existing real estate search system, in which the desired area to be searched must be specified at least inward units, has a limitation in that areas with appropriate conditions can be excluded from consideration depending on the individual's background knowledge. Therefore, in this study, we propose a natural language query system that can search for information about the actual rental price of Jeonse(long-term rent with lump-sum deposit) in Seoul through a Korean query. The system processes natural language queries with the BERT model and the Random Forest model, sorts them in the order of real estate that meets the conditions, and visualizes the location of the real estate on the map. The performance of the system was evaluated and implemented so that users can easily find suitable properties for each user.
Keywords:
text mining, natural language, real estate, text interface, BERT modelⅠ. 서 론
인터넷이 발달함에 따라 수많은 데이터가 지속해서 생산되고 있는 현대 사회에서 디지털 플랫폼 내의 다양한 정보 중 개인에게 적합한 정보를 찾아내는 정보 검색 기능의 중요성이 더욱더 커지고 있다. 정보 검색 능력은 결국 개인이 갖는 정보의 질과 비례하며 사용자 개인의 중요한 자산이라고 볼 수 있다. 그러나 기존의 검색 방식은 대상에 대한 기본적인 배경 지식이 없는 경우 적절한 키워드나 검색 조합을 찾아내지 못해 양질의 정보를 찾기 어려운 것이 현실이다.
기존의 부동산 검색 시스템은 공통적으로 관심 지역을 기본으로 선택하고, 이후 메뉴에서 가격, 거래방식, 면적 등 단순한 속성 정보를 조합하여 매물을 검색하는 방식이다[4]. 기존 인터페이스는 속성정보가 많아질수록 각각을 선택하는 과정이 불편하며, 단순한 검색조건과 특정 지역 중심의 검색 범위, 그리고 소비자가 검색결과를 일일이 조회한 후 분석해야 하므로 상당히 번거롭다[7]. 예를 들면, 아이의 학교가 가까워 등교하기 좋고, 전세이며, 3인 가족이 살기 좋고, 부모의 출근지가 가까운 곳을 찾기 위해서는 사용자가 각각의 검색 결과를 확인 한 뒤, 반복적 검색을 수행해야 한다. 이는 비효율적일 뿐더러 해당 부동산 지역에 대한 배경지식이 충분하지 않을 경우 자신에게 적합한 매물을 누락하여 경제적 손실로 이어질 수도 있다.
본 연구에서는 이러한 기존의 1차원적인 조건 필터링 방식을 개선하기 위하여 자연어 질의 방식을 활용한 부동산 환경 검색 시스템을 제안하고자 한다. 해당 시스템에서 사용자는 대화 흐름에 따라 원하는 정보에 쉽게 접근할 수 있으며 궁극적으로 정보 검색의 질을 향상시킬 수 있다.
BERT[1]는 2018년 Google의 Devlin이 제안한 자연어 처리 딥러닝 모델이다. BERT는 사전에 학습된 대용량의 레이블링이 되지 않은 데이터를 사용하여 언어 모델을 학습하며 우수한 자연어 처리 성능을 제공한다. 그러나 BERT 기반 학습 모델은 영어에는 적합하나 데이터셋이 부족한 한국어의 경우 성능에 한계가 있다. 따라서 본 연구에서는 한국어 자연어 처리를 위한 오픈 소스 라이브러리인 KoNLPy의 형태소 분석기인 Okt를 사용하였고, 키워드 추출을 위해 KeyBERT를 사용했다[2][3]. 실험에 사용한 서울시 전월세 실거래가 데이터는 행정안전부 공공데이터포털 API를 통하여 수집하였고, 지역 환경과 교통에 대한 정보는 Kakao Map API[5]를 사용하였다.
본 논문의 2장에서 자연어 질의 관련 서비스, 자연어 처리 모델인 KeyBERT와 형태소 분석에 사용된 KoNLPy, Random Forest를 소개한다. 3장에서는 제안하는 자연어 질의 기반 실거래 정보 검색 시스템의 설계와 구현 방식을 설명하고, 4장과 5장에서 시스템 실험 결과를 기술하고, 결론을 맺는다.
Ⅱ. 관련 연구
2.1 자연어 질의 관련 서비스
한국부동산원은 인공지능 챗봇 서비스 기업 메이크봇을 통해 부동산 서비스의 홍보와 상담 서비스를 제공하고 있다. 로보리포트 서비스는 부동산에 대한 정보를 챗봇 방식을 통해 검색할 수 있으나, 검색 가능한 속성 정보가 가격과 매물 위치 정보로 한정적이며, 해당 서비스는 현재 중단되었다. 다속성 검색, 시맨틱 검색 등 기존 부동산 검색 인터페이스에 관한 연구 또한 이루어져왔으나, 이 또한 충분한 자연어 질의 기능을 제공하는 사례는 찾아보기 어렵다[6][7].
2.2 텍스트 마이닝
텍스트 마이닝(Text mining)은 자연어로 구성된 비정형 텍스트 데이터에서 의미 있는 패턴이나 관계의 정보를 추출하는 기법이다. 텍스트 마이닝은 크게 정보 탐색 과정과 자연어 처리 기술로 나뉘며, 이중 자연어 처리는 형태와 구조가 복잡하며 최근 인공지능 분야의 발전과 함께 활발히 연구하고 있다.
2.3 KeyBERT
KeyBERT[3]는 BERT 임베딩을 활용하여 문서를 가장 잘 설명할 수 있는 키워드를 추출하는 기술이다. 키워드 추출 기술들은 주로 문서의 통계적 특성을 기반하여 분석하고 있으며, 텍스트 전체의 의미적 측면을 필수적으로 고려하지는 않는다. BERT는 이 문제를 해결하여 짧은 문서에서 효율적으로 의미를 분석할 수 있으나, 긴 문서에서는 시간 비용이 크다는 단점이 있다[1]. KeyBERT를 통해 키워드 추출을 하기 위해서는 형태소 분석 과정이 필요하다. KoNLPy는 한국어 정보 처리를 위한 파이썬 패키지로, 형태소 분석에 활용된다. KoNLPy의 형태소 파서에는 Komoran, Okt, Kkma 등이 있다. 본 연구에서 사용한 Okt 파서는 비교적 간단한 형태로, 띄어쓰기가 있는 문장을 다른 파서들에 비해 신속하게 처리할 수 있다는 장점이 있다.
2.4 Random Forest
Random Forest는 과대적합이 되기 쉬운 결정 트리 모델을 보완한 앙상블 모델이다. 여러 개의 결정 트리를 생성할 때 새로운 데이터를 통과시킨 후 각 트리가 분류한 결과를 합쳐 최종 결과를 도출하는 방식으로, 과대적합을 최소화하여 정확도를 높였다.
Ⅲ. 자연어 질의에 대한 실거래 정보 검색
3.1 자연어 질의 시스템 설계
본 시스템에서 사용한 부동산 실거래 데이터 정보와 교육 시설 정보는 행정안전부 산하의 공공데이터 제공 서비스인 공공 데이터 포털[8]을 통해, 편의시설 정보는 Kakao Map API를 통해 수집하였다.
그림 2는 제안 시스템의 처리 과정이다. 자연어 질의를 사용자에게서 입력받아, 단어 토큰화 및 형태소 분석 과정을 거친다. 단어들 중 주요 키워드를 추출한 후, 이에 따라 질의 유형을 분류하며 각 질의에 적합한 검색 결과를 시각화한다.
3.2 세부 모듈
자연어 질의를 해석하고 검색에 필요한 정보를 추출하기 위해서 사용자 질의를 KoNLPy의 Okt 파서를 사용하여 토큰화하고, 각 형태소의 품사를 태그를 연결한다.
전처리한 단어들을 중요도에 따라 주요 키워드로 추출하기 위해 SBERT, 단어 임베딩 패키지인 문장 변환기(sentence_transformers)를 사용한다. N-gram 임베딩 방식으로 연속된 단어를 분석하여 코사인 유사도를 계산해 주요 단어를 추출한다.
Random Forest 모델을 통해 추출한 키워드들로부터 적절한 질의 유형을 분류한다.
분류한 질의 유형과 단어 토큰 종류에 따라 거리 탐색과 실거래가 정보 필터링이 필요할 경우를 분류하여 매물 분석 로직을 수행한 후, 결과를 지도에 시각화한다.
Ⅳ. 시스템 구현 및 수행 결과
본 시스템은 Pandas, Sklearn, Konlpy, Haversine 파이썬 라이브러리를 사용하여 구현하였다[10].
4.1 자연어 질의 유형
표 1은 본 시스템에서 처리 가능한 질의 유형을 정리한 것이다. 질의 유형은 크게 가격, 면적, 편의시설, 건물명으로 구성된 단순 질의 유형과 복합 질의 유형으로 구분한다.
4.2 거래 형태 및 가격 질의
거래 형태 및 가격 질의는 표 2와 같이 거래 형태 지정 후 가격 지정과 가격 미지정의 두 가지 유형으로 분류한다. 실행 결과는 그림 3과 같다.
거래 형태 및 가격 질의에서는 거래 형태와 가격지표를 질의에서 해석하여 정보를 필터링한다. ‘저렴한’, ‘싼’ 등의 키워드가 포함되었을 때 면적당 가격을 계산하여 해당 지표가 낮은 순으로 실거래 매물 정보를 계산하여 제공한다.
4.3 면적 및 편의시설 질의
표 2는 면적 및 편의시설 질의의 분류이고, 실행결과는 그림 4와 그림 5와 같다. 국토교통부의 최저주거기준을 지표로 사용했다.
Kakao Map API Geocoding을 통해 편의시설과 매물의 위, 경도를 얻었다. 편의시설과 매물 사이의 직선거리를 haversine 공식을 통해 계산하여 필터링했다.
(1) |
4.6 시스템 성능 평가
실험에 사용된 질의어의 평균 처리 시간은 14.1초로 측정되었으며, 편의시설의 종류가 많을수록, 매물의 검색 범위가 넓을수록 더 오랜 시간이 걸렸다. 구 단위 검색은 최대 5분 15초가 소요되었다.
Ⅴ. 결론 및 향후 과제
본 연구에서는 자연어 질의를 통해 서울특별시 전월세가 실거래 정보를 사용자 친화적으로 검색할 수 있는 시스템을 구현하였다. KeyBERT 및 KoNLPy를 이용해 자연어 처리모델을 구현했고, Random Forest를 사용했다. 그러나 BERT 시스템과 편의시설과 매물의 위치에 대한 Geocoding 처리 지연이 발생하며, 시설과 매물 위치의 군집화를 통해 개선할 수 있을 것으로 예상된다. 또한, 매물의 속성정보를 이용한 2차, 3차의 복합 질의를 통해 편의성을 개선을 기대할 수 있다.
References
- J. Devlin, M. W. Chang, K. Lee, and K. Toutanova, "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding", arXiv:1810.04805, , pp. 3-5, May 2019. [https://doi.org/10.48550/arXiv.1810.04805]
- E. L. Park and S. Cho, "KoNLPy: Korean natural language processing in Python", Proc. of the 26th Annual Conference on Human & Cognitive Language Technology, Oct. 2014.
- M. Grootendorst, "KeyBERT: Minimal keyword extraction with BERT", Zenodo, v0.3.0, 2020. [https://doi.org/10.5281/zenodo.4461265]
- Naver Real Estate, https://land.naver.com, [accessed: Aug. 25, 2022]
- Kakao Map API, https://apis.map.kakao.com/web, [accessed: Aug. 25, 2022]
- J. H. Cho, "The Development of a Real Estate Multi-Attribute Integrated Search System", JSEBS, Vol. 14, No. 3, pp. 15-37, 2009.
- J. H. Cho and M. W. Kang, "Design of a Real Estate knowledge Information System Based on Semantic Search", JKSIIS, Vol. 16, No. 2, pp. 2-5, May 2019. [https://doi.org/10.9723/jksiis.2011.16.2.111]
- Korea MOIS Data Portal, https://www.data.go.kr/data/15052420/fileData.do, [accessed: May 09, 2022]
- S. J. Yu, "SA Study on Recommendation Method for Real Estate Using Naive Bayes Classification", JKIIT, Vol. 17, No. 10, pp. 115-120, Oct. 2019. [https://doi.org/10.14801/jkiit.2019.17.10.115]
- Bird Steven, Edward Loper, and Ewan Klein, "Natural Language Processing with Python", O’Reilly Media Inc, 2009.
- H. L. Park, S. J. Jo, H. B, Han, and S. J. Yu, "Text Mining-based Sentiment Analysis of Newly-Coined Words and Implementation of SMU Sentimental Dictionary", JKIIT, Vol. 20, No. 2, pp. 21-28, Feb. 2022. [https://doi.org/10.14801/jkiit.2022.20.2.21]
2020년 2월 ~ 현재 : 숙명여자 대학교 소프트웨어학부(학사과정)
관심분야 : 데이터마이닝, 자연언어처리
1994년 2월 : 연세대학교 컴퓨터과학과(이학사)
1996년 2월 : 연세대학교 컴퓨터과학과(이학석사)
2001년 2월 : 연세대학교 컴퓨터과학과(공학박사)
2005년 ~ 현재 : 숙명여자대학교 소프트웨어학부 교수
관심분야 : 데이터마이닝, 추천시스템, 정보시각화