Korean Institute of Information Technology
[ Article ]
The Journal of Korean Institute of Information Technology - Vol. 16, No. 6, pp.91-99
ISSN: 1598-8619 (Print) 2093-7571 (Online)
Print publication date 30 Jun 2018
Received 09 Mar 2018 Revised 19 Jun 2018 Accepted 22 Jun 2018
DOI: https://doi.org/10.14801/jkiit.2018.16.6.91

키워드 기반 추천시스템 데이터 셋 구축 및 분석

배은영* ; 유석종**
*숙명여자대학교 소프트웨어학부
**숙명여자대학교 소프트웨어학부
Keyword-based Recommender System Dataset Construction and Analysis
Eun-Young Bae* ; Seok-Jong Yu**

Correspondence to: Seok-Jong Yu Department of Software, Sookmyung Womens’s University, Korea Tel.: +82-2-710-9831, Email: sjyu@sm.ac.kr

초록

추천시스템(Recommender System)이란 대상자가 좋아할 만한 무언가를 추천하는 시스템을 일컫는다. 아마존의 상품 추천, 페이스북이나 링크드인의 친구 추천, 넷플릭스와 왓차의 영화 추천, 행태 기반 광고, 뉴스 추천 등 여러 분야에서 추천시스템은 이미 널리 활용 중이며 진화 중에 있다. 학계에서도 추천시스템에 대한 관심과 연구는 꾸준하게 증가를 하고 있으며, 이 분야의 논문 수 또한 해마다 증가하고 있고, 연구 분야 또한 점점 세분화되고 다양해지고 있다. 본 논문에서는 추천시스템에 관한 주요 연구 주제나 적용 대상 도메인, 선호 기법, 연구 주제에 대한 트렌드 등을 파악하기 위하여 IEEE Xplore 전자 도서관 및 ACM 전자 도서관으로부터 얻은 추천시스템 논문 관련 자료를 토대로 데이터 셋을 구축하고 분석을 진행하였다.

Abstract

Recommender system is a system that recommends something that a person would like. Recommender systems are widely used and evolving in various fields such as Amazon product recommendation, Facebook or Linkedin friend recommendation, Netflix and Watcha movie recommendation, behavior based advertisement, news recommendation. In the academia, interest and research on recommender systems are steadily increasing, and the number of papers in this field is increasing year by year, and the field of research is becoming more and more fragmented and diversified.

In this paper, we constructed a dataset based on dissertation data of recommender system obtained from IEEE Xplore Digital Library and ACM Digital Library, and proceeded with the analysis in order to grasp major research topics, application domains, preference techniques, and trends in research topics.

Keywords:

recommender system, collaborative filtering, recommender trend

Ⅰ. 서론

추천시스템은 사용자가 아이템에 대해 어떻게 평가할 지를 예측하는 정보 필터링 시스템의 일종이다. “과거가 미래다”라는 말이 있듯이 과거의 데이터를 기반으로 하여 사용자가 원하는 최적화된 아이템이 무엇인가를 예측하고 추천하는 일은 많은 산업군에서 필요한 부분이며, 이미 아마존의 상품 추천, 페이스북이나 링크드인의 친구 추천, 넷플릭스와 왓차의 영화 추천, 행태 기반 광고, 뉴스 추천, 쇼핑몰의 상품 추천 등 다양한 영역에서 활용되고 있다. 추천시스템에 대한 관심 및 활용도가 높아지면서 학계의 연구 방향도 다양해지고 있다. 1998년부터 등장하기 시작한 추천 시스템 관련 논문은 그 수가 해마다 증가하고 있고, 연구 분야 또한 세분화되고 다양한 형태로 변화되고 있다. 본 논문에서는 IEEE 및 ACM의 전자 도서관에서 제공되는 논문 관련 자료를 가지고 데이터 셋을 구축하고, 논문의 키워드를 중심으로 과거부터 현재까지 추천시스템의 주요 연구 주제, 주요 이슈의 변화에 대한 흐름 등을 확인해 보고자 하였다.


Ⅱ. 추천시스템의 이해

2.1 추천시스템 개요

1990년대 중후반 협업필터링에 관한 연구 논문[1]이 등장한 이후, 추천시스템은 학계에서 주요한 연구 분야가 되었다. 추천시스템은 선호도 또는 사용자에 의해 아이템에 주어지는 평점을 예측하는 정보 필터링 시스템이라고 할 수 있으며, 추천시스템의 목표는 사용자가 관심을 가질만한 아이템이나 제품들에 대해 유용하고도 분별 있는 추천을 해주는 것이다.

2.2 추천시스템 분류

추천시스템은 사용하는 정보 등에 따라 보통 아래와 같이 분류가 된다[2]-[7].

- 내용 기반 필터링(Content based Filtering)

내용 기반 필터링은 아이템 자체를 분석하여 추천을 구현하는 기법으로, 내용 기반 필터링을 위해서는 아이템을 분석한 프로파일(Item Profile)과 사용자의 선호도 프로파일(User Profile)을 추출하여 이의 유사성을 계산한다. 이 기법은 아이템의 내용을 분석해야 하므로 아이템 분석 알고리즘이 핵심적이며, 이를 위해 군집분석(Clustering Analysis), 인공신경망(Artificial Neural Network), tf-idf(term frequency inverse document frequency) 등의 기술이 주로 사용된다.

- 협업 필터링(CF, Collaborative Filtering)

협업 필터링이란 사용자의 행위를 모델링하고 유사도가 높은 사용자들의 행위를 예측하는 방식으로, 비슷한 패턴을 가진 사용자나 항목을 추출하는 기술이 핵심이며 주로 행렬분해(Matrix Factorization), k-최근접 이웃 알고리즘(kNN, k-nearest Neighbor Algorithm) 등의 방법이 사용된다. 협업 필터링을 위해서는 반드시 기존 자료를 활용해야 하고, 사용자의 행위로 분석하기 때문에 높은 정확도를 위해서는 많은 데이터가 있어야 한다. 협업 필터링 방식은 메모리 기반 협업 필터링(Memory based CF)과 모델 기반 협업 필터링(Model based CF)이 있다. 메모리 기반 협업 필터링은 사용자와 아이템에 대한 액션을 모두 메모리 위에 올려두고 사용자-아이템 간의 관계를 계산하는 방법이며, 모델 기반 협업 필터링은 베이즈 네트워크(Bayesian Network)나 인공 신경망 등 다양한 머신러닝 기법을 통해서 추천을 해주는 방식이다.

- 하이브리드 추천 시스템(Hybrid Recommender system)

내용 기반 필터링과 협업 필터링을 결합하는 등 다양한 추천 방식을 조합하여 추천하는 시스템이다.

2.3 추천시스템 주요 연구 주제

추천시스템 연구에서 다루어지는 주요 연구 주제에는 초기 사용자 문제(Cold Start), 확장성(Scalability), 희소성(Sparsity), 다양성(Diversity), 예측 가능성(Predictability), 동의어(Synonymy), 악의적 평가 점수 입력(Shilling Attack), 선호 특성 항목의 반복 추천(Overspecialization), 비 일관적 평가 점수 입력(Grey Sheep), 관심 적은 다수 항목 추천(Long Tail Item Recommendation), 참신성(Novelty), 개인 정보 보호(Privacy), 오류 및 악의적인 데이터(Erroneous and Malicious Data), 빅 데이터 등이 있으며 이 중 몇 가지를 소개하면 아래와 같다[4]-[8].

- 초기 사용자 문제 : 새로운 항목이 추가되는 경우 이를 추천할 수 있는 정보가 쌓일 때까지는 정확한 추천이 어려워진다는 것을 의미한다.

- 희소성 : 막대한 양의 아이템에 대비하여 사용자의 평점의 양은 아주 희소할 수 있으며, 이 문제로 인해 예측의 정확도가 감소할 수 있다. 희소성 문제를 해결하기 위하여 특이값 분해(SVD, Singular Value Decomposition), 인구통계학적 필터링, 내용 기반 필터링 기법 등이 제안되고 있다.

- 동의어 : “comedy movie”와 “comedy film”과 같이 유사한 아이템에 대하여 다른 이름으로도 불리어지는 경우를 의미하며, 이 문제를 해결하기 위하여 온톨로지(Ontologies), 특이값 분해, LSA(Latent Semantic Analysis) 등이 사용된다.

- 악의적 평가 : 악의적인 사용자가 아이템에 대하여 의도적으로 잘못된 평점을 넣는 경우를 의미한다.

- 비 일관된 평가 : 독특한 취향의 사용자에 의한 추천을 의미하며, k-mean 클러스터링 등의 방법을 통해 다른 사용자들로부터 독특한 사용자를 분리해내는 기법을 사용한다.

2.4 연구 배경

추천시스템은 서비스에 큰 영향을 미치는 요소이기 때문에 오래 전부터 많은 학자들과 기업들에서 연구를 하고 있는 주요한 분야 중의 하나이다.

Fig. 1.

Number of articles per year

그림 1은 IEEE 데이터 셋과 ACM 데이터 셋을 합산한 추천시스템 논문 편수이다. 1998년부터 등장하기 시작한 추천시스템 관련 논문은 해마다 증가를 하고 있으며, 특히 2009년경부터 급격한 증가추세를 보이고 있음을 알 수 있다.

본 본문에서는 매년 증가하고 있는 추천시스템에 대한 주요 연구 주제가 무엇인지, 연구 도메인은 무엇인지, 연구 주제는 어떠한 방향으로 다양해지고 있는지 등에 대해 알아보고자 하였으며, 이를 위하여 IEEE 및 ACM 전자 도서관에서 제공되는 논문 정보를 활용하여 키워드를 중심으로 분석을 진행하기 위하여 데이터 셋을 구축하였고, 분석을 시도해 보았다.


Ⅲ. 추천시스템 키워드 기반 데이터 셋 구축

3.1 추천시스템 주제 분석을 위한 데이터 셋 구축 절차

추천시스템 연구 주제 분석을 위한 데이터 셋 구축 절차는 그림 2와 같으며, 이를 위하여 본 논문에서는 IEEE 및 ACM의 전자도서관에서 제공되는 자료를 활용하였다.

전처리 작업을 통하여 결측값을 제거하고, 논문들에서 제시되는 키워드 묶음을 각각의 키워드로 분리한 후 논문번호와 년도에 일대일 매핑작업을 진행하였고, 유사 의미를 갖는 키워드에 대해서는 그룹핑 작업을 수행하였다. IEEE와 ACM의 자료는 합치지 않고 각각의 자료를 별도로 하여 분석을 진행하였다.

Fig. 2.

Dataset construction procedure and pre-processing step

3.2 데이터 셋 구축을 위한 전처리 및 데이터 매핑

IEEE 및 ACM의 전자도서관으로부터 얻은 자료는 xls파일과 csv파일이며, 그림 2와 같은 절차로 전처리 작업을 진행하였다.

IEEE 자료의 경우는 IEEE Xplore 전자도서관[9]로부터 2017년 12월 기준, 1998년부터 2017년까지의 추천시스템 논문 자료 5839건을 xls파일 형태로 받은 후 전처리 작업을 진행하였다. 제공된 총 31개의 필드 중에서 데이터 셋 구축을 위한 용도로 논문제목, 저자가 제시한 키워드, 논문발행년도 필드를 사용하였으며, 저자가 제시한 키워드가 제시되어 있지 않은 논문에 대해서는 논문의 내용이 비교적 구체적으로 표현되어 있는 INSPEC non-controlled Terms을 사용하였다. 사용된 필드 및 데이터 값의 예는 그림 3과 같다. IEEE 자료에서는 논문을 식별하는 고유번호가 제공이 되지 않았기 때문에 각 논문마다 논문번호(Id)를 생성하였으며, 논문들에서 제시된 키워드의 묶음을 각각의 키워드로 분리를 하고, 분리된 각 키워드들은 그림 5와 같이 논문번호 및 논문발행년도에 일대일 매핑시켰다.

Fig. 3.

IEEE dataset field & sample data

ACM 자료의 경우에는 ACM 전자도서관[10]로부터 2017년 12월 기준, 1998년부터 2017년까지 추천시스템에 대한 논문 자료 2007건을 csv파일 형태로 받은 후 전처리 작업을 진행하였다. 제공된 총 27개의 필드 중에서 논문번호, 논문제목, 논문발행년도, 키워드 필드를 사용하였으며, IEEE 자료처리처럼 키워드 묶음을 각각의 키워드로 분리하고 분리된 각 키워드마다 논문번호와 논문발행년도를 매핑하는 작업을 진행하였다. ACM 데이터 셋 구축을 위하여 사용된 필드 및 데이터 예는 그림 4와 같다.

Fig. 4.

ACM dataset field & sample data

Fig. 5.

Example of keyword, id, and year mappings

3.3 유사 키워드 그룹핑

일대일 매핑 작업을 한 데이터는 MS-SQL 서버를 사용하여 데이터베이스로 구축한 후 그룹핑 작업을 하였다[그림 6]. 먼저 데이터가 제대로 들어가 있지 않은 레코드를 삭제한 후에 동의어 처리를 위해서 모든 문자는 소문자로 변환하고, 복수 형태의 단어는 단수 형태로 통일화하였다.

Fig. 6.

Synonym grouping example

또한 복합어로 구성된 키워드나 유사 의미이면서 다르게 표현된 키워드에 대해서는 동일한 형식으로 표준화하였다. SVM와 support vector machine의 예처럼 같은 용어인데 다르게 표현된 키워드는 모두 약어로 통일화하여 진행을 하였다. ACM 자료에 대한 전처리 작업도 IEEE 자료와 유사한 방법으로 진행하였다.


Ⅳ. 키워드 중심의 빈도 분석 및 시각화

4.1 IEEE 데이터 셋을 활용한 분석

IEEE논문의 경우, 전처리 작업을 통해 그룹핑 작업을 진행했음에도 불구하고 키워드의 종류 수가 현저히 많았다. 키워드 당 빈도수를 확인해 본 결과 총 3132의 유일한 키워드 중에서 그림 7에서 보이는 것처럼 협업 필터링이 압도적으로 많이 나왔으며, personalized recommendation, e-commerce, social network, user preference 등의 용어가 많이 등장하였다.

Fig. 7.

Cumulative frequency per keyword

각 키워드에 대해 연도 별로 빈도를 확인해 본 바, 추천시스템 연구의 주요 이슈인 초기 사용자 문제나 희소성은 여전히 주요 연구 이슈로 다루고 있으며, e-commerce나 hybrid recommendation에 대한 연구도 증가 추세임을 확인할 수 있었다. 또한 data mining, association rule이나 machine learning 등의 키워드의 빈도로 보아 추천시스템의 연구 방향이 좀 더 다양해지고 있음도 그림 8을 통해 확인할 수 있었다. 한편, 영화 데이터 셋인 movielens 키워드가 상위에 랭크되어 있는데 이는 데이터 확보가 관건인 추천시스템 연구에서 공개용 데이터 셋을 활용한 영역이 논문에서 많이 활용이 되고 있음을 보인다.

Fig. 8.

Keyword frequency by year

그림 9는 연구 대상 도메인별로 키워드를 비교해 본 것으로서 movie와 music 영역으로 부터 추천시스템에 대한 연구가 시작되었고, 현재까지도 주요 연구 대상 도메인임을 알 수 있다. 추천시스템 연구에서는 데이터 확보가 중요한 관건이기 때문에 Netflex, Movielens, Last.fm 등 데이터 셋이 공개되어 있는 도메인에 대한 추천시스템 연구가 좀더 활발히 진행되고 있음을 유추할 수 있으며, 근래 들어서는 travel, social network, job 등 추천시스템의 연구 적용분야가 점점 다양해지고 있음도 확인할 수 있다.

Fig. 9.

Frequency per domains

4.2 ACM 데이터 셋을 활용한 분석

ACM 데이터 셋에서 가장 많이 나온 키워드 역시 협업 필터링이었다. 오랜 시간이 소요되어 실시간 추천이 필요한 현실에 적용하기 어려운 단점이 있음에도 불구하고 좋은 성능을 발휘한다는 장점으로 인해 학계에서는 여전히 협업필터링에 대하여 많은 관심을 보이고 있음을 알 수 있으며, machine learning에 관련된 키워드에 대해서도 deep learning, neural network, recurrent neural network 등이 나타난 것으로 보아 기계학습이 추천시스템에도 활용이 되고 있음을 확인할 수가 있다.

한편 협업 필터링뿐만 아니라 e-commerce, social network, matrix factorization도 꾸준하게 많이 등장하는 주제어이고, 다양성도 2011년 이후 꾸준하게 많이 연구가 이루어지는 주제어였다. 또한 personalization에 관한 주제도 꾸준히 증가하고 있는 연구 주제였으며, 추천의 다양성을 높이고자 하는 연구도 증가하고 있는 추세임을 확인할 수 있다.

그림 10은 연도별로 키워드 당 빈도율을 확인해 본 것이다. 키워드 빈도율은 해당년도의 키워드 빈도를 해당년도의 논문수로 나누어 계산하였다. 협업 필터링의 경우 2004~2006년도에는 논문 중 45%정도가 협업 필터링을 키워드로 하고 있으나, 점차 협업 필터링 키워드 등장 비율이 줄고 있음을 알 수 있다. 협업 필터링 키워드의 등장 비율이 점점 낮아지는 이유는 추천시스템에 대한 연구가 점차 세분화됨에 따라 논문에서 제시되는 키워드의 수와 종류가 다양해지기 때문이다.

Fig. 10.

Frequency rate per keyword

그림 11은 2008년부터~2017년까지 주요키워드의 순위 변화를 비교해 본 것이다. 협업 필터링, matrix factorization, social network, personalization, 초기 사용자 문제, 다양성 등은 매해 많은 논문에서 등장하는 키워드이며, machine learning관련 키워드들도 등장횟수가 점점 많아지고 있음을 보인다. content based filtering이나 context aware recommendation, group recommendation 등도 매해 자주 등장하는 키워드임을 확인할 수 있다.

Fig. 11.

Keyword ranking changes

그림 12는 추천시스템 연구의 적용 분야 비교를 자바스크립트 기반의 반응형 시각화 라이브러리인 D3.js를 활용하여 표현한 것이다. 추천시스템에 대한 연구가 활발해지던 시기인 초창기와 비교하여 근래에 들어서는 다양한 분야를 대상으로 추천시스템에 대한 연구가 진행이 되고 있으며, 특히 social network나 health에 대한 연구가 점차 활발해 지고 있음을 알 수 있다.

Fig. 12.

Domain frequency comparison visualization example

4.3 분석 정리

두 개의 학술사이트로부터 얻은 논문관련 정보 중 키워드 분석을 통해 논문의 주요 연구 이슈들에 대한 빈도를 그림 13과 같이 정리해 본 결과에 의하면, 추천시스템에 관한 논문 중에는 music을 적용 대상 도메인으로 연구를 진행한 논문이 가장 많았다. social network와 e-commerce의 경우, 연구 적용 대상 도메인이기도 하지만 적용대상과는 별개로 키워드 목록에 포함이 되는 부분이 있어서 적용 대상 도메인 순위에서는 생략을 하였다. 추천 기법에 대해서는 협업 필터링에 대한 연구가 많았으며, 주요 연구 이슈로는 초기 사용자 문제나 희소성에 관한 연구가 많이 이루어지고 있음을 알 수 있었다.

Fig. 13.

Keyword ranking by analysis area (1998~2017, IEEE+ACM)


Ⅴ. 결론

현재 각 산업 군에서 추천시스템은 다양하게 활용이 되고 있으며, 학계에서도 추천시스템에 대한 연구는 여전히 활발하게 이루어지고 있다.

본 논문에서는 IEEE와 ACM 전자 도서관으로부터 얻은 자료들을 활용하여 데이터 셋을 구축하고, 구축된 데이터 셋을 통해 추천시스템에 관한 주요 연구 주제나 적용 대상 도메인, 선호 기법 등에 대하여 확인해 보았다.

키워드 빈도를 활용한 분석을 통하여, 추천시스템이 등장한 초반에 비해 연구 영역이나 대상 등이 다양해지고 세분화되어지고 있음을 알 수 있었고 개인화 추천, 머신러닝, 데이터 마이닝을 활용한 추천시스템에 대한 연구들이 점차 늘어나고 있음도 확인할 수 있었다.

다른 관점에서 의미 있는 결과를 도출해 보고자 추천시스템 관련 논문들에 제시되어 있는 키워드 묶음을 사용한 분석을 시도해 보았지만, 유사 키워드를 그룹핑하는 데 있어서 인간의 주관적 지식이 개입될 수밖에 없는 한계가 있음을 확인할 수 있었다. 논문 키워드를 통한 분석에서 정확도가 높은 결과를 얻어내기 위해서는 다양한 단어로 표현되어 있는 키워드의 표준화가 중요한 작업이고, 이를 위해서는 관련 전공 용어에 대하여 온톨로지 구축, 메타데이터 레지스트리 구축 등의 방법 등을 사용하여 동일 개념을 식별할 수 있도록 하는 것이 필요하겠다.

또한 다양한 산업 군에서 추천시스템이 활발하게 활용되고 있음에도 불구하고 연구 논문에서는 music이나 movie 등 연구 대상 도메인이 다소 제한적인데, 이는 데이터 확보에 기인하기 때문이라 판단이 되며, 넷플릭스 등과 같이 추천시스템이 유용하게 활용될 수 있는 다양한 산업 군에서 데이터 셋을 공개해준다면 추천시스템에 대한 학계의 연구가 더욱 활발하게 진행될 수 있을 것이다.

논문에 제시된 키워드와 논문 주제에 대한 관련성을 놓고 보았을 때, 키워드를 중심으로 한 분석 방법은 어느 정도 의미가 있을 것이며, 연구자의 연구 방향 설정 등에도 다소 도움이 될 수 있겠다.

References

  • Paul Resnick, Neophytos Iacovou, Mitesh Suchak, and Peter Bergstrom, "An open architecture for collaborative filtering of netnews", Proceedings of the 1994 ACM conference on Computer supported cooperative work, p175-186, Oct.), (1994.
  • Francesco Ricci, Lior Rokach, and Bracha Shapira, "Introduction to Recommender Systems Handbook", Springer, p25-47, (2011). [https://doi.org/10.1007/978-0-387-85820-3]
  • Isinkaye, Folajimi, and Ojokoh, "Recommendation systems: Principles, methods and evaluation", Egyptian Informatics Journal, Vol. 16(No. 3), p261-273, Jun.), (2015. [https://doi.org/10.1016/j.eij.2015.06.005]
  • Shah Khusro, Zafar Ali, and Irfan Ullah, "Recommender Systems; Issues, Challenges, and Research Opportunities", A Comparative Study on Hough Transform Segmentation Approach for Outlier Iris Image, p1179-1189, Feb.), (2016.
  • Sarika Jain, Anjali Grover, Praveen Singh Thakur, and Sourabh Kumar Choudhary, "Trends, Problems And Solutions of Recommender System", International Conference on Computing, Communication and Automation, p955-958, May), (2015. [https://doi.org/10.1109/CCAA.2015.7148534]
  • Soanpet. Sree Lakshmi, and Adi Lakshmi, "Recommendation Systems; Issues and challenges", International Journal of Computer Science and Information Technologies, Vol. 5(No. 4), p5771-5772, May), (2014.
  • Omkar S. Revankar, and Y. V. Haribhakta, "Survey on Collaborative Filtering Technique in Recommendation System", International Journal of Application or Innovation in Engineering & Management, Vol. 4(No. 3), p85-91, Mar.), (2015.
  • Gediminas Adomavicius, and Alexander Tuzhilin, "Toward the Next Generation of Recommender Systems: A Survey of the State-of-the-Art and Possible Extensions", IEEE transactions on knowledge and data engineering, Vol. 17(No. 6), p734-749, Apr.), (2005. [https://doi.org/10.1109/TKDE.2005.99]
  • IEEE Xplore Digital Library, (http://ieeexplore.ieee.org/search/advsearch.jsp) [Accessed: Feb. 01. 2018].
  • ACM Digital Library, (https://dl.acm.org/) [Accessed: Feb. 01. 2018].
저자소개
배은영 (Eun-Young Bae)

1993년 2월 : 숙명여자대학교 이과대학 통계학과(이학사)

2003년 2월 : 서강대학교 정보통신대학원 정보처리전공(공학사)

2014년 3월 ~ 현재 : 숙명여자대학교 컴퓨터과학과 일반대학원 박사과정

관심분야 : 추천시스템, 정보시각화, 협업필터링, 컴퓨터교육

유석종 (Seok-Jong Yu)

1994년 2월 : 연세대학교 컴퓨터과학과(이학사)

1996년 2월 : 연세대학교 대학원 컴퓨터과학과(이학석사)

2001년 2월 : 연세대학교 대학원 컴퓨터과학과(공학박사)

2005년 ~ 현재 : 숙명여자대학교 소프트웨어학부 교수

관심분야 : HCI, 그래픽스, 추천시스템, 협업필터링

Fig. 1.

Fig. 1.
Number of articles per year

Fig. 2.

Fig. 2.
Dataset construction procedure and pre-processing step

Fig. 3.

Fig. 3.
IEEE dataset field & sample data

Fig. 4.

Fig. 4.
ACM dataset field & sample data

Fig. 5.

Fig. 5.
Example of keyword, id, and year mappings

Fig. 6.

Fig. 6.
Synonym grouping example

Fig. 7.

Fig. 7.
Cumulative frequency per keyword

Fig. 8.

Fig. 8.
Keyword frequency by year

Fig. 9.

Fig. 9.
Frequency per domains

Fig. 10.

Fig. 10.
Frequency rate per keyword

Fig. 11.

Fig. 11.
Keyword ranking changes

Fig. 12.

Fig. 12.
Domain frequency comparison visualization example

Fig. 13.

Fig. 13.
Keyword ranking by analysis area (1998~2017, IEEE+ACM)