[ Article ]

The Journal of Korean Institute of Information Technology - Vol. 20, No. 9, pp.31-42

ISSN: 1598-8619 (Print) 2093-7571 (Online)

Print publication date 30 Sep 2022

Received 30 Jul 2022 Revised 16 Aug 2022 Accepted 19 Aug 2022

DOI: https://doi.org/10.14801/jkiit.2022.20.9.31

텍스트 데이터 기반 에듀테크 산업 이슈 도출 방안

공영일^*

; 이호^**

; 최재원^***

*소프트웨어정책연구소 디지털통계연구센터 책임연구원
**한국기술교육대학교 융합학과 조교수(교신저자)
***순천향대학교 경영학과 부교수

Deriving Edutech Industry Issues from Text Data

Youngil Kong^*

; Ho Lee^**

; Jaewon Choi^***

Correspondence to: Ho Lee Dept. of Future Technology, Korea University of Technology and Education 1600 Chunjeol-ro, Byeoncheon-myeon, Cheonan-si, Korea Tel.: +82-41-560-1475, Email: leeho32@koreatrech.ac.kr

초록

기존 교육 체계가 다양한 ICT 기술과 결합되면서 에듀테크는 교육분야의 혁신을 이끄는 핵심기술로 부상하고 있다. 그러나, 교육 관련 이해관계자(학생, 교사, 학부모, 학교, 정부, 산업계 등)의 에듀테크에 관한 관심과 수요는 매우 다양하고 복잡하다. 이에 향후 에듀테크 시장 확대를 위한 기업 전략, 정부의 산업 육성정책 수립을 위해서는 데이터에 기반한 현황 파악이 중요하다. 이를 위해 본 연구는 언론 기사 데이터를 바탕으로 소셜 네트워크 분석방식을 적용하였다. 4개의 군집에 대해 내용 분석을 실시한 결과, 코로나, 이러닝, 대학, 학교에서의 에듀테크 이슈들이 도출되었다. 본 연구는 데이터 분석을 통해 도출된 에듀테크 산업의 현황과 이슈를 바탕으로 에듀테크 산업의 발전 방향을 파악함으로써 에듀테크 산업의 정책개발에 시사점을 제공하는 것을 목적으로 한다.

Abstract

Edutech is emerging as a core technology that leads innovation in the education field by combining the current education system with various ICT technologies. Interest and demand for Edutech from education-related stakeholders (students, teachers, parents, schools, governments, industry, etc.) are very diverse and complex. Because of this, it is crucial to understand its current situation in order to establish corporate strategies for expanding the Edutech market, as well as the government's industrial promotion policy in the future. To this end, the social network analysis technique using media article data was applied in this study. The content analysis results of the four major clusters revealed various issues in the Edutech Industry, such as COVID, e-learning, universities, and schools. This study aims to provide implications for policy development of the Edutech industry by identifying its developmental direction based on its current status and issues as derived through data analysis.

Keywords:

edutech, edutech trends, edutech issues, social network analysis

Ⅰ. 서 론

에듀테크(Edutech) 산업의 영역은 4차산업혁명의 발전과 함께 급격히 확산되고 있다. 에듀테크 시장 규모는 2025년까지 3000억 달러 이상 확대될 것으로 예상되며, 스마트폰 및 5G 등 학습시청 기기와 통신의 발달로 인해 새로운 에듀테크 산업 확산이 가속화 되고 있다[1]. 특히 COVID-19 환경에 따라 에듀테크는 글로벌 이슈로 부상 중이며 유통 및 플랫폼의 확장에 따라 전 세계적으로 2020년에는 2,500억 달러의 규모로 연간 약 17% 정도의 성장을 보일 것으로 예측된다[2].

국내에도 에듀테크 시장의 규모는 증가하고 있으나, 해외와 달리 소수의 사업자들이 시장을 점유하고, 참여 기업의 규모도 해외에 비해 적은편이다[3]. 코로나19로 인한 에듀테크 시장의 수요는 급격히 증가하였으나, 급격한 수요 변화에 적절한 대응이 이뤄지지 못하는 실정이다. 특히, 정부, 산업계, 대학, 서비스 제공기업의 의견이 조율되지 못한 급격한 산업 확산은 장기적인 에듀테크 산업 발전과 기업의 장기 전략 수립의 저해 요소가 될 수 있다[4].

이 중, 최근 에듀테크 분야의 주요 화두는 교육 성과를 개선하기 위해 정보 통신 기술(ICT, Information Communication Technology)을 사용하는 것이 주요한 주제로 부상하고 있다. 특히 에듀테크의 특성상 학생, 교사 및 주변 커뮤니티가 학습하는 데 필요한 하드웨어, 소프트웨어, 콘텐츠, 커리큘럼 및 교육이 주요한 요소로서 포함된다. 따라서 에듀테크의 활용 범위는 주로 학습 이론, 온라인 학습, 컴퓨터 기반의 교육 및 원격 교육을 포함한 여러 영역을 포함하고 있다[5].

교육 시장 자체에서 실감형 콘텐츠들을 포함한 교육 효과들의 논의가 활발히 진행되는 가운데, 에듀테크와 관련해 발생하는 문제점들을 확인하면 다음과 같이 정리할 수 있다[6]. 첫째, 에듀테크에 대한 선행적 준비가 미비한 상황에서 비대면 수업의 수행만의 집중하면서 무리한 수업 진행이 되는 상황이 발생한다. 둘째, 다양한 매체와 기술 기반의 강의에 적합한 학습 프로그램에 대한 부족함이 있다. 셋째, 수업에 적용하기 위한 구체적인 사례가 많지 않은 상황에서 많은 시행착오가 일어나고 있다. 넷째, 강의에서 활용하기 위한 콘텐츠들이 부족하여 콘텐츠 개발을 위한 사전적 준비가 부족하다. 다섯째는 강의를 진행하는 교수자의 역량 강화를 위한 사전적 준비와 정책적 대비가 필요한 상황이다. 따라서 에듀테크 산업의 실무적 상황에서 수행을 위한 제반 사항을 구체적으로 준비하기 위한 현황 파악 및 실무적 지원 가능성에 관한 연구가 필요한 실정이다.

그러나 에듀테크 현황에 관한 연구들은 주로 전문가 인터뷰, 설문 조사, 델파이법들을 기반으로 하는 연구들이 대부분이다. 따라서 현재까지의 연구들은 급변하고 있는 에듀테크 산업 현황을 명확하게 반영하지 못하고, 장기간의 연구 기간 소요로 인해 시의성 있는 이슈 도출에 대한 한계가 존재한다. 따라서 이러한 방법론적 문제를 해결하기 위해서는 많은 양의 비정형 데이터를 이용한 실제 관련 산업 정보들을 모두 획득하여 적시에 분석을 수행하는 것이 필수적이다.

이에 본 연구는 코로나로 촉발된 에듀테크 시장의 현 주요 이슈들을 뉴스 데이터 분석을 통한 에듀테크 분야의 실수요에 적합한 분야별 이슈를 도출하고 현황을 파악 및 장기적인 기업 전략 수립에 이바지하는 데 그 목적이 있다. 이를 위해 본 연구는 대용량 비정형 온라인 뉴스 데이터를 활용하여 에듀테크 분야의 실수요 현황과 정보들에 대한 데이터들을 핵심단어 기반의 텍스트 전처리 기법을 설계 및 수행했다. 이어, 소셜 네트워크 분석을 활용한 다년간의 주요 주제 군집을 도출하였으며 주제별 핵심 사항들을 분석하였다.

Ⅱ. 관련 연구

2.1 텍스트 마이닝

텍스트마이닝 분석은 대용량의 텍스트 집합을 분석하기 위해 사용되며, 유용한 키워드를 추출해 맥락 수준의 의미를 찾아내는 과정을 통해 결과를 도출한다[7]. 대부분의 텍스트 분석 방법들은 모두 텍스트 집합에서 특정 주제를 도출하기 위해 사용되어 왔다.

이러한 텍스트 분석 방법들은 각 문서 안에 존재하는 단어들의 빈도수를 주요 요인으로 결과를 도출하기 때문에 주제 간의 관계에 대해서는 파악하기 어렵다는 단점이 있다. 이에 본 연구에서는 주제 간의 연관관계까지 파악할 수 있는 네트워크 분석 방법을 도입하여 진행하였다.

2.2 네트워크 분석

텍스트마이닝 분석은 구조화되어 있지 않은 대용량의 텍스트 집합을 분석하기 위해 사용되며, 비정형 텍스트 자료를 자연어처리와 형태소 분석기술에 따라 정제하고 유용한 키워드를 추출해 맥락 수준의 의미를 찾아내는 과정을 통해 수행된다. 다시 말해서 텍스트 데이터는 의미연결망 분석(Semantic network)에 활용할 수 있다. 의미연결망 분석은 일종의 온라인 담론분석(Discourse analysis)으로 문장의 개념들과 상징들에 대한 구조를 밝히기 위해 키워드 네트워크를 구축해 분석을 진행할 수 있다[8]. 네트워크 분석은 객체 간의 관계를 파악하는 데 매우 유용한 분석 방법이다. 그래프이론에서 시작된 네트워크 분석 방법은 객체(노드) 간의 관계 파악뿐만 아니라, 객체 간의 관계 파악을 통한 군집화(클러스터링)를 통하여 유사 주제 혹은 유사 패턴을 가진 객체들을 그룹화 할 수 있다는 장점이 있다[9].

네트워크 분석에서 데이터 표현은 노드(Node, Vertex)와 엣지(Edge, Link)을 이용하여 관계를 나타낸다[10]. 이를 바탕으로 언어 네트워크 분석은 언어로 된 메시지(텍스트)에서 의미(개념)가 있는 단어들을 추출하고, 핵심적인 역할을 하는 단어인 키워드를 부여하며, 언어 메시지 내에서 구성되는 그들의 연결 관계를 파악하여 네트워크를 생성하여, 언어 메시지의 다양한 특성을 분석하는 작업을 말한다. 언어 텍스트의 의미분석에 사회 네트워크 분석 방법을 활용한다는 점을 강조한다. 언어 네트워크 분석은 텍스트 내의 단어 간의 관계를 부호화하고 연계된 단어 간의 네트워크를 구성하는 기법이다. 단어 사이의 연결양식을 분석하여 가시화함으로써 추상적인 의미구조를 구체화하는데 쉽다.

네트워크 분석은 노드(Node)와 링크(Link)라는 두 개의 요소로 이루어진 네트워크 그래프(Network graph)로 표현한다. 분석 방법에 따라 이름만 다르게 쓸 뿐 내용은 같다. 이러한 기본적 요소를 각 분야에서 응용할 때 표현되는 노드와 링크의 이름과 형태, 속성을 추가 혹은 변형해서 사용하게 된다. 네트워크는 크게 링크의 방향 유무에 따라 무방향성 그래프(Undirected graph), 유방향 그래프(Directed graph), 링크의 가중치 유무에 따라 이진 그래프, 계량 그래프라고 구분해서 사용한다. 이러한 네트워크는 사회적 관계도에서 노드의 경우 점으로, 링크의 경우 선으로 표현된다. 노드는 행위자를 의미하고 링크는 각 노드의 관계에 해당한다. 관계는 우정, 연대감, 조직력, 성향 등을 나타낸다. 소셜 네트워크 연결 구조 및 연결 강도 등을 바탕으로 노드의 복잡도를 측정하여, 소셜네트워크상에서 연결의 중심 역할을 하는 영향력이 있는 행위자를 파악한다. 이러한 영향력이 있는 행위자를 파악하고 관리하는 것이 중요하다.

노드의 중요성을 파악하기 위해 본 연구에서는 고유벡터 중심성(Eigenvector centrality)를 활용하였다. 고유벡터 중심성은 단순히 직접적으로 연결된 노드의 양만을 고려하는 것이 아닌 직접적으로 연결된 노드들의 영향력도 같이 고려한다. 이것은 네트워크 내에서 중요한 지위와 역할을 갖는 노드와의 연결이 다른 일반적인 여러 노드와 관계를 맺고 있는 경우보다 자신의 영향력을 증가시킬 수 있다는 것을 의미한다[8].

또한, 노드들 간의 군집화를 계산하기 위해 모듈성(Modularity)를 활용하였다. 모듈성은 전체 네트워크에서 연결되어 있는 엣지들이 무작위적인 연결들과 비교했을 때 상대적으로 얼마나 많은지를 정량적으로 나타낸다. 무작위적인 연결들과 비교했을 때 원래 네트워크의 연결이 높으면 높을수록 특정 노드들의 연결이 하나의 그룹으로 형성할 수 있다는 전제로 군집화를 수행하는 알고리즘이다[8]. 모듈성을 기반으로 한 군집화는 군집 내 연결이 군집 간의 연결보다 높게 나타나기 때문에 군집 내의 유사성과 타 군집과의 차별성을 동시에 확인할 수 있다는 장점이 있다.

모듈화 지표는 네트워크에서 ‘Community’ 군집화를 도출하는 방법으로 계층적 클러스터링(Hierarchical clustering)이 있다. 계층적 클러스터링 방법의 경우 Girvan-Newman algorithm 또는 Link community를 구하는 방법이 있으며, 최근의 경우, Louvain algorithm이 많이 사용되고 있다(Vincent et al., 2008). 일반적으로 네트워크에서 모듈성을 측정하는 방법은 계층 분리형 클러스터링 알고리즘(Divisive clustering algorithm)으로 네트워크가 분화될 수 있도록 내부의 커뮤니티 간 연결성을 삭제해나가며 만들어 가는 내부 커뮤니티 링크(Inter-community link) 방법이 있다.

내부 커뮤니티 링크를 측정하는 방법은 Girvan-Newman algorithm이 대표적이다[11]. Girvan-Newman 군집화는 사이 중앙성(Betweenness centrality)을 이용한다. 사이 중앙성은 네트워크 내의 한 지점 i에서 j를 연결하는 최단 거리의 선상에 특정 지점 k가 얼마나 많은 빈도로 등장하는지를 나타낸다. 최단 거리 알고리즘을 통해 노드 내의 모든 지점 i 와 j 간의 최단 거리 루트를 구하고, 그 안에 등장하는 노드들 k의 빈도를 조사하여, 수치화한다. 결과적으로, 군집 간의 연결 다리 역할을 하는 노드들과 연결 링크들을 분석하여 군집 간 네트워크에서 중요한 위치를 차지하는 노드들을 확인하여 군집에 배속시킬 수 있다.

그러나 모듈성은 계산에 긴 시간이 소요된다는 단점이 있다. 모듈성을 이용한 최적화 방법 중에서 가장 빠른 방법인 Greedy 알고리즘은 네트워크 군집의 최적화 성능이 좋지 않은 단점이 있다[12]. 또, 큰 규모의 큰 군집을 생산해버리는 경향이 있어, 심지어 인공적으로 군집 구조가 없도록 만든 네트워크도 거대한 규모의 군집을 추출해버리기도 한다.

따라서 이와 같은 문제점을 해결하는 방법으로 본 연구에서는 Louvain 알고리즘[13]을 사용하였다. Louvain 알고리즘의 경우 하나의 노드로부터 주변의 노드를 흡수하여 군집을 생성한다는 점에서 Greedy 알고리즘과 유사하지만, 모듈성 계산법의 향상, 네트워크의 계층 구조를 활용할 수 있다는 점에서 최근 많이 이용되고 있다[13].

이를 기반으로 모듈성을 활용한 군집화는 군집간에는 높은 응집도를 가지며, 다른 군집과는 낮은 결합도를 가지는 특징이 있다. 기본적인 수식은 식 (1)과 같다.

Q = 1 2 M ∑ i, j N a i j - ≺ t i j ≻ δ C i, C j

(1)

Q : 모듈성
M : 전체 링크 수
N : 전체 노드 수
a_ij : i, j 간 링크 (있을 경우 1, 없을 경우 0)
t_ij : 각 노드가 지니는 링크의 개수는 그대로 유지, 대상을 무작위적으로 재연결 하였을 때 노드 i, j 간 링크(있을 경우 1, 없을 경우 0)
≺ t_ij ≻ : t_ij의 기대치
C(i) : 노드 i가 속하는 커뮤니티
δ(C(i), C(j)) : C(i)와 C(j)가 같은 커뮤니티 일 때 1, 다를 때 0

Louvain 알고리즘은 다음의 두 단계를 반복함으로써 구성된다. 1단계에서는 한 노드를 원래의 군집에서 제외해 인접 군집에 재배치했을 때 변화되는 모듈성을 측정한다. 측정 결과를 기준으로, 모듈성이 가장 크게 상승하는 군집에 해당 노드를 배속시키게 된다. 그 외의 변화가 없을 때까지 이 과정을 반복적으로 수행하게 된다. 따라서 예를 들어 1번 노드부터 n번까지의 노드가 존재한다고 가정하면, 이 작업을 어떤 노드에서부터 시작하는가에 따라 결과가 달라질 수 있지만, 최종적으로는 어떤 노드를 먼저 선택하던지 순서와 상관없이 모듈성에 큰 영향을 끼치지 않는다. 따라서 1단계에서 모듈성의 변화량은 식 (2)와 같이 계산한다.

∆ Q = Σ ∈ + k i, ∈ 2 m - Σ t o t + k i 2 m 2 - Σ ∈ 2 m - Σ t o t 2 m 2 - k i 2 m 2

(2)

Σ_tot : i가 배속되는 군집 내/외부의 모든 연결링크 가중치의 합
Σ_∈ : i가 배속되는 군집 내부의 연결링크 가중치의 합
K_i_{, ∈} : i가 배속되는 군집 내부의 노드들과 i사이의 링크 가중치의 합

2단계에서는 1단계에서 생성된 군집을 하나의 구간으로 결합하여 노드처럼 인식한다. 그 상태에서 군집 내부 링크의 가중치는 자기 회귀 상태 링크로서 군집 간에 연결되어 있던 노드 간의 링크 가중치는 합쳐서 하나의 링크로 생성하게 된다. 새롭게 변형된 네트워크는 다시 1단계의 알고리즘을 바탕으로 병합하고 다시 2단계를 반복하게 되어 2단계 이후에 1단계에서 더는 변화가 일어나지 않을 때 Louvain algorithm은 계산을 멈춘다.

Ⅲ. 데이터 수집 및 정제

3.1 데이터 수집

데이터 수집은 실제로 데이터 분석에 필요한 데이터를 확보하는 단계이다. 본 연구에서는 뉴스 데이터를 수집하여 코로나 사태에서의 에듀테크 관련 주요 이슈를 찾아내는 것이 주요 목적이다. 뉴스 데이터 수집을 위해, 본 연구에서는 언론진흥재단에서 운영하는 54개의 언론사의 뉴스 데이터를 제공하고 있는 빅카인즈 서비스를 활용하여 데이터를 수집하였다. 코로나 사태가 심각했던 2020년을 대상으로 10개월(2020년 01월 01일~2020년 10월 31일)의 뉴스 기사를 대상으로 분석을 진행하였다. 문제는 에듀테크의 경우, 아직 산업 초기 발전단계라 그 산업 경계가 모호하다는 사실이다. 이 문제를 해결하기 위해 교육공학과 교육학 박사학위 이상의 전문가 5명을 대상으로 포커스 그룹 인터뷰를 통해 에듀테크 산업과 관련된 유사 어근과 유사 어미를 도출하였다. 유사 어근과 유사 어미 간의 조합을 통해 총 187개의 단어들이 언급된 기사 74,899개를 수집하여 추후 분석에 활용하였다. 에듀테크 관련 데이터를 분류하기 위해 사용된 단어는 표 1과 같다.

Table 1.

Keywords used in the news data collection

3.2 데이터 정제

빅카인즈에서 수집된 데이터 중 추출된 단어들과 일자가 정확히 일치하는 데이터는 중복 데이터라고 판단하여 제거하였다. 이를 통해 최종적으로 29,072개의 뉴스 데이터를 추후 분석에 활용하였다. 이 기사들을 대상으로 형태소 분석을 통해 분류된 단어(노드)들을 이음동의어 처리를 통해 정제하였다.

예를 들어 “교육,과정”으로 형태소 분석상에 구분된 단어들은 “교육과정”으로 변환하였고, “교과”, “교육과정”으로 같은 의미를 가지고 있지만 다르게 표현된 단어들은 “교육과정”으로 통일시키는 정제작업을 수행하였다. 또한, “이젠”과 같이 문장에서는 사용되지만, 특정 의미를 지니지 않는 289개의 단어들을 불용단어로 구분하여 분석에서 제외하였다.

중복기사 제외, 이음동의어 처리, 불용단어 제외 등 데이터 정제작업을 거쳐 최종 171,832개의 노드(단어), 1,517,646개의 엣지(단어간 연결)로 구성된 네트워크를 최종 데이터 분석에 활용하였다. 네트워크 분석 툴은 네트워크 분석에서 가장 많이 활용되고 있는 데이터 분석 툴인 Gephi 0.9.3을 사용하였다.

Ⅳ. 분석 결과

4.1 전체 네트워크

뉴스 데이터의 경우, 객체(노드)간의 방향성이 존재하지 않고 동일 기사에서 출현했다는 연결성(엣지)만 존재하기 때문에 무방향성 네트워크(Undirected network)이다. 따라서 이러한 특성을 고려하여 분석하였다. 추가적으로 뉴스의 특성상 매우 다양한 단어의 조합이 가능하고, 특정 단어가 얼마나 많은 단어와 연결되어 있나를 나타내는 연결정도(Degree)가 상대적으로 매우 낮은 연결은 네트워크상에서 큰 의미를 주지 않는다고 판단하여 연결정도가 1,500이하의 단어는 추가 내용 분석에서 제외하였다. 모듈성을 기반으로 군집화하여 총 9개의 군집으로 분류되었다. 네트워크상에서 비중 5% 이상을 차지하고 있는 4개의 군집을 대상으로 추가적인 내용 분석을 시행하였다. 군집화를 통해 도출된 전체 네트워크는 그림 1과 같다.

Fig. 1.

Entire edutech network

2020년도 전체 네트워크 분석에서 도출된 키워드는 고유벡터 중심성을 기준으로 ‘코로나(연결정도:30,545)’, ‘이러닝(15,123)’, ‘학교(9,480)’, ‘학생(8,868)’, ‘교육(8,773)’, ‘온라인(8,624)’, ‘수업(7,772)’, ‘온라인개학(8,664)’, ‘포스트코로나(8,566)’의 순으로 나타났으며 다수의 노드 중 고유벡터 중심성을 기준으로 상위 10개까지의 주요 노드 결과는 표 2와 같다.

Table 2.

Major nodes of entire network

4.2 코로나 군집

코로나 군집 네트워크의 경우 그림 2와 같이 총 63개의 노드로 이루어진 군집이 도출되어 다수의 군집 내용을 쉽게 확인하기 어려워 모듈성을 바탕으로 추가로 계층적 군집 분석을 수행하였다. 계층적 군집 분석 결과, 총 4개의 하위 군집으로 분류되었다. 계층 분석의 결과는 그림 3과 같다.

Fig. 2.

COVID19 cluster network

Fig. 3.

Hierarchical clustering of COVID19

이중 첫 번째 하위 군집에서 가장 큰 노드인 ‘코로나’를 중심으로, 2020년 코로나 펜데믹 사태가 지속함에 따라, 온라인을 활용한 비대면 교육이 확산되고 있음이 확인되었다. 2020년에는 네이버나 한컴, 시공 그룹이 원격 교육 시스템을 구축하고 교사 학생 학부모 서비스별 이용이 가능하도록 다양한 교육용 소프트웨어를 개발하고 적용하고 있는 것으로 나타났다.

두 번째 하위 군집에서 가장 큰 노드인 ‘에듀테크’를 중심으로 살펴보면, 교원그룹 등 기존 교육 관련 기업뿐만 아니라 네이버, LGU+ 등 ICT 기업들이 각자의 교육 플랫폼을 구축하여 에듀테크 사업에 뛰어들고 있음이 확인되었다.

세 번째 하위 군집에서 가장 큰 노드인 ‘디지털’을 중심으로, AI, 데이터 등 4차산업혁명 관련 산업의 인재양성 움직임은 지속해서 강화되고 있음이 확인되었다. 특히 정부가 디지털 기술 분야 인력 양성을 위해서 기업과 대학과의 협업을 확대하고 있음을 알수 있었다. 특히 기업과 대학이 함께 인력 양성 모델을 발굴하려는 방안 양성이 시급하다는 측면에서 다양한 사례 벤치마킹이 일어나고 있으며 기업 주도 청년 인재양성, 현장 수요 반영 프로그램 설계, 대·중·소 상생형 모델, 우수 대학 주도 모델 등과 같은 다양한 프로젝트들을 제시하고 있다.

네 번째 하위 군집에서 가장 큰 노드인 ‘정부’를 중심으로, 정부는 코로나 사태로 인한 세계 경제 위기 해결을 도모하고 행정, 교육, 산업, 보건·의료, 교통·물류 등 사회 전 분야에 인공지능 기술을 접목하기 위한 관련 인재 양성을 강화하고 있음이 확인되었다. 코로나 군집을 살펴보면, 코로나 사태로 인해 반강제적인 비대면 기반 교육 수요가 급증하였고 에듀테크 산업 확산이 본격적으로 시작되었음이 확인되었다. 에듀테크 산업의 발전 방향 또한 기존의 단순한 원격 교육 형태의 이러닝 교육보다는 AI 기술을 도입한 맞춤형 교육 등 진정한 에듀테크 산업으로 차별화되기 시작되었음을 확인할 수 있었다.

4.3 이러닝 군집

이러닝 군집에서 도출된 키워드는 고유벡터 중심성을 기준으로 ‘이러닝(연결정도:15,123)’, ‘학생(8,868)’, ‘수업(7,772)’, ‘온라인개학(8,664)’, ‘교사(5,386)’, ‘지원(5,000)’, ‘어린이(5,158)’, ‘초등학교(4,738)’, ‘운영(4,231)’의 순으로 나타났다.

이러닝 군집의 경우 총 44개의 노드로 이루어진 군집이 도출되어 내용 파악이 쉽지 않아 모듈성을 바탕으로 추가로 계층적 군집 분석을 수행하였다. 계층적 군집 분석 결과, 이러닝 군집은 그림 4와 같이 총 3개의 하위 군집으로 분류되었다.

Fig. 4.

Hierarchical clustering of e-learning

첫 번째 하위 군집에서 가장 큰 노드인 ‘이러닝’을 중심으로, 경기도, 충남, 대전, 광주 등 다양한 시도 교육청을 중심으로 학생들과 쌍방향으로 소통할 수 있는 이러닝 수업 제작 지원을 강화하고 있음을 알 수 있다. 두 번째 하위 군집에서 가장 큰 노드인 ‘초등학교’를 중심으로, 초등학교의 전면적인 이러닝 전환으로 인해 엄마가 가정에서 자녀들의 이러닝 학습을 지도해야 하는 어려움을 겪고 있음이 나타났다. 세종시 교육청을 중심으로 학부모가 참여하는 온라인 정책협의회를 마련 운영하여 이 문제를 해결하기 위해 정부가 노력하고 있음이 확인되었다.

마지막으로 세 번째 하위 군집에서 가장 큰 노드인 ‘온라인개학’을 중심으로, 코로나로 인해 온라인으로 개학이 이루어짐에 따라, 교사들이 학기 첫날부터 실시간 인터넷 접속을 통한 교육을 시행하였고, 동시접속자 증가에 따라 EBS에서 운영하는 e학습터가 장애를 겪는 등 다양한 문제가 나타났음이 확인되었다. 특히, 몇몇 학교에서는 유튜브를 활용하여 온라인개학식 입학식 영상을 제작하는 등 다양한 공교육환경의 변화가 관측되었다.

4.4 대학교 군집

대학교 군집에서 도출된 주요 노드는 고유벡터 중심성을 기준으로 ‘대학교(연결정도:7,183)’, ‘강의(3,834)’, ‘개강(2,605)’, ‘등록금(2,782)’, ‘대면(2,143)’, ‘강사(1,986)’, ‘대학생(1,637)’의 순으로 나타났다.

대학교 군집 결과는 그림 5와 같이 나타났다. 내용 분석 결과, 코로나 사태로 인해 전면 온라인 교육이 대학교에서 이루어지면서, 여러 가지 문제점이 나타나는 것이 확인되었다. 정부 중심의 일괄적인 지원이 이루어졌던 초중고 비대면 교육과 달리 대학별로 제공된 온라인 교육은 대학별, 교육자별 편차가 상대적으로 크게 나타날 수밖에 없었다. 이러한 문제는 대학 교육의 평균적인 질 저하를 일시적으로 심화시켰으며 이에 반발한 대학생들의 등록금 인하 요구 강화의 원인이 되었음이 확인되었다. 이를 통해 교육 공급자와 수급자의 디지털 리터러시 격차에 따른 디지털 격차 현상이 에듀테크에서는 더욱 크게 나타날 수 있다는 것이 확인되었다[14].

Fig. 5.

Hierarchical clustering result of university

4.5 학교 군집

이어지는 두 개의 군집의 경우는 직접적인 에듀테크의 연관성을 확인할 수 있다기보다는 간접적인 에듀테크 산업과 연관된 환경 변화를 확인할 수 있었다.

학교 군집 분석에서 도출된 키워드는 고유벡터 중심성을 기준으로 ‘학교(연결정도:9,480)’, ‘등교(8,015)’, ‘개학(7,332)’, ‘교육부(6,498)’, ‘서울(6,032)’, ‘지역(5,321)’, ‘확산(4,926)’, ‘전국(4,759)’, ‘광주(5,337)’의 순으로 나타났다.

학교 군집의 경우 총 52개의 노드로 이루어진 군집이 도출되어 다수의 군집 내용을 쉽게 확인하기 어려워 모듈성을 바탕으로 추가로 그림 6과 같이 계층적 군집 분석을 수행하였다.

Fig. 6.

Hierarchical clustering of school

첫 번째 하위 군집에서 가장 큰 노드인 ‘학교’를 중심으로, 각 시도 교육청에서는 대학 입시에 영향을 받을 수 있는 고등학생을 우선적으로 코로나 사태 완화 시기에 교내 마스크 착용을 전제한 오프라인 교육을 유도하고 있음을 확인할 수 있다. 두 번째 하위 군집에서 가장 큰 노드인 ‘교육부’를 중심으로, 코로나 확산 우려로 인해 개학 및 대입 수능 지연 시행을 단행하였다는 것을 알 수 있다.

특히 전국적으로 유치원이나 학원 등지에서의 감염이 확산하면서, 교육부, 교육청 등에서 방역 안전에 다양한 노력을 하고 있음이 확인된다. 세 번째 하위 군집에서 가장 큰 노드인 ‘확산’을 중심으로, 광주, 부산, 대전 등 다양한 지역에서 코로나가 발생함에 따라 온라인 교육을 어떻게 수행할지에 대한 고려가 강화되고 있음이 확인되었다. 네 번째 하위 군집에서 가장 큰 노드인 ‘사회적 거리 두기’를 중심으로 살펴보면, 수도권의 코로나 감염이 확산하면서 사회적 거리 두기가 전면 시행되었으며, 학생들의 등교도 거리 두기 단계에 따라 제한을 받는 상황이 지속하고 있음이 확인되었다. 특히 온라인개학 후에 원격수업 및 등교 수업 의한 운영지침 등을 교육청에서도 마련하고, 원격수업 시에도 비대면 환경에서 교사와 학생 간의 소통을 늘릴 방안을 찾기 위해 다양한 제도적 개선을 시도하고 있다는 것을 알 수 있다.

Ⅴ. 결론 및 향후 과제

본 연구는 에듀테크 분야에 대한 실제 데이터를 확인함으로써 어떤 주제에 대한 논의가 있는지 확인하고 주제별로 중요하게 나타나는 사항들을 확인하고 자, 온라인 뉴스 데이터를 전량 수집하여 텍스트를 분석하고 형태소 분석을 통하여 에듀테크와 관련된 단어 형태 자료를 수집 및 처리하여 분석에 이용하였다. 이러한 데이터를 바탕으로, 2020년도의 에듀테크와 관련된 주요 이슈 주제와 세부 내용을 파악하고 향후 관련 주제들이 어떤 방향으로 변화되고 있는지 확인하기 위하여 분석을 수행하였다. 또한, 수집된 데이터를 바탕으로 소셜 네트워크 알고리즘을 이용한 데이터 분석을 통해 주요 단어 간의 관련성을 확인하고 주제별 기간별 특성 및 주요 사항, 기업과 실수요자 및 정부의 시장에 대한 활동 등을 확인할 수 있다.

분석 결과에 대한 요약은 다음과 같다. 뉴스 데이터 수집을 통해 코로나 확산 환경에서의 에듀테크의 주요 이슈들을 확인하는 것은 매우 적절한 방법으로 확인되었다. 코로나 사태로 비대면 교육이 확산함에 따라[14], 네이버, 한컴, 시공 그룹 등 다양한 기업들이 원격 교육시스템 구축에 투자하여 에듀테크 시장을 이끌어 나가고 있음이 확인되었다. 또한, 기존 교육 관련 기업뿐만 아니라 LG U+ 등 ICT 기업들이 에듀테크 시장에 뛰어들어 에듀테크 산업이 특정 교육 관련 기업에 해당하는 산업에서 첨단 ICT 기업들의 미래 먹거리로 여겨지고 있음이 나타났다[15][16]. 정부 또한 인공지능을 접목하여 다양한 프로젝트 수행을 통해 이러한 움직임을 지원하고 있음을 알 수 있다[17]. 마지막으로, 해외의 줌과 같이 국내 시장을 이끌어 나갈만한 특정 서비스 명칭이 도출되지 않았다는 것은 국내에 대표적인 서비스가 없이, 산발적으로 에듀테크 서비스가 개발되고 있다는 점도 확인할 수 있었다.

이는 에듀테크 분야에서 카카오톡, 네이버와 같이 시장의 발전을 견인할 수 있는 인프라 역할을 하는 플랫폼 서비스가 부재한다는 것으로 해석할 수 있다[18]. 추후, 정기적인 네트워크 분석을 통해, 에듀테크 시장의 변화를 확인하고 기업이 이를 고려한 서비스를 개발한다면, 효과적인 에듀테크 서비스 개발이 가능할 것이다. 마지막으로 디지털 격차 현상이 에듀테크 분야에서는 크게 나타날 수 있다는 것을 확인하였다. 이를 해결하기 위해서는 디지털 리터러시 취약계층에 대한 지속적인 교육 강화가 필요할 것이다.

본 연구의 의의는 다음과 같다. 첫째, 본 연구과제는 국내의 뉴스 데이터와 해외의 뉴스 데이터를 바탕으로 에듀테크에 대한 경향을 분석하기 위하여 뉴스 데이터를 전량 분석함으로써 기존 연구 대비 실제 사회적으로 언급되고 있는 다양한 에듀테크 관련 이슈들을 텍스트 자료를 기반으로 분석하고 주제별 특성에 맞는 경향을 확인하였다. 특히, 에듀테크라는 산업적 특성에 따라[3][16], 굉장히 다양한 의미로 활용되고 있는 에듀테크의 특성을 언론 기사 빅데이터 관점에서 트렌드를 정리함에 따라 이론과 실무적 관점에서 에듀테크에 대한 주요 사항들을 확인할 수 있고 나아가 관련된 제도적 지원 시장의 상황을 확인할 수 있는 발판을 마련했다[15].

둘째, 본 연구과제는 일반적이나 트렌드를 위한 문헌 연구를 통해 분석한 것이 아니라 실제 뉴스 정보들을 획득하여 텍스트마이닝을 통한 단어의 구분 방식을 통해 분석을 수행하였다. 특히 일반적인 뉴스를 통한 정보를 분석하면서 텍스트마이닝을 적용한다고 하더라도 한글의 경우 동음 이의어나 불필요한 기사를 찾아서 제외하는 방안, 그리고 일반적으로 텍스트마이닝을 통해 분석하는 방식과는 다르게 단어들을 조합하여 트렌드 주제들을 확인할 방법을 개발함으로써 향후 트렌드 기반에 주제를 도출하고 관련 이슈들을 처리하는 개선 방법을 확인하였다.

셋째, 일반적인 텍스트마이닝의 방법들은 LDA 나 Word2Vec과 같은 텍스트 마이닝 기법들을 활용하지만, 본 연구가 활용한 소셜 네트워크를 통한 분석 기법들을 사용함으로써 보다 명확한 군집화 결과를 찾아낼 수 있었고 각 군집 별로 주요 단어들의 영향력 정도를 확인함으로써 1년을 주기로 에듀테크에 대한 트렌드를 재구성하고 핵심 주제를 도출하여 세부 사항들을 확인할 수 있었다. 넷째, 본 연구의 주제인 에듀테크와 관련하여 실제 현장에서 어떠한 중요 주제들을 다루고 있는지 실태를 진단함으로써, 향후 에듀테크 산업의 나아갈 방향에 대한 참고자료로서 본 연구의 결과를 이용할 수 있다. 특히 도출된 주요 주제들에 따라서 연결되는 중요 단어들의 특징들을 고려할 때 에듀테크 산업에 대한 현재 정책적 사안, 기업의 시장대응 방향, 실수요자 중심의 주요정책 등 다양한 이슈들을 도출할 수 있다는 점에서 본 연구의 결과는 에듀테크 산업의 향후 개선 정책 및 현황 도출해 매우 중요한 역할을 할 수 있다.

본 연구의 시사점은 다음과 같다. 첫째, 현재까지의 에듀테크 분야는 매우 다양한 산업 분야를 융합하고 있는 특성상, 정부, 기업, 교육기관 및 실수요자의 관점에서 매우 다양한 이슈들이 발생한다. 특히 에듀테크에 대한 적용할 수 있는 기술의 범위도 다양하며, 에듀테크 산업을 지원하기 위한 정부 정책의 특성은 각 지원 기관에 따라 다양하게 제시되고 있다[18]. 그러나 아직 에듀테크에 대한 통합적 관점의 이슈를 도출하는 문제는 아직 해결되지 않고 시장 전체에 대한 방향성 설정도 관점에 따라 달라지고 있다. 그러므로 본 연구가 도출한 주제 군집에 특성별로 이슈의 변화가 어떻게 달라지고 있는지 확인하고 에듀테크 산업의 수요에 의한 특성을 보강하여 산업에 이바지할 수 있는 정책적 체계 및 지원 전략에 대한 재확립이 필요하다.

둘째, 본 연구가 진행했던 것과 같이 트렌드와 관련된 연구에서는 굉장히 광범위한 데이터를 이용할수록 더 명확하고 다양한 이슈를 도출하기 좋다는 것을 알 수 있다. 따라서 기존에 델파이, 설문 조사, 전문가 인터뷰와 같은 다양한 방법들도 존재하지만[17], 본 연구에서 제시한 것과 같이 광범위한 범위의 비정형 데이터들을 활용함으로써 빅데이터 또는 텍스트, 더 나아가서는 동영상을 활용한 방식을 이용한 이슈 도출 방안을 확인하는 것이 매우 중요하다.

따라서, 온라인에서 자료를 수집하여 분석하는 트렌드 분석의 방식을 적용할 수 있는 각 분야를 확인하고[19][20] 이에 대한 전문적인 분석 체계를 지속해서 개선함으로써 실무적인 정보와 의사소통을 지원할 수 있는 정책적 제언을 마련하는 방안[21]을 고민하는 것이 필요하다. 특히 본 연구에서 볼 수 있는 것과 같이 일반적인 전문가 인터뷰로서는 확인할 수 없는 ‘집콕 군집’과 주요 기업들의 투자 방향, 실수요자들의 감정을 반영하는 주요 이슈 도출은 명확한 사전 계획과 데이터 처리 과정, 데이터 분석 과정, 결과를 해석하기 위한 사전 지식을 응용할 수 있도록 노력해야 한다.

Acknowledgments

논문은 2021년도 한국기술교육대학교 교수교육연구진흥과제 지원에 의하여 연구되었음

References

H. Lee, "Edutech market status and implications", Korea International Trade Association, 2020.
EdTechXGlobal(2020), "2020 EdTechX global report", 2020.
J. E. Lee, "Crisis and opportunities in higher education stimulated by Edutech", Korea Business Review, Vol. 24, No. 1, pp. 151-171, 2020. https://10.17287/kbr.2020.24.0.151. [https://doi.org/10.17287/kbr.2020.24.0.151]
B. K. Kye, S. Y. Baek, E. H. Koh, D. Heo, and J. Youn, "Analysis of differences in perceptions between schools and companies on the utilization of Edutech", Journal of Digital Convergence, Vol. 20, No. 5, pp. 1-10, May 2022. [https://doi.org/10.14400/JDC.2022.20.5.001]
M. Z. Wook, M. Yusof, and M. Z. A. Nazri, "Data mining technology adoption in institutions of higher learning: a concerptual framework incorporating technology readiness index model and technology acceptance model 3", Journal of Appplied Sciences, Vol. 14, No. 18, pp. 2129-2138, 2014. [https://doi.org/10.3923/jas.2014.2129.2138]
G. Piccoli and B. Ives, "Web-based virtual learning environments: a research framework and a preliminary assessment of effectiveness in basic it skills training", MIS Quarterly, Vol. 25, pp. 401-426, 2001. [https://doi.org/10.2307/3250989]
B. Garner, C. Thornton, A. L. Pawluk, R. M. Cortez, W. Johnston and C. Ayala, "Utilizing text-mining to explore consumer happiness within tourism destinations", Journal of Business Research, Vol. 139, pp. 1366-1377, 2022. [https://doi.org/10.1016/j.jbusres.2021.08.025]
N. Aguilar-Gallegos, L. Klerkx, L. E. Romero-García, E. G. Martínez-González, and J. Aguilar-Ávila, "Social network analysis of spreading and exchanging information on Twitter: the case of an agricultural research and education centre in Mexico", The Journal of Agricultural Education and Extension, Vol. 28, No. 1, pp. 115-136, Apr. 2021. [https://doi.org/10.1080/1389224X.2021.1915829]
D. Maltseva and V. Batagelj, "Collaboration between authors in the field of social network analysis", Scientometrics, Vol. 127, pp. 3437-3470, Apr. 2022. [https://doi.org/10.1007/s11192-022-04364-z]
E. Kang, S. Park, K. Kwon, and J. Jeon, "Analysis of trends for weapon system accidents using social network analysis," Journal of the Korea Institute of Military Science and Technology, Vol. 25, No. 1, pp. 82-95, Feb. 2022. [https://doi.org/10.9766/KIMST.2022.25.1.082]
M. Girvan and M. E. J. Newman, "Community structure in social and biological networks", Proc. of the National Academy of Sciences of the United States of America, Vol. 99, No. 12, pp. 7821-7826, Jun. 2002. [https://doi.org/10.1073/pnas.122653799]
A. Clauset, M. E. Newman, and C. Moore, "Finding community structure in very large networks", Physical Review E, Vol. 70, No. 6, pp. 066111, Dec. 2004. [https://doi.org/10.1103/PhysRevE.70.066111]
D. B. Vincent, G. Jean-Loup, L. Renaud, and L. Etienne, "Fast unfolding of communities in large networks", Journal of Statistical Mechanics: Theory and Experiment, No. 10, pp. 10008, Mar. 2008. [https://doi.org/10.48550/arXiv.0803.0476]
L. Melissa, A. Leiser, B. Deacon, P. P. de Brichambaut, B. Fecher, C. Kobsda, and F. Hesse, "Digital higher education: a divider or bridge builder? Leadership perspectives on edtech in a COVID-19 reality", International Journal of Educational Technology in Higher Education, Vol. 18, No. 1-17, Jul. 2021. [https://doi.org/10.1186/s41239-021-00287-6]
J. Kim, A. R. Jung, and S. Kim, "A study on current trends and characteristics of Korean unicorn group", Asia-Pacific Journal of Business Venturing and Entrepreneurship, Vol. 17, No. 1, pp. 63-77, Feb. 2022. [https://doi.org/10.16972/apjbve.17.1.202202.63]
J. Jang, "Factors influencing the intention to use digital technology in education", Asia-Pacific Journal of Business Venturing and Entrepreneurship, Vol. 17, No. 2, pp. 153-165, Apr. 2022. [https://doi.org/10.16972/apjbve.17.2.202204.153]
E. S. Jang, "A case study of the design and operation of a flipped learning class using Edutech in sw basic liberal arts education", Korean Journal of General Education, Vol. 16, No. 2, pp. 307-320, Apr. 2022. [https://doi.org/10.46392/kjge.2022.16.2.307]
K. N. Gulson and K. Witzenberger, "Repackaging authority: artificial intelligence, automated governance and education trade shows", Journal of Education Policy, Vol. 37, No. 1, pp. 145-160, Jun. 2022. [https://doi.org/10.1080/02680939.2020.1785552]
S. Bhattacharya, V. Murthy, and S. Bhattacharya, "The social and ethical issues of online learning during the pandemic and beyond", Asian Journal of Business Ethics, Vol. 11, pp. 275–293, May. 2022. [https://doi.org/10.1007/s13520-022-00148-z]
Shultz L. and Viczko M., "What are we saving? tracing governing knowledge and truth discourse in global covid-19 policy responses," International Review of Education, Vol. 67, pp. 219–239, May. 2021. [https://doi.org/10.1007/s11159-021-09893-y]
Buteau S., "Roadmap for digital technology to foster India’s MSME ecosystem-opportunities and challenges", CSI Transactions on ICT, Vol. 9, pp. 233-244, Dec. 2021. [https://doi.org/10.1007/s40012-021-00345-4]

저자소개

공 영 일 (Youngil Kong)

2010년 2월 : 연세대학교 경영정보시스템(공학박사)

1997년 4월 ~ 2014년 6월 : 정보통신정책연구원 부연구위원

2014년 7월 ~ 현재 : 소프트웨어정책연구소 책임연구원

관심분야 : 디지털융합, 인공지능, 에듀테크, 빅데이터 및 통계분석

이 호 (Ho Lee)

2014년 2월 : 연세대학교 경영정보시스템(공학박사)

2017년 12월 : 소프트웨어 정책연구소 선임연구원

2018년 8월 : 정보통신정책연구원 부연구위원

2018년 9월 ~ 현재 : 한국기술교육대학교 융합학과 조교수

관심분야 : Anonymity, Online Behavior, Knowledge Management, Job Change and Data Analytics

최 재 원 (Jaewon Choi)

2004년 2월 : 가톨릭대학교 경영학과(공학사)

2006년 2월 : 가톨릭대학교 경영학과(공학석사)

2010년 8월 : 가톨릭대학교 경영학과(공학박사)

2014년 3월 ~ 현재 : 순천향대학교 경영학과 부교수

관심분야 : 빅데이터분석, 지능형의사결정시스템, 데이터 마이닝, 소셜 네트워크 분석, 디지털마케팅, 모바일 추천 시스템

Stem of a word	Search keyword
에듀/에드	에듀테크, 에드테크
에듀/에드	교육공학
원격	원격교육, 원격수업, 원격학습, 원격러닝, 원격강의, 원격교실
가상	가상교육, 가상수업, 가상학습, 가상러닝, 가상강의, 가상교실
실감	실감교육, 실감수업, 실감학습, 실감러닝, 실감강의, 실감교실
소셜	소셜교육, 소셜수업, 소셜학습, 소셜러닝, 소셜강의, 소셜교실

소통	소통교육, 소통수업, 소통학습, 소통러닝, 소통강의, 소통교실
온라인	온라인교육, 온라인수업, 온라인학습, 온라인러닝, 온라인강의, 온라인교실
인터넷	인터넷교육, 인터넷수업, 인터넷학습, 인터넷러닝, 인터넷강의, 인터넷교실
스마트	스마트교육, 스마트수업, 스마트학습, 스마트러닝, 스마트강의, 스마트교실
맞춤형	맞춤형교육, 맞춤형수업, 맞춤형학습, 맞춤형러닝, 맞춤형강의, 맞춤형교실
비대면	비대면교육, 비대면수업, 비대면학습, 비대면러닝, 비대면강의, 비대면교실
언택트	언택트교육, 언택트수업, 언택트학습, 언택트러닝, 언택트강의, 언택트교실
언텍트	언텍트교육, 언텍트수업, 언텍트학습, 언텍트러닝, 언텍트강의, 언텍트교실
혼합	혼합교육, 혼합수업, 혼합학습, 혼합러닝, 혼합강의, 혼합교실
블랜디드	블랜디드교육, 블랜디드수업, 블랜디드학습, 블랜디드러닝, 블랜디드강의, 블랜디드교실
블렌디드	블렌디드교육, 블렌디드수업, 블렌디드학습, 블렌디드러닝, 블렌디드강의, 블렌디드교실
이러닝	이러닝
무크	무크, mooc
Total	91개 단어 x 2 (띄어쓰기) + 기타 5개 단어 = 187개 단어

Key nodes	Degree	Eigenvector centrality
코로나	30,545	1.000
이러닝	15,123	0.660
학교	9,480	0.487
학생	8,868	0.476
교육	8,773	0.473
온라인	8,624	0.457
수업	7,772	0.433
온라인개학	8,664	0.426
포스트코로나	8,566	0.414
등교	8,015	0.412