Korean Institute of Information Technology
[ Article ]
The Journal of Korean Institute of Information Technology - Vol. 18, No. 5, pp.91-100
ISSN: 1598-8619 (Print) 2093-7571 (Online)
Print publication date 31 May 2020
Received 02 Feb 2020 Revised 06 Mar 2020 Accepted 09 Mar 2020
DOI: https://doi.org/10.14801/jkiit.2020.18.5.91

SNS의 이벤트와 텍스트의 언어심리학적 특성 간의 관계

안형준*
*홍익대학교 경영학과 교수
Relationship between the Events on SNS and the Psycho-linguistic Characteristics of Texts
Hyung Jun Ahn*

Correspondence to: Hyung Jun Ahn College of Business Administration, Hongik University, Korea Tel.: +82-2-320-1730, Email: Hjahn@hongik.ac.kr

초록

SNS 사용자의 꾸준한 증가에 따라 SNS 상의 텍스트를 분석하는 것이 사용자들을 이해하는 중요한 수단이 되고 있다. SNS 상에서 그날그날 많은 사용자들에게 회자되는 중요한 이슈를 ‘이벤트’라고 할 수 있으며, 본 연구에서는 텍스트의 언어심리학적 특성과 그러한 이벤트 간에 유의한 관계가 존재할 것으로 보고 이를 분석하고자 하였다. 이를 위해 심리학 분야의 해석 수준, 자기 해석, 조절 초점 등의 이론 및 언어심리학적 텍스트 분석 도구를 활용하였다. 구체적으로는 사용자들의 심리적 특징을 반영하는 언어심리적 특징을 추출하고, 그러한 특징에 따라 이벤트에 대한 멘션, 해쉬 태그, URL 공유 등의 사용 행태가 달라지는지를 분석하였다. 또한 텍스트에 드러난 언어심리적 특성과 이벤트의 주제 유형이 관련 있는지를 분석하였다. 이항로짓분석 및 딥러닝 분석을 수행한 결과 각각 유의한 관련성이 있음을 확인하였다.

Abstract

With the increasing use of SNS, analyzing texts on SNS is an important means of understanding users. This study assumed that psycho-linguistic characteristics of texts can have a significant relationship with the events on SNS, where an event is an important topic of interest that is mentioned or shared by many users every day. In order to analyze the relationship, this study used the theories in psychology such as construal level, self-construal, and regulatory focus, together with a psycho-linguistic text analysis tool. Specifically, the psychological characteristics of user texts were analyzed, which then were evaluated for possible impact on user behavior such as mentions, using hash tags, and sharing URLs. It was also analyzed whether the characteristics are related to the topics of events. The results of binary logit and deep learning analyses respectively showed significant results.

Keywords:

SNS, events, user behavior, psycho-linguistics

Ⅰ. 서 론

스마트 모바일 기기의 사용이 보편화 되어감에 따라 점점 더 많은 사람들이 SNS를 통해 상시적으로 다양한 정보를 접하고 소통하고 있다. 이에 따라 SNS는 초창기처럼 단순한 친교의 수단이 아니라 뉴스, 정보, 쇼핑 등 일상생활의 다양한 요소에 활용되는 필수적 플랫폼으로 발전하고 있다. 따라서 이러한 플랫폼에서 사용자들의 특성 및 행태를 이해하는 많은 연구들이 수행되어 왔다.

한편, 사회의 다양한 이슈들이 SNS를 통해 전파되면서 사용자들은 예전과 달리 실시간 다양한 방식으로 그러한 이슈들을 소비하고 소통하게 되었다. 본 연구에서는 특히 사람들의 관심과 주목을 많이 받는 SNS 상의 이슈들을 이벤트로 정의하고, 그러한 이벤트와 사용자 텍스트 간의 관계를 분석하고자 하였다. 이제까지 SNS 및 SNS 상의 텍스트에 대한 연구는 비교적 많이 수행되어 왔으나, SNS 상의 이벤트에 관련된 사용자 텍스트를 분석한 연구는 많지 않으며, 특히 한국어 사용자들을 분석한 연구는 찾아보기 힘들다.

본 연구에서는 심리학 분야의 이론들 및 언어심리학적 특징들을 활용하여 이벤트와 사용자 텍스트 간의 관계를 탐색적으로 연구하고자 하였다. 즉, SNS 사용자들의 심리적 특성이 사용자들의 텍스트에 반영된다고 보고, 그러한 특성들을 바탕으로 사용자 특성과 이벤트에 대한 대응 및 이벤트 주제와의 관계를 분석하고자 하였다. 이를 위해 트위터 사용자들에 대해 설문을 실시하고 크롤링을 통해 텍스트를 수집하였으며, 이를 통계 및 딥러닝 기법을 활용하여 분석하였다.

본 논문의 구성은 다음과 같다. 2장에서는 연구의 배경 및 관련 연구들을 소개한다. 3장은 연구의 목적 및 방법을 제시한다. 4장에서는 분석 결과를 설명하며, 5장에서는 토론 및 결론을 제시한다.


Ⅱ. 연구의 배경

2.1 컴퓨터 기반 텍스트 분석

온라인 데이터 중 상당 부분을 차지하는 텍스트에 대한 연구는 여러 분야에서 활발하게 이루어져왔다. 예를 들어 텍스트의 주요 특징을 추출하는 텍스트 마이닝 연구, 사람의 언어를 이해하거나 번역하기 위한 기계 번역 연구 등 주로 공학 분야에서 많은 연구들이 수행되어 왔다. 최근에는 딥러닝 기술을 응용한 여러 텍스트 분석 기법들이 등장하여 해당 분야를 빠르게 발전시키고 있다. 한편 공학 분야가 아닌 사회과학 분야에서도 컴퓨터를 이용한 텍스트 분석 연구가 수행되어 왔다.

특히 심리학의 한 분과인 언어심리학 분야에서는 언어의 사용과 심리적 특성 간의 관계를 연구해 왔다. 그러한 연구에 의하면 사람들의 어휘 선택, 글쓰기나 말하기의언어적 특징 등이 사람들의 심리적 특성을 반영하는 것으로 알려져 있다. 이때 문장이나 어휘의 직접적인 내용보다는 글을 쓰는 스타일과 관련된 특징들이 글쓴이의 심리적 특성을 많이 반영하는 것으로 나타나고 있다.

예를 들어 Wei 등의 연구는 일반적인 단어들 외에 이모티콘 등의 사용이 글쓴이의 성격 유형을 예측하는데 유용함을 보인 바 있으며, Tchokni 등의 연구에서는 언어의 복잡성, 감정 표현 방식, 이모티콘의 사용 등이 SNS 사용자의 지위를 나타낼 수 있음을 보였다[1][2].

또한 이 분야에서 대표적으로 널리 쓰이는 분석 도구인 LIWC(Linguistic Inquiry and Word Count) 프로그램은 텍스트에서 매우 다양한 범주의 언어적 특징을 추출해 주며, 이러한 특징들은 다수의 후속 연구들에 의해 여러 가지 심리적 특성과 관련 있는 것으로 밝혀진 바 있다[3]-[5]. 본 연구에서도 LIWC의 연구를 바탕으로 한국어 텍스트를 분석하기 위해 개발된 도구를 활용하여 사용자 텍스트를 분석하였다.

2.2 SNS 이용과 심리적 특성

본 연구는 SNS 텍스트의 특징들과 사용자들의 심리적 특성들과의 관계를 파악하여 이를 분석에 활용한다. 특히 본 연구에서는 선행 연구들에서 온라인 사용자들의 행태 및 의사결정을 이해하기 위해 사용되어 온 다음 세 가지 특징들을 활용하였다. 첫째, 자기 해석(Self-construe)은 개인이 자신을 해석할 때의 관점의 차이를 의미하며, 구체적으로는 개인적 혹은 집단적 자기 해석으로 구분된다. 보통 문화적인 차이에 의해 동양인들은 개인을 집단의 구성원 혹은 상호의존적으로 해석하는 경향이, 서양인들은 독립적 혹은 개별적으로 해석하는 경향이 더 큰 것으로 알려져 있다[6][7].

둘째, 해석 수준(Construe level)은 개인들이 사물이나 개념을 이해할 때, 그 해석의 수준이 추상적인지 혹은 구체적인지의 정도를 나타낸다. 관련 이론에 따르면 개인에 따라 대상들을 대체로 추상적으로, 혹은 구체적으로 해석하는 정도가 다를 수 있으며, 또한 대상에 대한 심리적인 거리가 멀수록 추상적인 해석을, 반대로 가까울수록 구체적인 해석을 하는 것으로 알려져 있다[8][9].

셋째, 조절 초점(Regulatory focus)은 사람들의 동기 부여가 크게 두 가지 방식, 즉 이상적인 자기 모습과의 차이를 좁히려는 ‘향상(Promotion)’ 초점과, 반대로 당위적인 자기 모습과의 차이를 줄이려는 ‘방어(Prevention)’ 초점으로 구분됨을 설명하는 개념이다. 이 개념은 자기격차(Self-discrepancy) 이론에 기반하고 있다[10][11].

이와 같은 특성들은 개인의 고유한 성격처럼 개인들마다 차이를 보이는 것으로 알려져 있으며, 따라서 본 연구에서는 설문을 통해 이를 파악하고, 그 결과를 분석에 활용하고자 하였다.

2.3 SNS의 이벤트 및 이벤트 대응

SNS에서는 수많은 사용자들이 실시간으로 대량의 데이터 흐름(Stream)을 만들어 내기 때문에, 이를 분석함으로써 현재 발생한 주요 사건이나 혹은 사람들의 큰 관심을 끄는 이슈들을 파악할 수 있다[12]-[14]. 이때 그러한 일상적이지 않은 사건 혹은 이슈들을 ‘이벤트’로 정의할 수 있으며, 온라인 사용자들은 그러한 이벤트에 상이한 방식으로 대응하게 된다. 따라서 그러한 이벤트를 파악하거나 감지하는 것, 또는 사용자들의 이벤트에 대한 행태를 분석하거나 예측하는 것은 매우 중요하다고 볼 수 있다. 일부 선행 연구에서는 트위터에서 시위, 혹은 테러 등에 대한 사용자 반응을 연구한 바 있으나[15][16], 전반적으로 텍스트의 다양한 특징을 이용하여 이벤트와 관련된 행태를 분석한 연구는 찾기 힘들다. 본 연구에서는 트위터가 제공하는 트렌드(Trend) 기능이 그러한 이벤트를 추출하여 제공한다고 보고, 언어심리학적 특징들이 그러한 이벤트에 대한 사용자들의 반응을 예측할 수 있는지, 또한 이벤트 주제와 관련이 있는지 검증하고자 하였다.


Ⅲ. 연구 목적 및 방법

3.1 연구 목적 및 내용

본 연구의 목적은 언어심리학적 접근을 통해 트위터 상의 이벤트와 사용자 텍스트 간의 관계를 분석하는 것이다. 그림 1은 전체 연구의 개요를 보여주고 있다.

Fig. 1.

Overview of research

첫째, 트위터 텍스트의 다양한 특징들 중 어떠한 것이 사용자들의 심리적 특성과 유의한 관계가 있는지 분석한다. 트위터 사용자들에 대한 온라인 설문을 통해 앞서 소개되었던 세 가지 심리적 특징인 자기 해석, 해석 수준, 조절 초점 각각과 통계적으로 유의한 관계를 갖는 언어심리학적 변수들을 추출한다. 이때 온라인 설문에 응답한 트위터 사용자들의 트위터 이용 데이터를 공개 API를 통해 수집하여 함께 분석에 사용한다.

둘째, 추출한 변수들을 이용하여 트위터 상의 이벤트에 대한 사용자들의 반응, 구체적으로 멘션, 해쉬(Hash) 태그 이용, URL 첨부 등의 반응을 분석한다. 즉, 사용자들의 트윗 텍스트에 포함된 언어심리적 변수들이 그러한 반응과 관련이 있는지 분석한다. 이를 위해 트위터 API를 통해 대량의 이벤트, 이벤트와 관련된 트윗 메시지 및 관련 사용자 데이터를 수집하여 이에 대해 이항 로짓 분석을 실시한다.

셋째, 추출된 언어심리학적 변수들이 이벤트의 주제 유형과 관련 있는지 분석한다. 이때 앞서 이항 로짓 분석에서 활용한 데이터를 이용한다. 구체적으로는 데이터의 이벤트들을 군집분석을 통해 유형화하여 각 트윗 메시지의 언어심리학적 변수들이 그러한 유형과 관련이 있는지 딥러닝 분석을 통해 확인한다.

3.2 연구 방법

구체적인 연구 방법은 다음과 같다. 첫째, 세 가지 심리학적 특징과 언어심리학적 변수 간의 관계를 분석하기 위해 트위터 사용자들을 대상으로 온라인 설문을 실시하였다. 설문 대상은 수도권 대학이 운영하는 트위터 계정을 팔로우하는 일반 사용자들로 하였다. 데이터 수집 시점에 최소 트윗 수가 50개 이상인 유효 사용자들을 대상으로 하여 총 42건의 유효 응답을 수집하였다. 응답자 중 여성은 28명, 남성은 14명이었고, 직업은 학생이 13명, 직장인이나 무직인 경우가 29명이었다. 연령대는 20~30대가 29명으로 다수를 이루었다. 응답자들의 팔로잉 수 평균은 약 1,983명, 팔로워 수는 2,456명, 그리고 트윗 수는 약 36,896개였다. 각 사용자에 대해 최대 1,000개의 트윗 텍스트를 수집하여 분석에 활용하였다. 심리학적 특성에 대한 설문은 자기 해석, 해석 수준, 조절 초점 각각에 대해 선행연구인 [17]-[19]에서 활용된 문항들을 이용하였다. 해당 연구들은 세 가지 심리적 특성에 대해 각각 2점, 7점, 5점 척도의 여러 문항으로 구성된 측정 도구를 제시하고 있으며, 본 연구에서는 각 특성에 대해 응답의 평균치를 통계분석에 이용하였다.

다음으로, 설문에 응답한 트위터 사용자의 트위터 이용 데이터를 공개 API를 통해 수집하였으며, 이를 LIWC를 바탕으로 개발된 한국어 텍스트 분석 도구인 HLIWC를 이용하여 분석하였다[20]. 이 도구는 LIWC와 유사하게, 미리 구축된 어휘 사전 및 문법적 특징을 바탕으로 언어심리학적으로 유용하다고 알려진 다양한 변수들을 추출해 준다. 예를 들어 부정 및 긍정 감정 어휘, 특정 품사의 어휘, 다양한 문장 부호 등이 주어진 텍스트에 얼마나 많이 등장하는지를 각각 추출해 준다. 이를 설문 결과와 함께 활용하여, 각 언어심리학적 변수의 출현 빈도와 세 가지 심리적 특성 간의 상관관계를 분석해 유의한 관계들을 추출하였다.

둘째, 추출된 언어심리학적 변수들이 사용자들의 이벤트 대응 방식과 관련이 있는지 분석하기 위해, 공개 API를 통해 대량의 트위터 이벤트 및 이벤트를 언급하는 트위터 텍스트를 수집하고, 이에 대해 이항 로짓 분석을 실시하였다. 특히 앞서 유의한 결과를 보인 언어심리학적 텍스트 특징들이 세 가지 심리적 특성을 대표할 수 있다고 가정하고 각각을 대표하는 프록시(Proxy) 변수들을 생성하여 이를 독립변수로, 이벤트에 대한 대응 방식을 종속변수로 하여 분석을 실시하였다[21][22]. 구체적으로는 양의 상관관계를 가진 변수들의 값은 합하고, 음의 상관관계를 가진 변수들의 값은 빼주는 방식으로 세 가지 심리적 특성인 자기해석, 해석수준, 조절초점 각각을 대표하는 프록시 변수들을 구성하였다. 이와 같은 프록시 변수 및 기타 통제 변수들을 독립변수로 하고, 멘션, URL 활용, 해쉬 태그 활용 여부 등을 종속변수로 하여 이항 로짓 분석을 실시하였다.

셋째, 트윗 텍스트의 언어심리학적 변수들과 이벤트 주제 유형이 서로 관련 있는지 분석하였다. 이를 위해 앞서 이항로짓분석에 활용된 데이터를 이용하였으며, 단어 임베딩 값을 이용한 군집분석을 통해 트렌드를 네 가지 주제 유형으로 구분하였다. 임베딩 생성을 위해서는 genism 패키지가 활용되었으며, 20개의 차원의 벡터로 총 95,763개의 어휘에 대한 임베딩을 구성하였다. 다음으로, 텍스트 분석에 많이 활용되는 딥러닝 모형인 LSTM을 이용해 각 트윗에 포함된 언어심리학적 변수들이 네 가지 트렌드 주제 유형과 관계가 있는지 분석하였다.


Ⅳ. 분석 결과

4.1 설문조사: 심리적 특성과 언어 심리적 변수

트위터 사용자들을 대상으로 온라인 설문조사 및 크롤링을 수행하여 앞서 제시된 세 가지 심리적 특성과 언어심리학적 변수들, 그리고 기타 트위터 사용 행태에 대한 변수들 및 성별 등과의 상관관계를 분석하였다. 분석 결과는 표 1과 같다.

Analysis of the twitter survey results

첫째, 해석수준은 긍정 및 부정 이모티콘, 그리고 느낌표 등의 사용과 음의 상관관계를 보이고 있다. 즉, 해석수준이 구체적일수록 이모티콘과 느낌표의 사용이 많아지는 것을 알 수 있다. 해석 수준은 그 외에도 성별 및 listed 속성과 상관관계를 보이고 있다. 다음으로 자기해석의 경우 부정 감정어, 형용사, 어절 수와 음의 상관관계를, 마침표의 사용과는 양의 상관관계를 보이고 있다. 즉, 자기해석이 독립적일수록 부정감정어, 형용사, 어절의 사용 등이 늘어나고, 반면 마침표의 사용은 줄어드는 것을 알 수 있다. 이 외에도 자기해석은 트위터의 favorites 속성과 양의 상관관계를 보이고 있다. 조절초점의 경우 긍정 이모티콘 및 물음표의 사용과 음의 상관관계를 보이고 있다. 즉, 조절초점이 방어적일수록 긍정 이모티콘 및 물음표의 사용이 늘어남을 알 수 있다. 추가로 성별과도 유의한 관계를 발견할 수 있다. 이와 같은 분석 결과는 트위터 사용자들의 심리적 특성이 다수의 언어 심리적 변수들과 관련이 있으며, 그 외에 일부 트위터 사용 특성과도 관련이 있음을 나타낸다고 볼 수 있다.

4.2 이벤트 대응 분석: 이항 로짓 분석

다음으로, 앞서 상관관계 분석을 통해 추출된 특징들을 이용하여 세 가지 심리적 특성과 이벤트 대응 간의 관계를 분석하고자 하였다. 이를 위해 트위터의 공개 API 및 Python 프로그래밍을 이용해, 총 150일 동안, 특정한 시각에, 트위터가 제공하는 매일 최대 50개의 이벤트와 이를 언급하고 있는 최대 500개의 트윗 메시지를 수집하였다. 동시에 각 메시지의 작성자와 관련된 트위터 데이터를 API를 통해 함께 수집하였다. 결과적으로 총 844,585건의 데이터를 수집하였고, 이에 대해 HLIWC를 이용하여 특징을 추출하였다. 이에 대한 기술 통계는 표 2에 요약되어 있다.

Descriptive statistics of data for experiments

전체 관측 수는 약 84만 건이며, 트윗 메시지의 평균 어절 수는 약 24.2개, 각 언어심리 변수들의 빈도는 메시지 당 평균 0.21 ~ 1.15회 정도인 것을 알 수 있다. follower, friends, favorites, listed 등의 변수는 각각의 자연로그 값을 취하여 통제변수로 활용하였다. 표에는 생략되어 있으나 위치정보 공개는 총 사용자 중 23%, 기본 프로필 사용은 2%, 배경 이미지 포함은 72%로 나타났다.

이러한 데이터를 이용하여 앞서 설명한 바와 같이 세 가지 심리적 특성에 대한 프록시 변수를 구성해 독립변수로 활용하고, 이벤트에 대한 반응을 종속변수로 설정하여 이항 로짓 분석을 실시하였다. 분석 결과는 표 3에 표시되어 있다.

Binary logit analysis: whole data

결과적으로 모든 심리적 변수들이 모든 반응 유형에 유의한 영향을 끼치는 것으로 나타났다. 해석수준과 조절초점은 각각 멘션 반응에는 부의 영향을, 해쉬와 URL 반응에는 정의 영향을 끼치는 것으로 나타났으며, 자기해석은 그 반대의 결과를 보여주었다. 즉, 해석수준이 추상적일수록, 조절초점이 향상일수록, 또한 자기해석이 독립적일수록 이벤트에 대한 멘션은 줄어들고 해쉬와 URL 사용은 늘어나는 것으로 나타났다. 자기해석은 이와 정 반대의 결과를 보여주었다.

다음으로, 위와 같은 결과가 이벤트의 특성에 따라 달라질 수 있는지 추가 분석을 실시하였다. 이를 위해 각 이벤트에 대해 생성된 총 해쉬와 URL 반응의 합이 표준편차의 2배 이상인 경우를 ‘정보형’ 이벤트로 정의하고, 마찬가지 방식으로 멘션 반응이 표준편차의 2배 이상인 경우를 ‘사회형’ 이벤트로 정의하여 각각에 대한 분석을 실시하였다. 이는 해쉬 태그 및 URL의 사용이 많은 경우 그 주제에 대한 적극적인 정보 공유가 많이 발생하고 있는 이벤트라고 볼 수 있고, 반대로 멘션이 많은 경우 대상에 관해 사회적 상호작용이 활발한 이벤트라고 볼 수 있기 때문이다. 즉, 전체 데이터 중 정보형 반응이 매우 많은 데이터와 사회형 반응이 매우 많은 데이터를 선별하여 추가 분석을 실시하였다.

결과는 표 4에 표시되어 있다. 우선 전체 데이터를 사용했던 앞선 분석과 결과가 조금씩 다르게 나타남을 알 수 있다. 자기해석의 경우, 정보형은 해쉬 반응에서 유의하지 않은 결과를 보이고 있으며 다른 반응에 대해서는 모두 부의 영향을 끼치고 있다. 조절초점의 경우는 전체 데이터를 이용한 이전의 분석과 동일한 결과를 보여주고 있다. 해석수준의 경우 멘션, 해쉬 등의 반응에 유의하지 않은 결과를 보이고 있는데, 이는 분석 대상 데이터 수가 축소된 영향을 배제할 수는 없다.

Binary logit analysis: information vs. social type

그 밖의 기타 변수들도 조금씩 차이를 보이고 있음을 알 수 있다. 이러한 결과는 사용자들의 이벤트에 대한 반응이 이벤트 특성에 따라 달라질 수 있음을 보여준다고 할 수 있다.

4.3 언어심리 변수와 이벤트 주제 간의 관계

다음으로, 딥러닝을 이용하여 트위터 텍스트의 언어심리학적 변수와 이벤트 주제 유형 사이에 관계가 있는지 분석하였다. 이 실험도 앞서 이항 로짓 분석에 사용된 844,585건의 데이터를 활용하였다.

이를 위해 우선 전체 이벤트들을 주제어 유형에 따라 분류하였다. 임베딩 벡터를 기준으로 K-means 방식의 군집분석을 실시하였으며, 이때 한국 트위터 사용자들의 상당수가 대중문화, 서브-컬쳐 등에 대한 관심사를 공유한다는 점을 감안하여 그와 관련 있는 주제들에 대해 방대한 수의 항목을 보유하고 있는 나무위키 백과사전의 텍스트 덤프 파일을 이용해 임베딩을 추출하였다. 분석에 활용된 군집 수는 Silhouette 분석을 기준으로 결정되었고, 추출된 군집들은 표 5와 같이 각각 서브-컬쳐, 시사, 스포츠, 연예 등에 대해 다양한 트렌드 키워드를 포함하고 있는 것을 알 수 있다.

Four trend categories

다음으로 그림 2와 같은 구조의 딥 러닝 네트워크를 이용하여 각 트위터 텍스트의 언어심리적 변수가 4가지 트렌드 유형과 관련이 있는지, 즉 언어심리적 변수들이 주제 유형의 예측에 기여할 수 있는지 분석해 보았다.

Fig. 2.

Deep learning network structure

네트워크의 가장 하단에는 입력된 단어를 임베딩으로 전환해 주는 계층이 위치하고 있으며, 그 위에 LSTM 계층이 있다. 이때 LSTM 계층은 1에서 3개까지 변화시켜가며 실험하였고, 또한 각 LSTM 계층의 은닉 상태(Hidden state=hs)의 수를 변화시켜가며 실험하였다. 전체 네트워크에서 배치 정규화를 사용하였고, 활성 함수는 ReLU를 이용하였다. 과적합(Overfitting)을 방지하기 위한 Dropout 계층에서는 그 비율을 25%로 설정하였다. 이때 트위터 메시지에 포함된 어휘의 내용이 분석에 끼치는 영향을 배제하고 언어심리학적 특징에 중점을 두어 분석을 수행하기 위하여 LSTM에 입력되는 문장들의 단어들을 각각 단어의 품사 유형으로 단순화하여 실험하였다. 예를 들어, ‘수집하다’와 같은 동사는 ‘VVV’로, ‘나무’와 같은 명사는 ‘NNN’ 등으로 변환하여 어휘의 내용이 최대한 분석에서 배제될 수 있도록 하였다.

분석 결과는 그림 3과 같다. 우선 비교를 위해서 Uniform, Stratified, Prior, 최빈 카테고리 등의 Baseline 전략을 활용하였고, 이 중 가장 나은 결과를 보인 최빈 카테고리 방식이 28.4%의 정확도를 보여주었다. 딥러닝 모형을 활용한 경우 그림 3과 같이 Baseline에 비해 훨씬 높은 약 46%의 정확도를 보여주고 있으므로, 결과적으로 텍스트 특성과 주제 유형과의 관계를 뚜렷하게 확인할 수 있었다.

Fig. 3.

Accuracy of categorization

추가적으로, 은닉 상태의 수가 증가할수록 정확도가 소폭 증가함을 확인할 수 있으며, 또한 LSTM의 계층을 2개 사용하는 것이 1개 사용하는 것 보다 더 나은 결과를 보임을 알 수 있다. 그러나 계층을 3으로 증가시킨 경우 심한 과적합 현상이 발생하는 것을 관찰할 수 있었으며, 은닉 상태 수를 더 늘린 경우에는 큰 정확도 향상을 관찰할 수 없었다.


Ⅴ. 결 론

5.1 요약 및 토론

본 연구에서는 언어심리학적 관점에서 트위터에서 화제가 되는 이벤트와 사용자 텍스트 간의 관계를 분석하였다. 이를 위해 트위터 사용자들을 대상으로 설문을 실시하여 언어심리학적 변수들과 트위터 사용자의 심리적 특징 간의 관계를 도출하고, 이 결과를 바탕으로 크롤링을 이용해 수집한 대량의 데이터에 대해 트위터 상의 이벤트에 대한 멘션, 해쉬 태그 첨부, URL 공유 등의 대응 방식을 분석하였다. 또한 딥 러닝을 이용하여 트윗 메시지의 언어심리학적 특징이 이벤트 주제 유형과 관련 있는지 분석하였다.

본 연구의 주요 결과는 다음과 같다. 설문 분석을 통해 해석 수준, 자기 해석, 조절 초점과 같은 심리적 특성들이 언어심리학적 변수들과 유의한 상관관계를 가짐을 알 수 있었다. 이때 추출된 유의한 변수들을 프록시 변수로 사용하여 이항 로짓 분석을 실시한 결과 세 가지 심리적 특성들이 모두 멘션, 해쉬 태그 첨부, URL 공유 등의 사용자 반응과 유의한 관계가 있음을 확인할 수 있었다. 즉, 심리적 특성에 따라 사용자들의 이벤트에 대한 행태가 다를 수 있음을 확인하였다. 추가적으로, 이때 멘션 반응은 해쉬 태그 및 URL 반응과 반대 부호의 유의성을 보임을 확인하였다. 또한 정보성이 강한 이벤트 및 사회성이 강한 이벤트에 대한 추가 분석을 통해 사용자 반응이 이벤트의 성격에 따라 달라질 수 있음을 확인하였다. 다음으로, LSTM 네트워크를 이용한 이벤트 주제 유형과 텍스트 특성 간의 관계에 대한 분석 결과, 텍스트에서 어휘의 내용적인 영향이 제거됐음에도 이벤트 주제 유형과의 관계가 뚜렷함을 확인할 수 있었다. 이는 반대로 서브-컬쳐, 시사, 스포츠, 연예 등 이벤트의 주제 유형에 따라 사용자들의 트윗 메시지의 텍스트 스타일이 달라질 수 있음을 보여준다고 할 수 있다.

5.2 연구의 의의, 한계 및 향후 연구 방향

본 연구의 의의는 다음과 같다. 첫째, 본 연구는 융합연구로서 심리학 및 언어심리학 분야의 이론을 컴퓨터 기반 텍스트 분석과 결합하여 SNS 상의 사용자 행태를 분석했다는데 의의가 있다. 이러한 접근 방식의 연구는, 특히 한국어 텍스트에 대해서는 아직 찾아보기 힘들다. 둘째, 본 연구의 분석을 통해 언어심리학적 특징들이 SNS 상의 사용자를 이해하고, 또 이를 이용하여 사용자의 이벤트에 대한 대응을 해석하는데 도움이 됨을 보였다. 이를 활용함으로써 기업들은 사용자에 대한 더 정확한 이해를 바탕으로 더욱 효과적으로 고객 서비스, 홍보, 마케팅 등의 활동을 수행할 수 있다.

본 연구의 한계는 다음과 같다. 첫째, 본 연구는 트위터 사용자들을 대상으로 설문 및 크롤링을 통해 수집한 데이터를 분석하였다. 따라서 설문 대상에 따른 바이어스(Bias)가 존재할 수 있으며, 또한 다른 유형의 SNS에 대해서는 본 연구의 결과를 일반화하기 어려울 수 있다. 둘째, 본 연구는 탐색적인 성격의 연구로, 본 연구의 분석 결과는 특정한 인과관계 혹은 가설을 입증하지는 않는다. 또한 언어심리학적 텍스트 분석 분야의 경우, 영어와 달리 한국어를 대상으로 한 선행 연구가 매우 제한적이기 때문에 본 연구의 결과를 해석하는데 한계가 있다. 셋째, 본 연구에서는 SNS 이용자에 대해 직접 측정할 수 없는 심리적 특성을 언어심리학적 변수로 구성된 프록시로 간접 측정하였다는 한계가 있다. 따라서 이의 해석 및 응용에 주의를 요한다.

향후 연구에서는 더 다양한 사용자 집단 및 다른 특성의 SNS에 대해 분석을 확장할 필요가 있다. 또한 본 연구의 결과를 바탕으로 다양한 구체적 주제에 대해 모형 및 가설을 수립하고 검증하는 연구가 수행될 수 있다. 그 밖에 다양한 유형의 SNS 이벤트에 대해서도 연구가 확장될 필요가 있다.

Acknowledgments

본 연구는 2016년 대한민국 교육부와 한국연구재단의 지원을 받아 수행된 연구임 (NRF-2016S1A5A2A01926914)

References

  • H. Wei et al., "Beyond the words: Predicting user personality from heterogeneous information", in Proceedings of the tenth ACM international conference on web search and data mining, New York, NY, USA, pp. 305-314, Feb. 2017. [https://doi.org/10.1145/3018661.3018717]
  • S. E. Tchokni, D. O. Séaghdha, and D. Quercia, "Emoticons and phrases: Status symbols in social media", in Eighth International AAAI Conference on Weblogs and Social Media, Ann Arbor, Michigan, USA, pp. 485-494, Jun. 2014.
  • C. H. Lee, K. Kim, Y. S. Seo, and C. K. Chung, "The relations between personality and language use", The Journal of general psychology, Vol. 134, No. 4, pp. 405-413, Aug. 2007. [https://doi.org/10.3200/GENP.134.4.405-414]
  • J. W. Pennebaker, R. L. Boyd, K. Jordan, and K. Blackburn, "The development and psychometric properties of LIWC2015", The University of Texas at Austin, Sep. 2015.
  • K. G. Blackburn, A. Ashokkumar, J. W. Pennebaker, N. Brody, and R. Boyd, "Sounds Like a Winner, or Does It?: Exploring Football Fans’ Language after Wins Versus Losses", Society for Personality and Social Psychology, Jan. 2020.
  • S. E. Cross, E. E. Hardin, and B. Gercek-Swing, "The What, How, Why, and Where of Self-Construal", Personal Social Psycholgy Review, Vol. 15, No. 2, pp. 142–179, Jan. 2011 [https://doi.org/10.1177/1088868310373752]
  • J. E. Escalas and J. R. Bettman, "Self‐Construal, Reference Groups, and Brand Meaning", Journal of Consumer Research, Vol. 32, No. 3, pp. 378–389, Dec. 2005 [https://doi.org/10.1086/497549]
  • K. Fiedler, "Construal Level Theory as an Integrative Framework for Behavioral Decision-Making Research and Consumer Psychology", Journal of Consumer Psychology, Vol. 17, No. 2, pp. 101-106, Apr. 2007 [https://doi.org/10.1016/S1057-7408(07)70015-3]
  • N. Liberman, Y. Trope, and C. Wakslak, "Construal Level Theory and Consumer Behavior", Journal of Consumer Psychology, Vol. 17, No. 2, pp. 113-117, Apr. 2007 [https://doi.org/10.1016/S1057-7408(07)70017-7]
  • A. Florack and J. Hartmann, "Regulatory focus and investment decisions in small groups", Journal of Experimental Social Psychology, Vol. 43, No. 4, pp. 626-632, Jul. 2007 [https://doi.org/10.1016/j.jesp.2006.05.005]
  • I. Pentina and D. G. Taylor, "Regulatory Focus and Daily-Deal Message Framing: Are We Saving or Gaining With Groupon?", Journal of Interactive Advertising, Vol. 13, No. 2, pp. 67–75, Jun. 2013. [https://doi.org/10.1080/15252019.2013.791792]
  • F. Atefeh and W. Khreich, "A Survey of Techniques for Event Detection in Twitter", Computational Intelligence, Vol. 31, No. 1, pp. 132-164, Feb. 2015 [https://doi.org/10.1111/coin.12017]
  • J. Weng and B. S. Lee, "Event Detection in Twitter", Proceedings of the Fifth International AAAI Conference on Weblogs and Social Media, Barcelona, Spain, Vol. 11, pp. 401-408, Jul. 2011.
  • N. Lu, G. Wu, Z. Zhang, Y. Zheng, Y. Ren, and K.-K. R. Choo, "Cyberbullying detection in social media text based on character-level convolutional neural network with shortcuts", Concurrency and Computation: Practice and Experience, Special Issue Paper, Jan. 2020.
  • J. He, L. Hong, V. Frias-Martinez, and P. Torrens, "Uncovering social media reaction pattern to protest events: a spatiotemporal dynamics perspective of ferguson unrest", in International conference on social informatics, Beijing, China, pp. 67-81, Dec. 2015. [https://doi.org/10.1007/978-3-319-27433-1_5]
  • P. Burnap et al., "Tweeting the terror: modelling the social media reaction to the Woolwich terrorist attack", Social Network Analysis and Mining, Vol. 4, No. 1, Article No. 206, Jun. 2014. [https://doi.org/10.1007/s13278-014-0206-4]
  • Yoon Yang and Min Jae Kim, "The Effects of Self-Construal, Focused Emotion, and the Context in the Advertisement on Antismoking Public Service Advertising Attitude", The Korean Journal of Advertising, Vol. 21, No. 2, pp. 245-270, Apr. 2010.
  • Ki-Hyun Sung, Sanghak Lee, and Seung Chang Lee, "Effects of Experiential Marketing Modules in the Perspective of Individual Construal Level", Journal of Channel and Retailing, Vol. 21, No. 4, pp. 87-110, Oct. 2016.
  • Hyeon Sook Lee and So-Hyun Joo, "The Effect of Regulatory Focus and the Construal-Level on Retirement Planning Attitude and Behavior", Financial Planning Review, Vol. 7, No. 2, pp. 1–32, May 2014.
  • Jiwon Lee and Hyung Jun Ahn, "Impact of the Psycho-linguistic Features of the Facebook Brand Page Posts on User Reaction", The Journal of internet electronic commerce research, Vol. 16, No. 1, pp. 37-56, Feb. 2016.
  • E. Gilbert, "Predicting tie strength in a new medium", in Proceedings of the ACM 2012 Conference on Computer Supported Cooperative Work, Seattle, WA, USA, pp. 1047-056, Feb. 2012. [https://doi.org/10.1145/2145204.2145360]
  • M. C. Stevenson, B. L. Lytle, B. J. Baumholser, and E. W. McCracken, "Racially diverse juries promote self-monitoring efforts during jury deliberation", Translational Issues in Psychological Science, Vol. 3, No. 2, pp. 187-201, Jun. 2017. [https://doi.org/10.1037/tps0000113]
저자소개
안 형 준 (Hyung Jun Ahn)

2004년 2월 : KAIST 경영공학(공학박사)

2008년 3월 ~ 현재 : 홍익대학교 경영대학 교수

관심분야 : 자능정보시스템, 인공지능, 빅데이터, 문화예술과 IT 등

Fig. 1.

Fig. 1.
Overview of research

Fig. 2.

Fig. 2.
Deep learning network structure

Fig. 3.

Fig. 3.
Accuracy of categorization

Table 1.

Analysis of the twitter survey results

Psychological traits
Construe level Self-construe Regulatory focus
** p <0.01, * p <0.05
(pCON: positive emojis, nCON: negative emojis, NEG: negative emotion words, VA: adjective, EOJ: 어절, PERIOD: periods, QUEST: question marks, EXCLM: exclamation marks, Log_listed: natural log of listed, Log_faved: natural log of favourites, gender: male 0, female 1)
Psycho-linguistic Variables nCON (-, *)
pCON (-,**)
EXCLM (-, *)
NEG (-, *)
VA (-, **)
PERIOD (+, **)
pCON(-, *)
QUEST(-, *)
Others gender(-, **)
Log_listed (+, *)
EOJ (-, *)
Log_faved (+, *)
gender(-,**)

Table 2.

Descriptive statistics of data for experiments

Variable Min/Max Average Std. Dev.
NEG 0/14 .21 .53
VA 0/15 .44 .83
pCON 0/58 .22 .94
nCON 0/88 .24 1.37
EXCLM 0/130 .35 1.89
QUEST 0/115 .29 1.31
PERIOD 0/59 1.15 2.13
어절 1/167 24.20 18.41
Favorites 0/623840 5239.21 13504.88
Follower 0/4609856 3522.07 36705.56
Friends 0/567619 1350.73 9195.86
Listed 0/39685 27.92 308.680
Observations 844,585

Table 3.

Binary logit analysis: whole data

Overall
Mention Hash URL
B B B
Construe level -.034 *** .025 ** .420 ***
Self-construe .125 *** -.500 *** -.584 ***
Regulatory focus -.114 *** 3.410 *** 2.542 ***
어절 -.004 *** -.006 *** .027 ***
Follower .139 *** -.128 *** .241 ***
Friends -.034 *** -.188 *** .721 ***
Favorites .242 *** -.288 *** -.501 ***
Listed -.476 *** .637 *** .266 ***
위치정보 -.036 *** -.112 *** .143 ***
기본 프로필 .409 *** .418 *** 2.262 ***
배경 이미지 .111 *** .238 *** .223 ***

Table 4.

Binary logit analysis: information vs. social type

Informative (Hash + URL > 2 Sigma = 1,001) Social (Mention > 2 Sigma = 260)
Mention Hash URL Mention Hash URL
B B B B B B
Construe level .038 -.014 .589 *** .015 -.009 .147 *
Self-construe -.555 *** .144 -.787 *** -.139 ** -1.476 *** -.188 *
Regulatory focus -.432 *** 4.320 *** 5.300 *** -.121 * 3.810 *** 3.702 ***
어절 -.025 *** -.016 *** .020 *** -.014 *** -.022 *** .030 ***
Follower -.176 *** -.049 *** .486 *** -.056 * -.246 *** -.238 ***
Friends -.111 *** -.438 *** .629 *** .213 *** -.715 *** .282 ***
Favorites .409 *** -.244 *** -.236 *** .029 * .003 -.039 ***
Listed -.157 *** .352 *** -.028 -.520 *** .904 *** .742 **
위치정보 .126 ** -.526 *** -.039 .112 *** .072 *** .552 ***
기본프로필 1.044 *** -.962 *** 1.156 .899 *** .608 ** .243 **
배경이미지 .120 ** .058 -.090 ** .148 ** .137 .006

Table 5.

Four trend categories

Category Example trends
Sub-culture '타카오', '츠카사', '블라드', '살모사', '카나타', '발렌티노', '밀라노', '디지몬', …
Current affairs(시사) '외교부', '순기능', '촛불집회', '법조인', '무성애자', '최명길', '응급환자', '미세먼지', …
Sports '산체스', '심재원', '라치오', '토트넘', '엘클라시코', '세대교체', '이정후', '조인성', …
Entertainment '김지석', '이수지', '박서준', '양현석', '남궁민', '김민준', '이효리', '최수종', …