Korean Institute of Information Technology
[ Article ]
The Journal of Korean Institute of Information Technology - Vol. 21, No. 2, pp.43-50
ISSN: 1598-8619 (Print) 2093-7571 (Online)
Print publication date 28 Feb 2023
Received 24 Jan 2023 Revised 20 Feb 2023 Accepted 23 Feb 2023
DOI: https://doi.org/10.14801/jkiit.2023.21.2.43

규칙 기반 문장 단위 무형대용어 해결을 통한 성폭력 피해자 조사 면담 진술서 생략어 복원

전현정* ; 허여솔* ; 홍진원* ; 양기주**
*동국대학교 정보통신공학과 학사과정
**동국대학교 정보통신공학과 교수(교신저자)
Restoring the Subjects in Sexual Violence Victim’s Statements by Sentence-wise Rule-based Zero Anaphora Resolution
Hyeonjeong Jun* ; Yeosol Heo* ; Jinwon Hong* ; Gijoo Yang**

Correspondence to: Gijoo Yang Dept. of Information and communication engineering, Dongguk University, 30, Pildong-ro 1-gil, Jung-gu, Seoul, Korea Tel.: +82-2-2260-3799, Email: gjyang@dongguk.edu

초록

자연어 처리 기술을 이용해 진술의 신빙성을 판별하는 소프트웨어에 대한 연구가 대두되고 있다. 이때 피해자의 진술에서 빈번히 생략되는 주어의 정확한 복원이 이루어진다면 컴퓨터의 정확한 문장 이해를 통해 진술 신빙성 판단 성능을 높일 수 있다. 기존 한국어 무형대용어 해결 연구에서 주로 사용되었던 머신러닝 및 딥러닝 모델은 명사구에 초점을 맞춘 것으로, 일정 범위 내에 선행어가 존재하여야 생략어 복원이 가능하다는 등의 한계점이 있다. 성폭력 피해자 면담 조사 진술서의 특성상 서술어에 초점을 맞춘다면 효율적인 복원이 가능하다. 이에 기반해 본 연구에서는 구문 분석기와 규칙기반 모델을 이용해 생략된 가해자 또는 피해자 주어를 문장 단위로 복원하는 방법을 채택했다. 구축한 모델로 실제 성폭력 피해자 조사 면담 기록물에서 피해자 또는 가해자의 주어가 생략된 2,396문장에 대해 주어 복원 실험을 진행하였다. 본 모델의 복원 성능은 F1 스코어는 90.79%이며 낮지 않은 수준으로 판단한다.

Abstract

Research on software that determines the credibility of statements using natural language processing technology is emerging. If accurate restoration of subjects that are frequently omitted from victim's statements is performed, the performance of judging the credibility of statements can be improved through accurate sentence understanding of the computer. Machine learning and deep learning models, which were mainly used in existing research on Korean Zero Anaphora Resolution (ZAR), have limitations such that anaphora can be restored only when preceding words exist. Due to the nature of the investigative interview, efficient sentence-wise restoration is possible based on the predicate. Therefore, this study adopts a method of restoring omitted perpetrators or victims as the subject on a sentence-by-sentence basis using parsers and a rule-based model. We conducted an experiment using 2,396 sentences. Our model outperforms and its F1 score is 90.79%, which is considered decent for the credibility check system.

Keywords:

ZAR, subject restoration, rule-based scoring, sexual violence victim’s statements

Ⅰ. 서 론

자연어 처리(NLP, Natural Language Processing) 인공지능 모델을 이용한 컴퓨터 소프트웨어로 성폭력 피해자의 진술 신빙성을 판단하는 연구들이 진행되고 있다[1][2]. 진술 신빙성 판단 연구에서는 주로 CBCA와 같은 진술 분류 기준에 따라 진술을 높은 효율과 객관성으로 분류, 처리하기 위해 인공지능 모델을 사용했다.

문서에 등장하는 개체 간의 관계를 주어, 서술어, 목적어로 표현하는 트리플 추출[3]과 같이, 비구조화된 자연어에서 컴퓨터가 활용 가능한 형태의 구조화된 정보를 추출하기 위해서는 문장 요소 간의 관계 파악이 중요하다. 인공지능 모델을 이용한 진술 신빙성 판단은 주관적 기준이 진술 판단에 관여하지 않는다는 등의 장점을 가지지만, 다양한 의미로 해석될 수 있거나, 문장의 구성요소가 충분하지 않은 경우 분류 성능이 떨어지는 등의 한계점이 있었다. 따라서 생략된 문장 요소의 복원을 통해 진술문의 개체 간 연관성을 정확히 파악하고, 진술 신빙성 판단 성능을 높일 필요성이 있다.

한국어는 동사 중심의 언어이므로 명사구로 구성된 주어나 목적어가 생략되는 현상이 잦으며, 주어의 경우 68.79% 비율로 생략된다[4]. 특히 성폭력 피해자 조사 면담의 경우, 발화의 주어가 주로 피해자나 가해자이고, 대화 참여자가 면담자와 피해자로 한정되어 맥락을 통해 생략 주어를 쉽게 유추할 수 있으므로 주어 생략의 빈도가 잦다. 따라서 본 연구에서는 피해자 진술에서 자주 생략되며, 정보 추출에서 높은 중요도를 가지는 주어를 복원하는 것을 목표로 한다.

무형대용어 해결(Zero anaphora resolution)[5]은 어떠한 동사 표현 어구나 명사 표현 어구에서 일부 문장성분이 미리 나타나 유추가 가능하거나 암묵적으로 알고 있기에 문장 내에서 생략된 해당 성분을 찾아 복원해주는 것이다. 무형대용어 해결 과정은 일반적으로 필수격이 생략된 서술어를 탐지한 후, 이전에 등장한 생략어 후보 명사구 중 선행어(Antecedent)로 추정되는 것을 선택해 생략어를 복원하는 과정으로 진행된다.

본 연구에서 복원하고자 하는 조사 면담 진술서의 경우 사건 파악을 위해 복원해야 하는 주어가 피해자 또는 가해자인 경우가 대부분이다. 또, 발화자가 피해자로 고정된 짧은 답변과 도치법 등의 이유로 생략된 명사구가 서술어 이후에 등장하는 경우가 존재한다. 따라서 후보 명사구를 추출하는 과정이 필수적이지 않다. 이에 반해 주어에 따라 등장하는 서술어가 특징적인 경우가 많고, 사건 분석에 행위가 중심이 되므로 단일 문장 내 서술어에 기반해 복원 주어를 가해자와 피해자 중에서 선택하는 것이 효율적이다. 이에 근거해 본 연구에서는 후보 명사구 추출과 선행어 선택에 머신러닝 또는 딥러닝 기법을 사용한 기존 무형대용어 해결 연구들과 달리, 성폭력 피해자 조사 면담 진술서에 기초한 규칙 기반의 Scoring 기법을 이용해서 무형대용어를 문장 단위로 복원했다.

본 연구의 모델은 한국전자통신연구원(ETRI)에서 제공하는 문어체 언어 분석 API[6]로 피해자의 발화를 분석하고 주어가 생략된 서술어를 찾는다. 이후 성폭력 피해자 조사 면담 자료에 기반해 구축한 규칙을 통해 생략된 주어가 피해자이거나 가해자일 가능성을 판단하고 생략어를 복원한다.

본 연구의 구성은 다음과 같다. 먼저 2장에서는 무형 대용어 해결과 생략어 복원 연구의 최근 동향, 규칙 기반 생략어 복원 연구를 소개한다. 3장에서는 본 모델의 생략어 복원 과정을 설명한다. 4장에서는 실험을 기반으로 모델의 성능을 평가한다. 5장에서는 연구의 결론과 향후 연구 개선 방향에 대해 다룬다.


Ⅱ. 관련 연구

한국어 자연어 처리 인공지능 모델을 이용한 진술 신빙성 판단 연구[1][2]는 현재 초기 단계로, 그 수가 많지 않다. CBCA와 같은 진술 분류 기준에 따라 진술을 높은 효율과 객관성으로 분류하기 위해 RoBERTa[7], BERT[8]등의 인공지능 분류 모델을 사용했다.

RoBERTa 모델을 사용해 진술을 분류한 연구[1]의 경우 CBCA에 따라 16가지 준거로 진술을 분류했다. 객관적 진술 분류를 용이하게 하였으나, 학습 데이터가 부족한 준거의 경우 낮은 성능을 보였으며, 여러 해석이 가능한 문장의 경우 분류 성능이 떨어졌다.

BERT 모델과 RoBERT 모델을 사용해 진술을 분류하고 각 모델의 성능을 비교한 연구[2]의 경우[1]과 동일한 16가지 준거로 진술을 분류했다. BERT 모델의 단점을 보완하고, 기계독해 연구를 진행하여 성능을 높인 RoBERT 모델의 성능이 BERT 모델에 비해 높았다. [1]의 연구와 동일하게 학습 데이터가 부족한 준거와 여러 해석이 가능한 문장의 경우 분류 성능이 떨어지는 단점이 있었다.

두 연구 모두 대검찰청으로부터 제공받은 실제 아동 성범죄 피해자와의 대면 조사 녹취록 데이터를 사용하였으며, 문장의 해석 가능성과 기계독해를 통한 자연어 이해 성능 향상이 분류 성능에 영향을 미쳤다. 생략어 복원을 통한 문장 구성 필수 요소의 완전화 과정은 두 연구 모두에서 진행되지 않았다.

한국어 생략어 복원에 관한 연구는 꾸준히 진행되어오고 있으며[9][10], 머신러닝 또는 딥러닝 기술을 이용한 다양한 생략어 복원 방법이 대두되고 있다.

머신러닝 모델을 이용하여 생략어 복원을 연구한 방법으로는 대표적으로 Structural SVM을 이용한 방법이 있다. SVM을 이용하여 생략어 복원을 진행한 연구[11]에서는 백과사전이나 위키피디아 등 백과사전류 문서에서 나타나는 명사구 생략의 복원을 수행하는 시스템을 Structual SVM을 이용하여 개발하였다. 해당 시스템의 성능은 F1 Score = 68.58%을 보여주었다.

딥러닝 모델을 활용하여 생략어 복원을 진행한 연구는 크게 CNN(Convolutional Neural Network)을 이용한 방법[12], Electra 모델을 finetuning한 방법[13], Bert 모델을 이용한 방법[14] 등이 있다. CNN을 이용한 연구[12]에서는 CNN 모델을 이용하여 한국어 위키피디아 데이터, 뉴스 데이터, 세종 문어체 말뭉치 데이터에 대해 무형대용어 해결을 진행했다. 선행어를 탐색하는 범위인 window size가 0인 경우 평균 74.6%의 정확도, window size = 2의 경우 평균 56.9%의 정확도를 보이며 SVM을 이용한 연구보다 높은 성능을 보여주었다. Electra 모델을 finetuning 한 연구[13]에서는 Electra 모델에 Linear Layer, Bi-LSTM Layer, MultiHeadAttention Layer를 추가하는 방법을 제시했다. 데이터는 국어원의 무형대용어 복원 말뭉치의 일부를 임의 추출하여 사용하였다. 세 가지 Layer 중 Bi-LSTM Layer를 추가하는 방법이 가장 높은 정확도를 보였으며, window size를 2로 설정하였을 경우 성능은 80.92%였다. 다음으로 Bert를 이용한 생략어 복원 연구[14]에서 제시한 모델 중 가장 정확도가 높았던 KBmL-AT/AM 모델의 경우 window size가 2인 경우 79.8%의 정확도를 보였다.

위 연구들과 같은 머신러닝 및 딥러닝을 이용한 무형대용어 해결의 경우, 생략된 문장성분을 나타내는 선행어가 window size 내에 존재해야만 생략어 복원이 가능하다. 또한 window size가 커질수록 무형대용어 해결의 정확도가 낮아진다는 단점이 존재한다.

본 연구는 성폭력 피해자들의 진술 데이터 내에서의 생략어 복원을 목적으로 한다. 성폭력 진술서 데이터에서는 window size 내에 선행어가 있는 경우가 드물기 때문에, 앞서 언급한 여러 모델을 적용하기에는 어려움이 있다. 또한 머신러닝 또는 딥러닝을 기반으로 한 생략어 복원 기법은 기존 학습 데이터가 아닌 새로운 데이터에 적용이 어렵다는 것과 데이터 준비와 학습에 긴 시간이 필요하며 수정 및 보완 과정이 복잡하다는 단점이 존재한다[15]. 이러한 점에서도 성폭력 피해자 진술서 데이터의 생략어 복원에 앞서 언급한 연구 방법들을 적용하기 어려웠다.

본 논문에서는 규칙 기반 모델을 활용한 성폭력 피해자 조사 면담 진술서에 특화된 생략어 복원 방법을 제안한다. 규칙 기반 모델의 경우 다양한 형태의 선행 명사구 탐지에 어려움이 있다[16]. 따라서 수동으로 설계한 규칙에 따라 모델이 동작하고, 규칙을 수정, 보완하기 쉽다는 장점을[15] 가짐에도 불구하고 머신러닝 및 딥러닝 모델과 함께 사용되거나[15] 대체되어 최근 연구에서는 자주 사용되지 않았다. 하지만 본 연구의 경우 선행 명사구 탐지 과정이 중요하지 않고, 생략어 복원이 필요한 문장이 특수성을 가지므로 규칙 기반 모델 사용의 단점을 배제하고 장점을 극대화한 모델 동작을 기대할 수 있다.


Ⅲ. 생략어 복원 모델

성폭력 피해자 조사 면담 진술서 데이터의 규칙 기반 생략어 복원은 그림 1과 같은 과정으로 이루어진다.

Fig. 1.

Process of our model

모델에 입력되는 데이터는 성폭력 피해자들의 진술서에서 피해자 또는 가해자를 나타내는 주어가 생략된 문장들로 한다. 해당 데이터들은 위 모델을 거치며 주어가 복원된다.

데이터가 모델에 입력되면 Parser를 통해 구문 분석 과정이 이루어진다. 구문 분석 과정은 문장을 구성하고 있는 구성 성분들을 분석하고 그들 사이의 관계를 파악하여 문장의 구조를 파악하는 과정이다. ETRI의 문어체 언어 분석 API를 이용하여 문장을 분석한다. 해당 API는 문장 분석 결과로 형태소 분석 결과, 어휘 의미 분석 결과, 개체명 인식 결과, 의존 구문 분석 결과, 의미역 인식 결과를 반환한다.

구문 분석이 이루어진 이후 구문 분석 결과를 토대로 의미역에 따라 문장 내에서 주어가 생략된 부분들을 찾는다. 이중 논항 정보(Argument)와 논항 타입 정보(Type)를 이용해 문장 속 용언의 구성요소를 파악하여 만약 필수격 요소 중 ARG0(행동주, 경험주)이 생략된 경우라면 주어가 생략된 것으로 판단하여 생략어 복원을 진행한다. 의미역이란, 문장 내에서 서술어에 의해 기술되는 행위나 사태에 대한 명사구의 의미적인 역할을 말한다. 의미역을 기준으로 주어가 생략된 부분을 찾기 때문에 여러 개의 의미역으로 구성된 하나의 문장에서 여러 개의 주어가 생략되어도 이를 모두 복원한다.

Parsing 이후 Scoring 과정에서는 열 가지 규칙에 의거하여 피해자 점수, 가해자 점수를 결정한다. 각 규칙별 점수는 규칙의 특성에 따라 결정된다. 기본적으로 규칙을 만족하면 피해자 또는 가해자 점수에 10점을 추가한다. 세부적으로 피해자 점수, 가해자 점수가 다르게 설정된 규칙들이 몇 가지 존재한다.

rule5의 경우 반항하는 행위를 나타내는 동사의 빈도수에 따라 10점, 6점, 4점으로 차등 설정하였다. rule6의 경우 조건을 만족하면 가해자 점수에 7점이 추가되는데, 폭력 표현의 경우 피해자가 주어일 때도 사용되는 경우가 종종 존재하기 때문에 7점만 추가되도록 설정하였다. rule7의 경우 가해자 점수에 3점을 더하고 피해자 점수에 10점을 더한다. 진술서의 특성상 피해자 입장에서 서술되기에 감정을 나타내는 표현이 피해자 입장에서 사용되는 경우가 다수이지만, 가끔 가해자의 감정을 나타내기도 하기 때문에 가해자 점수에 3점을 추가적으로 더하도록 설정하였다. rule8도 비슷한 맥락으로, 가해자가 보통 피해자에게 사과하지만, 피해자도 가해자에게 사과하는 경우가 종종 있기 때문에 피해자 점수에도 추가적으로 5점을 더하도록 설정하였다.

피해자 또는 가해자 점수를 비교하여 생략된 주어를 피해자 또는 가해자로 복원한다. 피해자 점수가 높은 경우 주어를 피해자로 복원하며 가해자 점수가 높은 경우 주어를 가해자로 복원한다. 만약 이 둘의 점수가 같을 경우, 피해자로 주어를 복원한다. 복원 대상으로 하는 진술서 데이터의 경우 피해자 관점에서 사건을 진술하기 때문에 생략된 주어가 피해자일 확률이 더 높기 때문이다.

Scoring 과정에서 활용하기 위하여 특정 단어들을 모아 구성한 데이터를 직접 구축하여 활용하였다. 구축한 데이터는 총 11가지로 다음 표 1과 같다.

Scoring data

Scoring 과정에서 적용되는 10가지 규칙은 아래 표 2와 같다.

Scoring rule


Ⅳ. 실 험

4.1. 실험 데이터

실험 데이터는 성폭력 피해자 면담 조사 진술서를 기반으로 해 수동으로 구축했다. 총 42개 문서, 821페이지의 진술서에서 서술어의 생략된 주어가 피해자나 가해자인 3,133개 문장을 선별했다. 이 중 ‘저한테 자기 그거를 넣었어요.’의 논항 분석 결과인 그림 2와 같이, 구문 분석기가 서술어의 주어가 생략되었음을 인식하지 못하는 문장이 존재했다. 이 경우 문장을 실험 데이터에서 제외하였으며, 구문 분석기 오류 데이터 제외 후 2,396문장이 실험 데이터로 사용되었다.

Fig. 2.

Parsing error example

문장 내 줄임표(⋯), 큰따옴표(““), 물음표(?), 느낌표(!)는 마침표(.)와 혼동되어 구문 분석기의 성능을 떨어뜨릴 가능성이 있다. 진술서의 맞춤법 오류로 문장 마무리 후에 마침표가 없는 경우 또한 구문 분석기 성능 저하의 원인이 된다. 따라서 그림 3과 같이 해당 문자를 삭제한 후 문장 끝에 마침표를 부착하는 방식으로 실험 데이터 전처리를 진행했다.

Fig. 3.

Data preprocessing

4.2. 모델 성능 측정 및 평가

오류 데이터 제거와 전처리 과정을 마친 2,396개 문장에 대한 주어 복원을 진행했다. 모델에 입력된 데이터는 3장의 과정에 따라 Parsing, Scoring 과정을 거친다. 이후 알맞은 자리에 복원된 주어가 삽입되어 그림 4와 같이 생략어 복원 결과, 적용된 규칙, 주어가 생략된 서술어가 출력된다.

Fig. 4.

Result of anaphora resolution

표 3과 같이, 실험 결과 총 2,396개의 문장에서 총 2,954개의 주어가 복원되었다. 복원된 주어 중 피해자는 1,571개, 가해자는 1,383개였으며, 올바르게 복원된 피해자는 1,424(90.64%)개, 올바르게 복원된 가해자는 1,272개(91.97%)였다.

Experimental data and experimental results statistics

모델의 성능 파악의 지표로 생략어 복원 분야에서 주로 이용하는 Precision(정밀도), Recall(재현율), F1 score를 사용하며, 아래 식에 따라 계산한다.

Precision=  ''  ''   (1) 
Recall= ''  '' (2) 
F1 score=21Precision+1Recall(3) 

Precision, Recall, F1 score를 이용해 파악한 모델의 주어 복원 성능은 표 4와 같다. 이는 2장에서 언급했던 머신러닝 및 딥러닝 기술을 사용한 모델들과[8]-[11] 비교했을 때 낮지 않은 수준으로 판단한다.

Model performance

딥러닝 기반 생략어 복원 모델인 Electra 모델과의 성능 비교치는 다음 표 5와 같다.

Model performance comparison

실험 진행 중 모델이 문장에서 주어 생략을 탐지했음에도 불구하고 주어 복원에 실패한 경우가 존재했다. 복원 실패의 주요 원인은 ‘하다’(742개 문장에 등장), ‘있다’(333개 문장에 등장), ‘자다’(95개 문장에 등장) 등과 같이 피해자와 가해자를 모두 생략 주어로 가질 수 있는 보편적 서술어의 사용과 합성동사의 사용이었다. 이 경우 문장 안의 다른 구성 요소들을 참고해 Scoring을 진행하도록 하는 규칙을 추가 구축한다면 모델 성능을 향상할 수 있을 것으로 판단한다.

실험 진행 중 4.1장에서 언급한 구문 분석기 오류와 별개로 분석기가 그림 5와 같이 서술어가 아닌 문장성분을 서술어로 판단하는 오류나, 문장 내에서 생략되지 않은 서술어의 주어를 탐지하지 못하는 오류 등이 존재했다. 이는 2단어 이하로 이루어진 짧은 문장이나 20단어 이상으로 이루어진 긴 문장에서 자주 관찰되었다. 구문 분석기의 성능 개선이 이루어진다면 보다 높은 수준의 복원이 가능할 것으로 판단한다.

Fig. 5.

Parsing error-Judging sentence components, not predicates, by predicates


Ⅴ. 결론 및 향후 연구 방향

본 연구에서는 ETRI의 언어 분석 API와 수동으로 구축한 규칙을 통해 성폭력 피해자 조사 면담 진술서의 생략된 주어를 문장 단위로 복원하는 모델을 구현했다.

대다수의 무형대용어 해결 연구에 사용된 머신러닝 또는 딥러닝 모델의 경우 선행어가 window size 내에 존재해야만 생략어 복원이 가능하다는 등의 단점이 있어 본 연구의 목적에 적합하지 않다고 판단했다.

본 연구의 모델은 Parsing 과정을 통해 서술어의 주어 생략을 탐지하고, Scoring 과정에서 규칙에 기반해 서술어의 특성에 중점을 두어 생략 주어를 가해자 또는 피해자로 복원한다.

실험 결과 총 2,396개의 문장에서 총 2,954개의 주어가 복원되었다. 모델의 F1 score는 약 90.79%로, 높은 성능을 보였다.

실험 진행 후 주어 복원이 정상적으로 이루어지지 않은 경우는 다음과 같았다. 첫째는 주어가 생략된 서술어가 ‘하다’, ‘있다’, ‘자다’ 등으로 피해자와 가해자가 주어일 때 모두 사용될 수 있는 경우이다. 둘째는 주어가 생략된 서술어가 합성동사인 경우이다. 셋째는 구문 분석기 오류로 문장 구문 분석이 올바르게 이루어지지 않은 경우이다. 따라서 모델 성능 향상을 위해 보편적인 동사가 사용된 경우와 합성동사가 사용된 경우를 해결할 수 있는 규칙을 추가하고, 보다 정확한 구문 분석기를 이용하는 방향의 향후 연구가 요구된다. 또, Scoring 과정에 새로운 서술어와 기존 데이터셋의 유사성을 판단하는 언어 모델을 추가 도입한다면 복원 적용 범위의 확장을 기대할 수 있을 것이다.

Acknowledgments

이 논문은 2022년도 대검찰청의 지원을 받아 수행된 연구임(No.1275000154-SPO2022A2201진술B)

References

  • J. Shin, J. Shin, E. Jo, Y. Yoon, and J. Jung, "The comparison of CBCA classification model using RoBERTa", Proc. of the Korean Information Science Society Conference, pp. 296–298, Dec. 2021.
  • J. Shin, J. Shin, E. Jo, Y. Yoon and J. Jung, "Comparison of BERT-based Model Performance in CBCA Criteria Classification", Journal of KIISE, Vol. 49, No. 9, pp. 727-734, Sep. 2022. [https://doi.org/10.5626/JOK.2022.49.9.727]
  • Y. Kim and J. Gim, "A Study on Knowledge Embedding Method for Extending Contextual Information of Words", JKIIT, Vol. 20, No. 11, pp. 29-38, Nov. 2022. [https://doi.org/10.14801/jkiit.2022.20.11.29]
  • C. H. Park, "Statistical approach about ellipsis of subjects and verbs", Urimal, No. 32, pp. 39-61, 2013.
  • S. Lappin and H. J. Leass, "An Algorithm for Pronominal Anaphora Resolution", Computational Linguistics, Vol. 20, No. 4, pp. 535–561, Dec. 1994.
  • S. Lim, M. Kwon, J. Kim, and H. Kim, "Korean Proposition Bank Guidelines for ExoBrain", 27th Annual Conference on Human and Language Technology, pp. 250-254, Oct. 2015.
  • Y. Liu, et al., "Roberta: A robustly optimized bert pretraining approach", Conference paper, ICLR Jul. 2019. [https://doi.org/10.48550/arXiv.1907.11692]
  • D. Jacob, et al., "Bert: Pre-training of deep bidirectional transformers for language understanding", arXiv preprint arXiv:1810.04805, , Oct. 2018. [https://doi.org/10.48550/arXiv.1810.04805]
  • S. Lim, C. Lee, and M. G. Jang, "Restoring an Elided title for Encyclopedia QA System", Proc. of the Korean Information Science Society Conference, Vol. 32, No. 2, pp. 541-543, Nov. 2005.
  • J. Ryu, J. H. Lim, S. Lim, and H. Kim, "Korean Zero Anaphora Resolution Guidelines", Korean Language Information Science Society, No. 42, pp. 213-219, Oct. 2017.
  • M. K. Hwang, Y. Kim, D. Ra, S. Lim, and H. Kim, "Restoring Omitted Sentence Constituents in Encyclopedia Documents Using Structural SVM", Journal of Intelligence and Information Systems, Vol. 21, No. 2, pp. 131-150, Jun. 2015. [https://doi.org/10.13088/jiis.2015.21.2.131]
  • Y. Kim, J. Baek, M. Kim, D. Na, and S. Lim, "Convolutional Neural Network-based Zero Anaphora Resolution Technique", Proc. of the Korea Inteligent Information System Society Conference, pp. 22-23, 2018.
  • J. Park, M. Choi, A. Matteson, and C. Lee, "Optimizing ELECTRA-based model for Zero Anaphora Resolution", In Annual Conference on Human and Language Technology, pp. 329-334, 2021.
  • Y. Kim, D. Ra, and S. Lim, "Zero‐anaphora resolution in Korean based on deep language representation model: BERT", ETRI Journal, Vol. 43, No. 2, pp. 299-312, Apr. 2021. [https://doi.org/10.4218/etrij.2019-0441]
  • H. Lee, A. Chang, Y. Peirsman, N. Chambers, M. Surdeanu, and D. Jurafsky, "Deterministic Coreference Resolution Based on Entity-Centric, Precision-Ranked Rules", Computational Linguistics, Vol. 39, No. 4, pp. 885–916, Dec. 2013. [https://doi.org/10.1162/COLI_a_00152]
  • H. Lee, M. Surdeanu, and D. Jurafsky, "A scaffolding approach to coreference resolution integrating statistical and rule-based models", Natural Language Engineering, Vol. 23, No. 5, pp. 733–762, Sep. 2017. [https://doi.org/10.1017/S1351324917000109]
저자소개
전 현 정 (Hyeonjeong Jun)

2020년 3월 ~ 현재 : 동국대학교 정보통신공학과 학부생

관심분야 : 인공지능, 자연어처리

허 여 솔 (Yeosol Heo)

2021년 3월 ~ 현재 : 동국대학교 정보통신공학과 학부생

관심분야 : 인공지능, 자연어처리

홍 진 원 (Jinwon Hong)

2023년 2월 : 동국대학교 정보통신공학과 학부생

관심분야 : 인공지능, 자연어처리

양 기 주 (Gijoo Yang)

1984년 : University of Wisconsin, 전산학 학사

1986년 : University of Michigan, EECS 석사

1991년 : University of Delaware 전산학 박사

1992년 : KT 연구소 선임연구원

1995년 ~ 현재 : 동국대학교 정보통신공학과 교수

관심분야 : 전산학, 인공지능, 자연어처리

Fig. 1.

Fig. 1.
Process of our model

Fig. 2.

Fig. 2.
Parsing error example

Fig. 3.

Fig. 3.
Data preprocessing

Fig. 4.

Fig. 4.
Result of anaphora resolution

Fig. 5.

Fig. 5.
Parsing error-Judging sentence components, not predicates, by predicates

Table 1.

Scoring data

No Data Content
1 apologize The roots of apologetic predicates
2 emotion The roots of emotional expression predicates and the roots of predicates that mainly have the victim as the subject
3 transitiveVerb The roots of transitive verbs
4 violence The roots of predicates that indicate violent behavior and the roots of predicates that mainly have the perpetrator as the subject
5 rebelVerb The roots of predicates related to rebellion
6 sexualAssault Nouns related to sexual assaults
7 body Nouns that describe body parts
8 doingVerb The roots of predicates related to 'do'
9 sufferVerb The roots of predicates related to being harmed
10 victim Nouns related to victim
11 touchVerb The roots of predicates related to physical contact

Table 2.

Scoring rule

Rule Case Scoring
rule1 When object is ‘victim’ and ‘transitiveVerb’ is used ‘가해자’ +10
rule2 When ‘body’ and ‘touchVerb’ is used at the same time ‘가해자’ +10
rule3 When ‘sexualAssault’ and ‘doingVerb’ is used at the same time ‘가해자’ +10
rule4 When ‘sexualAssault’ and ‘sufferVerb’ is used at the same time ‘피해자’ +10
rule5 When ‘rebelVerb’ is used ‘피해자’ +10 or
‘피해자’ +6 or
‘피해자’ +4 or
rule6 When ‘violence’ is used ‘가해자’ +7
rule7 When ‘emotion’ is used ‘가해자’ +3
‘피해자’ +10
rule8 When ‘apologize’ is used ‘가해자’ +5
‘피해자’ +1
rule9 When emotional express -ion and predicates related to ‘feel’ is used at the same time ‘피해자’ +10
rule10 When honorific is used ‘피해자’ +10

Table 3.

Experimental data and experimental results statistics

Restored subjects 2,954
Restored as a victim 1,571
Correctly restored as a victim 1,424
Restored as a perpetrator 1,383
Correctly restored as a perpetrator 1,272

Table 4.

Model performance

Precision Recall F1 score
91.97% 89.64% 90.79%

Table 5.

Model performance comparison

Model Precision
Our model 91.97%
Electra model 80.58%