히비스서커스의 블로그

KorQuAD 2.0 데이터셋 정보 본문

Theory/Dataset Information

KorQuAD 2.0 데이터셋 정보

HibisCircus 2021. 3. 18. 21:34
728x90

 

이미지출처:(korquad.github.io/)

BERT모델을 이용하여 질문에 대한 응답하는 인공지능(= 기계독해 - Machine Reading Comprehension, MRC)을 만들어보자. 이를 진행하기 위해 사용한 데이터셋은 KorQuAD2.0로 LG CNS에서 구축한 대규모 질의응답 데이터셋이다. 이는 미국 스탠퍼드 대학에서 구축한 대용량 데이터셋인 SQuAD를 벤치마킹한 것이다. 기계독해 태스크에서는 머신이 자연어의 의미를 정확하게 이해하고 사람의 질문에 정확하게 답변할 수 있는지가 매우 중요한데 SQuAD 데이터셋은 언어 모델의 선능을 측정하는 가장 표준적인 벤치마크로 인정받고 있다. KorQuAD 또한, 딥러닝 기반의 질의응답, 한국어 독해능력을 측정하는 가장 중요한 태스크로 손꼽히고 있다. 

 

 

 

SQuAD에 관한 정보

rajpurkar.github.io/SQuAD-explorer/

 

The Stanford Question Answering Dataset

What is SQuAD? Stanford Question Answering Dataset (SQuAD) is a reading comprehension dataset, consisting of questions posed by crowdworkers on a set of Wikipedia articles, where the answer to every question is a segment of text, or span, from the correspo

rajpurkar.github.io

 

KorQuAD에 관한 정보

korquad.github.io/

 

KorQuAD

What is KorQuAD 2.0? KorQuAD 2.0은 KorQuAD 1.0에서 질문답변 20,000+ 쌍을 포함하여 총 100,000+ 쌍으로 구성된 한국어 Machine Reading Comprehension 데이터셋 입니다. KorQuAD 1.0과는 다르게 1~2 문단이 아닌 Wikipedia artic

korquad.github.io

 

 

이제 KorQuAD에 관한 정보를 살펴보자. 내용은 KorQuAD에 관한 논문을 참고하였다.

 

 

KorQuAD 2.0은 다채로운 구조와 길이를 가진 문서 레벨에서의 기계독해(다양한 양식 구조와 다양한 문서 레벨에서의 기계독해)를 위해 구축한 데이터셋이다. 크게 2가지 방식, 크라우드 소싱과 기존 KorQuAD 1.0 데이터 중 일부를 2.0 타입으로 변환하는 방식을 통해 데이터를 구축하였다고 한다.

 

 

데이터의 구성은 다음과 같다. 질문은 총 102,960개가 있고, 문서 47,950개에 평균 2.15개의 질문이 매칭된다. Train data로는 38,506 문서(83, 486개의 질문), Validation data로는 4,739문서(10,165개의 질문), Test data로는 4,726문서(9,309개의 질문)로 나누었다. 

 

 

데이터의 일부를 한 번 보자면 다음과 같다.

 

context

1989년 2월 15일 여의도 농민 폭력 시위를 주도한 혐의(폭력행위등처벌에관한법률위반)으로 지명수배되었다. 1989년 3월 12일 서울지방검찰청 공안부는 임종석의 사전구속영장을 발부받았다. 같은 해 6월 30일 평양축전에 임수경을 대표로 파견하여 국가보안법위반 혐의가 추가되었다. 경찰은 12월 18일~20일 사이 서울 경희대학교에서 임종석이 성명 발표를 추진하고 있다는 첩보를 입수했고, 12월 18일 오전 7시 40분 경 가스총과 전자봉으로 무장한 특공조 및 대공과 직원 12명 등 22명의 사복 경찰을 승용차 8대에 나누어 경희대학교에 투입했다. 1989년 12월 18일 오전 8시 15분 경 서울청량리경찰서는 호위 학생 5명과 함께 경희대학교 학생회관 건물 계단을 내려오는 임종석을 발견, 검거해 구속을 집행했다. 임종석은 청량리경찰서에서 약 1시간 동안 조사를 받은 뒤 오전 9시 50분 경 서울 장안동의 서울지방경찰청 공안분실로 인계되었다.

 

question

임종석이 여의도 농민 폭력 시위를 주도한 혐의로 지명수배 된 날은?

 

answer

1989년 2월 15일

 

 

 

이러한 데이터를 이용하여 context와 question이 주어졌을때 answer를 맞추도록 하는 모델을 설계하기 위한 데이터 전처리 방법은 아래와 같다. 

 

문장 :: '1839년 파우스트을 읽었다.'

 

띄어쓰기 단위 정보관리 :: ['1839년', '파우스트을', '읽었다.'] :: 어절에 관여함

글자별 어절번호 부여 :: ['1','8','3','9','년','파','우','스','트','을','읽','었','다','.'] : [0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2]

Subword Segmentation(SentencePiece model을 사용하여 word token 생성)

:: ['▁1839', '년', '▁', '파우스트', '을', '▁읽', '었다', '.'] : [0, 2, 5]

 

여기서 원하는 답이 단어가 될 수도 있고, 문장이 될 수도 있다. 따라서, 한 문단의 내용을 word token 단위로 바꿔준 후 정답이 시작하는 단어와 끝나는 단어의 인덱스를 사용하여 답을 내는 방법을 사용하는 것이다.

 

 

 

-히비스서커스-

 

 

 

728x90

'Theory > Dataset Information' 카테고리의 다른 글

DIV2K 데이터셋 정보  (0) 2021.03.09
챗봇데이터 정보  (0) 2021.03.07
Chest X-Ray Images (Pneumonia) 데이터 정보  (0) 2021.03.06
CIFAR-10 dataset 정보  (0) 2021.02.23
MovieLens 데이터 정보  (0) 2021.02.02