히비스서커스의 블로그

챗봇데이터 정보 본문

Theory/Dataset Information

챗봇데이터 정보

HibisCircus 2021. 3. 7. 10:29
728x90

송영숙님이 모은 데이터를 사용하였다. 송영숙님이 제작하신 데이터 경로는 다음과 같다.

 

github.com/songys/Chatbot_data

 

songys/Chatbot_data

Chatbot_data_for_Korean. Contribute to songys/Chatbot_data development by creating an account on GitHub.

github.com

 

이곳에 설명에 의하면 데이터는 다음카페 "사랑보다 아름다운 실연"에서 자주 나오는 이야기들을 참고하여 제작하였다고 한다. 카페의 일정 등급 이상의 멤버만 글을 읽을 수 있어서 카페에 관한 자세한 설명은 알 수 없으나 '너무너무 힘들어요'페이지나 '고민상담실'페이지가 보이는 것으로 보아 고민을 상담하는 카페인 것 같다. 또한, '사랑과 이별의 끝말잇기'페이지와 '1000문 1000답'페이지가 존재하는 것으로 보아 어떤 문장에 이어지는 문장들(데이터들이라고 할 수 있겠다.)이 많은 것으로 보인다.

 

 

이를 토대로 송영숙님이 만드신 데이터들의 구성은 다음과 같다고 한다. 

 

이미지 출처 : (github.com/songys/Chatbot_data)

 

Q는 주어질 문장이고 A는 이에 대한 대답이며 label은 0: 일상다반사, 1: 이별(부정), 2: 사랑(긍정)이다.

챗봇 트레이닝용 문답 페어 (Q-A-label 짝을 이루는 문장들)가 11876 쌍이 존재한다. 

 

 

이를 기반으로 챗봇을 만든다면 인간의 감정을 어느정도 감안할 수 있는 챗봇이 생성될 것이라 기대할 수 있다! (문장을 생성하기보다는 A안에서 가장 적합하다고 생각이 드는 문장을 꺼낼 것이지만)

 

 

 

-히비스서커스-

 

728x90

'Theory > Dataset Information' 카테고리의 다른 글

KorQuAD 2.0 데이터셋 정보  (0) 2021.03.18
DIV2K 데이터셋 정보  (0) 2021.03.09
Chest X-Ray Images (Pneumonia) 데이터 정보  (0) 2021.03.06
CIFAR-10 dataset 정보  (0) 2021.02.23
MovieLens 데이터 정보  (0) 2021.02.02