일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- CellPin
- 프로그래머스
- 히비스서커스
- 티스토리챌린지
- 코크리
- IVI
- numpy
- 백신후원
- logistic regression
- ssh
- aiffel exploration
- docker exec
- vscode
- Decision Boundary
- Multi-Resolution Networks for Semantic Segmentation in Whole Slide Images
- Pull Request
- GIT
- AIFFEL
- WSSS
- HookNet
- docker attach
- cs231n
- Jupyter notebook
- docker
- 사회조사분석사2급
- 도커
- cocre
- 기초확률론
- airflow
- 오블완
Archives
- Today
- Total
히비스서커스의 블로그
챗봇데이터 정보 본문
728x90
송영숙님이 모은 데이터를 사용하였다. 송영숙님이 제작하신 데이터 경로는 다음과 같다.
github.com/songys/Chatbot_data
이곳에 설명에 의하면 데이터는 다음카페 "사랑보다 아름다운 실연"에서 자주 나오는 이야기들을 참고하여 제작하였다고 한다. 카페의 일정 등급 이상의 멤버만 글을 읽을 수 있어서 카페에 관한 자세한 설명은 알 수 없으나 '너무너무 힘들어요'페이지나 '고민상담실'페이지가 보이는 것으로 보아 고민을 상담하는 카페인 것 같다. 또한, '사랑과 이별의 끝말잇기'페이지와 '1000문 1000답'페이지가 존재하는 것으로 보아 어떤 문장에 이어지는 문장들(데이터들이라고 할 수 있겠다.)이 많은 것으로 보인다.
이를 토대로 송영숙님이 만드신 데이터들의 구성은 다음과 같다고 한다.
Q는 주어질 문장이고 A는 이에 대한 대답이며 label은 0: 일상다반사, 1: 이별(부정), 2: 사랑(긍정)이다.
챗봇 트레이닝용 문답 페어 (Q-A-label 짝을 이루는 문장들)가 11876 쌍이 존재한다.
이를 기반으로 챗봇을 만든다면 인간의 감정을 어느정도 감안할 수 있는 챗봇이 생성될 것이라 기대할 수 있다! (문장을 생성하기보다는 A안에서 가장 적합하다고 생각이 드는 문장을 꺼낼 것이지만)
-히비스서커스-
728x90
'Theory > Dataset Information' 카테고리의 다른 글
KorQuAD 2.0 데이터셋 정보 (0) | 2021.03.18 |
---|---|
DIV2K 데이터셋 정보 (0) | 2021.03.09 |
Chest X-Ray Images (Pneumonia) 데이터 정보 (0) | 2021.03.06 |
CIFAR-10 dataset 정보 (0) | 2021.02.23 |
MovieLens 데이터 정보 (0) | 2021.02.02 |