일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- Pull Request
- WSSS
- 도커
- docker
- Jupyter notebook
- 코크리
- 백신후원
- vscode
- docker attach
- ssh
- Decision Boundary
- 사회조사분석사2급
- numpy
- Multi-Resolution Networks for Semantic Segmentation in Whole Slide Images
- 프로그래머스
- cocre
- 티스토리챌린지
- logistic regression
- CellPin
- IVI
- 오블완
- airflow
- HookNet
- AIFFEL
- 히비스서커스
- GIT
- docker exec
- cs231n
- aiffel exploration
- 기초확률론
- Today
- Total
히비스서커스의 블로그
CIFAR-10 dataset 정보 본문
CIFAR-10 이미지를 많이 들어보고 보았지만 정확하게 어떤 내용을 담고있는지는 정리를 안해본 것 같아 해보려 한다.
자세한 정보는 이곳에서 확인이 가능하다.
www.cs.toronto.edu/~kriz/cifar.html
대략적인 정보를 요약해보자면
먼저 dataset 은 비행기, 자동차, 새, 고양이, 사슴, 개, 개구리, 말, 배, 트럭 등 총 10가지 클래스 사진이 6000장 씩 존재하여 총 60000장을 가진다. 여기서 50000장은 Train dataset, 10000장은 Test dataset로 사용된다.
이렇게 나뉜 dataset 은 10000개의 이미지가 섞여 있는 5개의 Training batch와 1개의 Test batch로 나뉜다. Test batch 각 클래스에서 무작위로 선택한 이미지가 정확히 1000개 포함된다. (1000 X 10 = 10000) 이와 달리 Training batch에는 나머지 이미지가 무작위 순서로 포함되지만 일부 Training batch에는 한 클래스의 이미지가 다른 클래스보다 더 많이 포함될 수 있다. (즉, 비행기는 990개, 자동차는 1110개 등등 으로 비율이 정확하지 않을 수 있다.) 하지만 5개의 Trainging batch에는 각 클래스에 정확히 5000개의 이미지가 포함된다. (즉, 총 5개의 Training batch에서 10개의 각 클래스의 이미지 수는 5000개씩 50000개를 이룬다.)
자동차와 트럭이 겹치지 않을까 하는 염려는 접어두어도 된다. 각 클래스는 완전히 상호 배타적이기 때문이다. 가령, 자동차에는 sedans, SUVs 등의 차량이 들어가고 트럭에는 큰 트럭만 해당되며 둘 다 픽업 트럭을 포함하지 않는다.
-히비스서커스-
'Theory > Dataset Information' 카테고리의 다른 글
챗봇데이터 정보 (0) | 2021.03.07 |
---|---|
Chest X-Ray Images (Pneumonia) 데이터 정보 (0) | 2021.03.06 |
MovieLens 데이터 정보 (0) | 2021.02.02 |
Speech Commands Data set (0) | 2021.01.22 |
scikit-learn datasets (feat. Toy datasets 변수정보) (0) | 2021.01.08 |