히비스서커스의 블로그

CIFAR-10 dataset 정보 본문

Theory/Dataset Information

CIFAR-10 dataset 정보

HibisCircus 2021. 2. 23. 21:27
728x90

CIFAR-10 이미지를 많이 들어보고 보았지만 정확하게 어떤 내용을 담고있는지는 정리를 안해본 것 같아 해보려 한다.

 

 

자세한 정보는 이곳에서 확인이 가능하다.

www.cs.toronto.edu/~kriz/cifar.html

 

CIFAR-10 and CIFAR-100 datasets

< Back to Alex Krizhevsky's home page The CIFAR-10 and CIFAR-100 are labeled subsets of the 80 million tiny images dataset. They were collected by Alex Krizhevsky, Vinod Nair, and Geoffrey Hinton. The CIFAR-10 dataset The CIFAR-10 dataset consists of 60000

www.cs.toronto.edu

 

 

대략적인 정보를 요약해보자면

 

먼저 dataset 은 비행기, 자동차, 새, 고양이, 사슴, 개, 개구리, 말, 배, 트럭 등 총 10가지 클래스 사진이 6000장 씩 존재하여 총 60000장을 가진다. 여기서 50000장은 Train dataset, 10000장은  Test dataset로 사용된다.

 

 

CIFAR-10  각 클래스 별 10개씩 random sample

 

 

이렇게 나뉜 dataset 은 10000개의 이미지가 섞여 있는 5개의 Training batch와 1개의 Test batch로 나뉜다. Test batch 각 클래스에서 무작위로 선택한 이미지가 정확히 1000개 포함된다. (1000 X 10 = 10000) 이와 달리 Training batch에는 나머지 이미지가 무작위 순서로 포함되지만 일부 Training batch에는 한 클래스의 이미지가 다른 클래스보다 더 많이 포함될 수 있다. (즉, 비행기는 990개, 자동차는 1110개 등등 으로  비율이 정확하지 않을 수 있다.) 하지만 5개의 Trainging batch에는 각 클래스에 정확히 5000개의 이미지가 포함된다. (즉, 총 5개의 Training batch에서 10개의 각 클래스의 이미지 수는 5000개씩 50000개를 이룬다.)

 

자동차와 트럭이 겹치지 않을까 하는 염려는 접어두어도 된다. 각 클래스는 완전히 상호 배타적이기 때문이다. 가령, 자동차에는 sedans, SUVs 등의 차량이 들어가고 트럭에는 큰 트럭만 해당되며 둘 다 픽업 트럭을 포함하지 않는다.

 

 

 

 

-히비스서커스-

728x90