히비스서커스의 블로그

scikit-learn datasets (feat. Toy datasets 변수정보) 본문

Theory/Dataset Information

scikit-learn datasets (feat. Toy datasets 변수정보)

HibisCircus 2021. 1. 8. 00:34
728x90

scikit-learn

scikit-learn datasets이란?

  • 우리가 실제로 데이터 분석을 할 때 얻게 되는 실제 데이터에 대한 알고리즘을 구현하기 위해 머신러닝 커뮤티니에 일반적으로 사용하는 큰 데이셋들
  • 데이터의 통계적 속성을 제어하면서 데이터 집합의 크기가 미치는 영향을 평가하기 위해 합성 데이터를 생성할 수 있음
  • 일반적으로 Toy datasetsReal world datasets 으로 크게 나누어진다.

일반적으로 데이터분석이나 머신러닝에 쓰이는 자료는 Toy Datasets이므로 Toy Datasets에 대해 한 번 살펴보자

Toy Datasets

1) Boston house prices dataset (Target - 연속형)

  • Attributes: 13 numeric/categorical predictive, target(보스턴 주택 가격의 중앙값) 총 506개의 방 정보
    • CRIM : 자치시 별 1인당 범죄율,
    • ZN : 25000평방 피트피트를 초과하는 거주지역의 비율,
    • INDUS : 비소매상업지역이 점유하고 있는 토지의 비율,
    • CHAS : 찰스강에 대한 더미변수로 강 경계면일 경우 1, 그렇지 않을 경우 0
    • NOX : 10ppm 당 일산화 질소 농도
    • RM : 주택 1가구 당 평균 방의 개수
    • AGE : 1940년 이전에 지어진 소유주가 소유한 주택의 비율
    • DIS: 5개의 보스턴 고용센터까지 접근성 지수
    • RAD : 방사형 고속도로 접근성에 대한 지수
    • TAX : $ 10000 당 재산 세율
    • PTRATIO : 자차시 별 학생-교사 비율
    • B : 1000(도시별 흑인 비율-0.62)^2
    • LSTAT : 모집단의 하위계층의 비율
    • MEDV : 본인소유 주택가격

2) Iris plants dataset (Target - 범주형)

  • Class(target): 3가지(Setosa, Versicolour, Virginica - 붓꽃의 이름) 각각 50개씩 총 150개의 붓꽃의 정보
  • Attributes: 4 numeric predictive(꽃받침-sepal과 꽃잎-petal의 가로-length 세로-width 길이 단위는 cm)

3) Diabetes dataset (Target - 연속형)

  • Attributes:
    • age : 나이
    • sex : 성별
    • bmi : 체질량지수
    • bp : 평균 혈압
    • s1 tc, T-세포(백혈구 일종)
    • s2 ldl, 저밀도 지질단백질
    • s3 hdl, 고밀도 지질단백질
    • s4 tch, 갑상선 자극 호르몬
    • s5 ltg, 라모트리진 (항경련제 일종)
    • s6 glu, 혈당 수치

4) Optical recognition of handwritten digits dataset

  • Class(target): 10가지 (0~9) 각각 총 1797개의 손글씨 정보
  • Attributes: 64 numeric predictive(각 이미지의 8X8 픽셀 안에 0~16 범위의 값)

5) Linnerrud dataset (Target - 연속형, 종속변수가 2개 이상이므로 다변량 분석에 주로 사용)

  • 3가지 운동변수(턱걸이, 윗못 일으켜기 및 멀리뛰기 각각의 변수는 연속형 변수임) 총 20명의 정보
  • Attributes: 3가지 생리학적 변수(체중, 허리 및 맥박) numeric predictive

6) Wine recognition dataset

  • Class(target): (Class_0, Class_1, Class_2) 총 178개의 wine 정보
  • Attributes: 13 numeric/categorical predictive
    • Alcohol : 알코올
    • Malic Acid : 말산
    • Ash : 회분(음식물 속에 들어 있는 무기물)
    • Alaclinity of Ash : 회분의 알칼리도
    • Magnesium : 마그네슘
    • Total Phenols : 총 페놀
    • Flavanoids : 플라보노이드 폴리페놀
    • Nonflavanoid Phenols : 비 플라보노이드 폴리페놀
    • Proanthocyanins : 프로안토시아닌
    • Colour Intensity : 색상 강도
    • Hue : 색조
    • OD280 / OD315 of diluted wines : 희석된 와인의 OD280 / OD315 (OD는 흡광도를 나타내는 정도 즉, 탁한 정도)
    • Proline : 프롤린

7) Breast cancer wisconsin (diagnostic) dataset - (Target - 범주형)

  • Class(target): 2가지 (1 : 양성, 0 : 악성) 총 569명의 여성의 세포에 대한 정보
  • Attributes: 30 numeric/categorical predictive (아래의 10가지 정보에 대해 평균값, 표준오차, 제일 큰 3개의 값의 평균값)
    • Radius : 반지름
    • Texture : 질감
    • perimeter : 둘레
    • area : 면적
    • smoothness : 부드러움
    • conpactness : 작은 정도
    • concavity : 오목함
    • concave points : 오목한 점
    • symmetry : 대칭
    • fractal dimension : 프랙탈 차원
    변수의 해석 참고:
  • Boston house prices dataset
    Wine recognition dataset
    Breast cancer wisconsin (diagnostic) dataset

요약

scikit datasets에서 Toy datasets중에서

  • Target(반응변수)가 연속형인 데이터: Boston house prices dataset, Diabetes dataset, Linnerrud dataset(다변량)
  • Target(반응변수)가 범주형인 데이터: Iris plants dataset, Optical recognition of handwritten digits dataset, Wine recognition dataset, Breast cancer wisconsin (diagnostic) dataset
    이 존재함

즉, Target을 분류할 수 있는 데이터는

  • Iris plants dataset, Optical recognition of handwritten digits dataset, Wine recognition dataset, Breast cancer wisconsin (diagnostic) dataset

이 데이터들을 분류 예측할 수 있는 머신러닝 모델들은

  • DecsionTree, RandomForest, SVM, SGD, LogsiticClassfier 등

이 있다!



 

-히비스서커스-

728x90

'Theory > Dataset Information' 카테고리의 다른 글

챗봇데이터 정보  (0) 2021.03.07
Chest X-Ray Images (Pneumonia) 데이터 정보  (0) 2021.03.06
CIFAR-10 dataset 정보  (0) 2021.02.23
MovieLens 데이터 정보  (0) 2021.02.02
Speech Commands Data set  (0) 2021.01.22