일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- 티스토리챌린지
- ssh
- airflow
- WSSS
- cs231n
- 기초확률론
- 도커
- docker attach
- 코크리
- cocre
- 오블완
- CellPin
- 프로그래머스
- IVI
- AIFFEL
- logistic regression
- Decision Boundary
- 백신후원
- docker exec
- Multi-Resolution Networks for Semantic Segmentation in Whole Slide Images
- Pull Request
- Jupyter notebook
- vscode
- 히비스서커스
- aiffel exploration
- numpy
- 사회조사분석사2급
- GIT
- HookNet
- docker
Archives
- Today
- Total
히비스서커스의 블로그
scikit-learn datasets (feat. Toy datasets 변수정보) 본문
Theory/Dataset Information
scikit-learn datasets (feat. Toy datasets 변수정보)
HibisCircus 2021. 1. 8. 00:34728x90
scikit-learn datasets이란?
- 우리가 실제로 데이터 분석을 할 때 얻게 되는 실제 데이터에 대한 알고리즘을 구현하기 위해 머신러닝 커뮤티니에 일반적으로 사용하는 큰 데이셋들
- 데이터의 통계적 속성을 제어하면서 데이터 집합의 크기가 미치는 영향을 평가하기 위해 합성 데이터를 생성할 수 있음
- 일반적으로 Toy datasets과 Real world datasets 으로 크게 나누어진다.
일반적으로 데이터분석이나 머신러닝에 쓰이는 자료는 Toy Datasets이므로 Toy Datasets에 대해 한 번 살펴보자
Toy Datasets
1) Boston house prices dataset (Target - 연속형)
- Attributes: 13 numeric/categorical predictive, target(보스턴 주택 가격의 중앙값) 총 506개의 방 정보
- CRIM : 자치시 별 1인당 범죄율,
- ZN : 25000평방 피트피트를 초과하는 거주지역의 비율,
- INDUS : 비소매상업지역이 점유하고 있는 토지의 비율,
- CHAS : 찰스강에 대한 더미변수로 강 경계면일 경우 1, 그렇지 않을 경우 0
- NOX : 10ppm 당 일산화 질소 농도
- RM : 주택 1가구 당 평균 방의 개수
- AGE : 1940년 이전에 지어진 소유주가 소유한 주택의 비율
- DIS: 5개의 보스턴 고용센터까지 접근성 지수
- RAD : 방사형 고속도로 접근성에 대한 지수
- TAX : $ 10000 당 재산 세율
- PTRATIO : 자차시 별 학생-교사 비율
- B : 1000(도시별 흑인 비율-0.62)^2
- LSTAT : 모집단의 하위계층의 비율
- MEDV : 본인소유 주택가격
2) Iris plants dataset (Target - 범주형)
- Class(target): 3가지(Setosa, Versicolour, Virginica - 붓꽃의 이름) 각각 50개씩 총 150개의 붓꽃의 정보
- Attributes: 4 numeric predictive(꽃받침-sepal과 꽃잎-petal의 가로-length 세로-width 길이 단위는 cm)
3) Diabetes dataset (Target - 연속형)
- Attributes:
- age : 나이
- sex : 성별
- bmi : 체질량지수
- bp : 평균 혈압
- s1 tc, T-세포(백혈구 일종)
- s2 ldl, 저밀도 지질단백질
- s3 hdl, 고밀도 지질단백질
- s4 tch, 갑상선 자극 호르몬
- s5 ltg, 라모트리진 (항경련제 일종)
- s6 glu, 혈당 수치
4) Optical recognition of handwritten digits dataset
- Class(target): 10가지 (0~9) 각각 총 1797개의 손글씨 정보
- Attributes: 64 numeric predictive(각 이미지의 8X8 픽셀 안에 0~16 범위의 값)
5) Linnerrud dataset (Target - 연속형, 종속변수가 2개 이상이므로 다변량 분석에 주로 사용)
- 3가지 운동변수(턱걸이, 윗못 일으켜기 및 멀리뛰기 각각의 변수는 연속형 변수임) 총 20명의 정보
- Attributes: 3가지 생리학적 변수(체중, 허리 및 맥박) numeric predictive
6) Wine recognition dataset
- Class(target): (Class_0, Class_1, Class_2) 총 178개의 wine 정보
- Attributes: 13 numeric/categorical predictive
- Alcohol : 알코올
- Malic Acid : 말산
- Ash : 회분(음식물 속에 들어 있는 무기물)
- Alaclinity of Ash : 회분의 알칼리도
- Magnesium : 마그네슘
- Total Phenols : 총 페놀
- Flavanoids : 플라보노이드 폴리페놀
- Nonflavanoid Phenols : 비 플라보노이드 폴리페놀
- Proanthocyanins : 프로안토시아닌
- Colour Intensity : 색상 강도
- Hue : 색조
- OD280 / OD315 of diluted wines : 희석된 와인의 OD280 / OD315 (OD는 흡광도를 나타내는 정도 즉, 탁한 정도)
- Proline : 프롤린
7) Breast cancer wisconsin (diagnostic) dataset - (Target - 범주형)
- Class(target): 2가지 (1 : 양성, 0 : 악성) 총 569명의 여성의 세포에 대한 정보
- Attributes: 30 numeric/categorical predictive (아래의 10가지 정보에 대해 평균값, 표준오차, 제일 큰 3개의 값의 평균값)
- Radius : 반지름
- Texture : 질감
- perimeter : 둘레
- area : 면적
- smoothness : 부드러움
- conpactness : 작은 정도
- concavity : 오목함
- concave points : 오목한 점
- symmetry : 대칭
- fractal dimension : 프랙탈 차원
- Boston house prices dataset
Wine recognition dataset
Breast cancer wisconsin (diagnostic) dataset
요약
scikit datasets에서 Toy datasets중에서
- Target(반응변수)가 연속형인 데이터: Boston house prices dataset, Diabetes dataset, Linnerrud dataset(다변량)
- Target(반응변수)가 범주형인 데이터: Iris plants dataset, Optical recognition of handwritten digits dataset, Wine recognition dataset, Breast cancer wisconsin (diagnostic) dataset
이 존재함
즉, Target을 분류할 수 있는 데이터는
- Iris plants dataset, Optical recognition of handwritten digits dataset, Wine recognition dataset, Breast cancer wisconsin (diagnostic) dataset
이 데이터들을 분류 예측할 수 있는 머신러닝 모델들은
- DecsionTree, RandomForest, SVM, SGD, LogsiticClassfier 등
이 있다!
-히비스서커스-
728x90
'Theory > Dataset Information' 카테고리의 다른 글
챗봇데이터 정보 (0) | 2021.03.07 |
---|---|
Chest X-Ray Images (Pneumonia) 데이터 정보 (0) | 2021.03.06 |
CIFAR-10 dataset 정보 (0) | 2021.02.23 |
MovieLens 데이터 정보 (0) | 2021.02.02 |
Speech Commands Data set (0) | 2021.01.22 |