일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- GIT
- aiffel exploration
- cs231n
- logistic regression
- AIFFEL
- 프로그래머스
- 도커
- 백신후원
- docker exec
- CellPin
- 오블완
- Multi-Resolution Networks for Semantic Segmentation in Whole Slide Images
- HookNet
- IVI
- cocre
- vscode
- 사회조사분석사2급
- 코크리
- 기초확률론
- numpy
- docker
- Jupyter notebook
- docker attach
- 히비스서커스
- Decision Boundary
- airflow
- ssh
- 티스토리챌린지
- WSSS
- Pull Request
- Today
- Total
히비스서커스의 블로그
[기초확률론 7] 기댓값과 분산 본문
기초확률론 일곱번째 포스팅으로 기댓값과 분산에 대해 알아보겠습니다.
저번 시간에는 확률변수와 확률분포함수에 대해 알아보았습니다.
2021.02.12 - [Statistics/Probability_Theory] - [기초확률론 6] 확률변수와 확률분포함수
이번에 살펴볼 내용은 확률변수의 기댓값($E(X)$)과 분산($Var(x)$)에 관한 내용입니다. 앞서 살펴보았듯이 확률변수는 이산형 확률변수와 연속형 확률변수가 존재하였습니다. 이 둘의 기댓값을 구하는 방법은 다릅니다.
기댓값
정의
먼저, 이산형 확률변수 $X$ 가 확률분포함수(=확률질량함수, PMF; Probability Mass Function) $f(x)$를 가지는 경우 다음과 같이 나타냅니다.
$$ \mu = E(X) \equiv \sum_{x \in \mathbb{R}} xf(x) $$
즉, X의 기댓값은 X가 택할 수 있는 가능한 값($x \in \mathbb{R}$)에 각각 그 값을 택할 확률($f(x)$)이 곱해진 가중평균입니다.
다음은 연속형 확률변수 $X$가 확률분포함수(=확률밀도함수, PDF; Probability Density Function) $f(x)$를 가지는 경우 다음과 같이 나타냅니다.
$$ \mu = E(X) \equiv \int_{- \infty}^{\infty} xf(x) dx $$
즉, X의 기댒값은 X가 택할 수 있는 가능한 값($x \in \mathbb{R}$)에 각각 그 값을 택할 확률($f(x)$)이 곱을 적분해준 것입니다.
성질
여기서 기댓값은 놀라운 성질을 가지고 있는데요, 바로 위 식에 $x$뿐 아니라 $x$의 함수 $g(x)$가 들어가도 $g(x)$에 대한 기댓값을 구할 수 있다는 것입니다.
이산형 확률분포일 경우
$$ E[g(X)] = \sum_{x \in \mathbb{R}} g(x)f(x) $$
연속형 확률분포일 경우
$$ E[g(x)] = \int_{- \infty}^{\infty} g(x)f(x) dx $$
특별한 경우
또한, $g(x) = x^{k}, k = 1, 2, 3, ...$와 같이 $x$의 제곱의 형태일 때 이 $g(x) = x^{k}$를 $x$의 $k$차 적률이라 합니다.
이산형 확률분포일 경우
$$ E(X^{k}) = \sum_{x \in \mathbb{R}} x^{k}f(x) $$
연속형 확률분포일 경우
$$ E(X^{k}) = \int_{-\infty}^{\infty} x^{k}f(x) dx $$
분산
지금까지 기댓값이 가지는 의미에 대해서 살펴보았습니다. 기댓값($E(X)$)은 확률변수 $X$의 가능한 값들의 가중평균을 산출해주었습니다. 하지만, 이 값들에 대한 퍼짐의 정도에 대해서는 정보를 담고 있지 않습니다. 예를 들어보겠습니다.
확률변수 $ Y = 0 $, 이때의 확률은 1이고
확률변수 $ Z = -1, 1 $, 이때의 확률은 각각 $\frac{1}{2}$이라고 해봅시다.
두 확률변수의 기댓값은 0으로 갖지만 두 확률변수의 분포는 다르고 이들의 퍼짐의 정도도 다릅니다. 그렇다면 어떻게 이들의 퍼짐정도를 나타낼 수 있을까요? 바로 확률변수$X$와 확률변수$X$의 기댓값$E(X)$의 차이의 제곱에 대한 기댓값을 해주어 나타낼 수 있습니다. 이것이 바로 분산입니다.
정의
$E(X) = \mu$라 할 때,
이산형 확률분포일 경우
$$ \sigma^{2} = Var(X) \equiv E[(X - \mu)^{2}] = \sum_{x \in \mathbb{R}}(x - \mu)^{2}f(x)$$
연속형 확률분포일 경우
$$ \sigma^{2} = Var(X) \equiv E[(X - \mu)^{2}] = \int_{-\infty}^{\infty} (x - \mu)^{2} f(x) dx $$
입니다.
오늘 알아본 기댓값$E(X) = \mu$과 분산$Var(X) = \sigma^{x}$은 확률변수$X$의 분포에 대해서 잘 설명해주는 값들입니다. 다음 시간에는 정규분포에 대해서 알아보겠습니다.
2020.03.19
히비스서커스
'Theory > Statistics' 카테고리의 다른 글
[Column] 중심극한정리(CLT; central limit theorem) (0) | 2021.03.26 |
---|---|
[기초확률론 6] 확률변수와 확률분포함수 (2) | 2021.02.12 |
[기초확률론 5] 독립사건 (0) | 2021.02.05 |
[기초확률론 4] 조건부확률, 곱셈법칙, 베이즈 정리 (0) | 2021.01.29 |
[기초확률론 3] 확률측도의 성질, 균등확률결과를 갖는 표본공간 (0) | 2021.01.22 |