일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 기초확률론
- 히비스서커스
- IVI
- Decision Boundary
- 프로그래머스
- ssh
- aiffel exploration
- 백신후원
- airflow
- docker
- CellPin
- vscode
- Pull Request
- 사회조사분석사2급
- 코크리
- Multi-Resolution Networks for Semantic Segmentation in Whole Slide Images
- HookNet
- numpy
- logistic regression
- docker attach
- 오블완
- GIT
- docker exec
- AIFFEL
- 티스토리챌린지
- cs231n
- 도커
- Jupyter notebook
- cocre
- WSSS
- Today
- Total
히비스서커스의 블로그
[기계학습 1강] MAP(Maximum A Posterior) 본문
※이 내용들은 (KAIST Open Online Course)의 인공지능 및 기계학습 개론 1 Chap. 1강 내용을 기반으로 재구성하였음을 먼저 밝힙니다.※

MLE 떠올려보기
이전 MLE(P(D|θ))에서는 동전이 앞면 나올 확률P(θ)을 고정된 값(= 분포를 따르지 않는 상수의 값)이나 알지 못하는 값으로 가정하고 동전을 던져 나온 결과들을 토대로 가장 그럴듯한(= 가장 높은 가능도를 가지는) 값으로 추정하는 방식이었다.
2021.03.24 - [Statistics/Machine_Learning] - [기계학습 1강] MLE(Maximum Likelihood Estimation)
[기계학습 1강] MLE(Maximum Likelihood Estimation)
※이 내용들은 (KAIST Open Online Course)의 인공지능 및 기계학습 개론 1 Chap. 1강 내용을 기반으로 재구성하였음을 먼저 밝힙니다.※ 먼저 알아둘 것 동전을 던져 나오는 결과가 앞 또는 뒤만 나오는
biology-statistics-programming.tistory.com
MAP 간략 소개
이번 MAP는 베이즈 정리를 활용하는데
P(θ|D)=P(D|θ)P(θ)P(D)
여기서 P(D)는 관측한 사건D이 나올 확률, θ에 대한 사전정보(=확률분포), P(D|θ)는 θ가 주어졌을 때 관측한 사건D가 나올 확률(= 가능도)이다.
즉, MAP는 베이즈 정리를 통해 사후확률(= 확률분포)를 최대화하는 것이라 할 수 있는데 아래와 같이 나타낼 수 있다.
Posterior=Likelihood∗PriorKnowledgeNormalizingConstant
위의 MAP를 구하는 공식에서 P(D)는 중요한 값이 아니다. θ에 관한 정보가 아닌 상수일 뿐이다. 따라서, MAP를 구하는데에는 위에 두 P(D|θ)와 P(θ)를 고려하여 P(θ|D)∝P(D|θ)P(θ)를 살펴보자.
P(D|θ)
이는 앞의 MLE에서 구하는 과정에서 보았듯이 가능도를 나타내는 것이다. 동전을 여러 번 던지는 것은 이항분포를 따르므로 P(D|θ)=θaH(1−θ)aT (aH는 동전이 앞면 나온 수, aT는 동전이 뒷면 나온 수)이다.
P(θ) 와 P(θ|D) 같은 형태(공액)로 만들어주기
앞서 말했듯이 P(θ)는 θ에 대한 사전정보로 확률분포를 가지고, P(θ|D)는 사후확률로 확률분포를 가지고 있다. 베이지안에서는 사전정보의 확률분포와 사후확률의 확률분포가 같은 형태로 만들어 사용하는데 이를 공액이라고 한다.
위의 동전 던지기에서 가능도(= P(D|θ))는 이항분포를 따른다고 하였는데 가능도가 이항분포로 주어질 때 사전정보의 확률분포(= P(θ))와 사후확률의 확률분포(= P(θ|D))가 동일한 분포를 갖게 해줄 수 있는 것이 바로 베타분포이다.
Beta Distribution
베타분포는 α와 β 각각의 감마함수를 α와 β 합의 감마함수로 나눠준 꼴로 다음과 같다.
B(α,β)=Γ(α)Γ(β)Γ(α+β)
베타분포에 쓰인 감마함수는 다음과 같다.
Γ(x)=∫∞0ux−1e−udu
P(θ)
사전정보의 확률분포를 다음과 같이 넣어주자.
P(θ)=θα−1(1−θ)β−1B(α,β)
MLE와 MAP
가능도함수(=P(D|θ))에서의 MLE를 구해보면 ˆθ=aHaH+aT를 구하였다.
사후확률이 가능도함수와 사전확률과 비례하므로
P(θ|D)∝P(D|θ)P(θ)=∝θaH(1−θ)aTθα−1(1−θ)β−1=θaH+α−1(1−θ)aT+β−1에서
결과적으로 ˆθ=aH+α−1aH+α+aT+β−2를 구하였다.
정리해보자면 MAP는 MLE와 달리 사전정보를 고려한 확률의 추정량이다. 하지만, 이는 사건이 많이 발생할수록(aH, aT의 크기가 커질수록) 사전정보가 미치는 영향력을 줄어들게 되어있다. 또한, Beta Distribution에 대한 파라미터라고 볼 수 있는 α,β는 최적의 값을 찾는 과정이 필요하다.
-히비스서커스-
'Theory > Machine Learning' 카테고리의 다른 글
[기계학습 2강] Decision Tree & Information Gain (0) | 2021.04.02 |
---|---|
[기계학습 2강] Rule Based Machine Learning (0) | 2021.03.31 |
[기계학습 1강] MLE(Maximum Likelihood Estimation) (0) | 2021.03.24 |
[Concept] 시계열 예측 지표 (MSE, MAE, RMSE, MAPE) (0) | 2021.03.06 |
[Concept] 회귀를 위한 다양한 모델 (feat. Regressor) (0) | 2021.02.04 |