Personal Perspective

Properties of Probability

2017-01-09


Dice and Coin

특이하게 생긴 주사위와 동전을 던지는 실험을 생각해보자. 이 경우 아래와 같은 확률을 갖게 된다고 가정하자.

앞면 뒷면 Sum
1 1/16 1/48 1/12
2 1/16 1/48 1/12
3 1/8 1/24 1/6
4 1/8 1/24 1/6
5 1/8 1/24 1/6
6 1/4 1/12 1/3
Sum 3/4 1/4 1

주사위의 눈을 $X$로 동전의 면을 $Y$로 표현하면 총 가능한 상태는 열두 가지가 있으며 각각의 상태는 $(X, Y)$의 순서쌍으로 표현할 수 있다. $X=x$, 그리고 $Y=y$로 특정 값을 가질 때의 확률을 $p(X=x, Y=y)$ 혹은 줄여서 $p(x, y)$로 표현하며 $p(X, Y)$를 joint probability distribution이라고 한다.

Sum Rule

$$p(X=x) = p(x) = \sum_{y \in \mathscr{Y}} p(X=x, Y=y)$$

이때 $p(X)$를 $X$의 marginal probability distribution이라고 한다.

즉, 모든 $y \in \mathscr{Y}$에 대해 $p(x, y)$를 전부 더하면 $p(x)$를 얻는다.

Product Rule

$$p(x, y) = p(x)p(y|x)$$

Joint probability(결합 분포)는 marginal probability와 conditional probability(조건부 확률)의 곱으로 표현된다.

Bayes Theorem

$$p(x|y) = \frac{p(y|x)p(x)}{p(y)}$$

위의 sum rule과 product rule을 합쳐서 위의 베이즈 정리를 얻을 수 있다. 명제 $x$의 믿음의 정도가 $y$에 대한 정보로 인해서 얼마나 어떻게 변해야 하는지는 베이즈 정리로 결정된다. 위의 식을 해석하면 다음과 같다. $y$라는 새로운 정보를 얻었을 때 $x$에 대한 믿음이($p(x|y)$) 기존의 $x$에 대한 믿음($p(x)$)으로부터 어떻게 변하는지는 위의 식을 통해서 계산할 수 있다. 베이즈 정리는 우리가 믿음을 어떤 방향으로 정확히 얼마만큼 변화시켜야 하는지 알려준다.

Updating Belief

Hello world for Bayes theorem.

좀비 아포칼립스가 일어났다. 좀비들은 종종 마을을 습격하는데 좀비에 물린 사람은 일정 기간의 잠복기가 지난 후 좀비로 변한다. 사람들은 좀비에 감염되었는지를 확인하는 방법을 만들었다. 이 방법은 99% 확률로 감염되었는지를 확인할 수 있다. 조금 더 엄밀하게 말하면, 감염된 사람에게 검사했을 때 99%의 경우 감염이 되었음을 판단할 수 있으며 감염되지 않은 사람에게 검사했을 때 99%의 경우 감염이 되지 않았음을 판단할 수 있다. 마을 총인원의 1%가 물렸다면 이 검사를 통해 감염자라는 판단을 받은 사람은 얼마의 확률로 정말 감염되었을까?

$Z=1$이 물렸음을 나타내고, $+$가 검사 결과가 양성이 나왔음을 의미한다고 하자.

\begin{align} p(Z=1|+) & = \frac{p(+|Z=1)p(Z=1)}{p(+)} \\ & = \frac{p(+|Z=1)p(Z=1)}{\sum_{Z} p(+, Z)} \\ & = \frac{p(+|Z=1)p(Z=1)}{p(+|Z=0)p(Z=0) + p(+|Z=1)p(Z=1)} \\ & = \frac{0.99 \times 0.01}{0.01 \times 0.99 + 0.99 \times 0.01} \\ & = \frac{1}{2} \\ \end{align}

위의 예시가 말해주는 것은 엄밀한 추론의 과정이 직관적이지 않을 수 있다는 것이다. 양성 반응이 나왔다면 실제로 감염되었을 확률이 높아야 한다는 것은 직관적으로 알 수 있다. 하지만 정확한 값이 얼마인지 판단하기는 쉽지 않다. 베이즈 정리는 이를 명확하게 계산할 수 있게 해준다.

Mean and Variance

분포에 대해 논할 때 가장 많이 논하는 것이 평균mean 혹은 기대값expectation이다. 이는 다음과 같이 정의된다.

$$E[X] = \mu = \sum_{x \in \mathscr{X}} x p(x)$$

혹은 연속확률분포라면 다음과 같다.

$$E[X] = \mu = \int_{\mathscr{X}} x p(x) dx$$

이 식은 아주 중요하므로 익숙해지는 것이 좋다.

분산variance은 다음과 같이 정의된다.

\begin{align} Var[X] & = E[(X - \mu)^2] = \int_{\mathscr{X}} (x - \mu)^2 p(x) dx \\ & = \int_{\mathscr{X}} x^2 p(x) dx + \mu^2 \int_{\mathscr{X}} p(x) dx - 2 \mu \int_{\mathscr{X}} x p(x) dx \\ & = E[X^2] - \mu^2 \end{align}

Independence

$X$와 $Y$가 다음의 관계를 가질 때 서로 독립independent이라고 한다.

$$X \perp Y \Leftrightarrow p(X, Y) = p(X) p(Y)$$

그 의미를 음미해보자. 위의 product rule에 의해 원래 $p(x, y) = p(x) p(y|x)$이어야 하지만 둘이 독립이면 뒤의 conditional probability가 marginal probability로 변한다. 즉, $X$에 대한 정보를 아는 것이 $Y$에 대한 추가적인 정보를 주지 않는다는 것을 의미한다.

현실에서 서로 무조건적으로 독립인 경우는 잘 없다. 특정 변수가 다른 변수와 관계가 있는 경우가 대부분이며 그러므로 무언가를 알게 되면 다른 것에 대한 약간의 추가적인 정보라도 주는 경우가 많기 때문이다. 하지만 대체로 그런 관계는 다른 변수를 통해서 정보가 흘러들어 가는 경우가 많으며 그러므로 조건부 독립이라는 개념이 유용하다.

$$X \perp Y | Z \Leftrightarrow p(X, Y|Z) = p(X|Z) p(Y|Z)$$

이는 우리가 $Z$를 안다는 가정하에서 $Y$를 아는 것이 $X$에 대한 추가적인 정보를 주지 않는 것을 의미한다. 이 개념은 그래피컬 모델graphical model을 다룰 때 아주 중요하게 활용된다.

Model

우리가 보통 추론 문제에 접근하는 방법은 데이터를 생성하는 어떤 프로세스가 존재한다고 가정하는 것이다. 보통은 parametric model을 가정하는데 이는 즉, 데이터 $D = (x_1, x_2, \ldots, x_n)$이 $\theta$라는 변수로 인해 결정되는 모델로부터 생성되었음을 의미한다. 모델과 데이터의 관계는 베이즈 정리를 사용해서 표현할 수 있다.

$$p(\theta | D) = \frac{p(D | \theta) p(\theta)}{p(D)}$$

이때, $\theta$는 모델을 결정하는 패러미터이며 $D$는 데이터를 의미한다. 즉, 데이터를 관측했을 때 다양한 모델의 그럴싸함을 베이즈 정리를 통해서 계산할 수 있다는 것이다. 여기서 $p(\theta | D)$를 posterior probability, $p(D | \theta)$를 likelihood, $p(\theta)$를 prior probability, 그리고 $p(D)$를 evidence 혹은 marginal probability라고 한다.

Prior probability는 우리가 데이터를 보기 전에 각각의 패러미터가 얼마나 그럴싸한지 미리 갖고 있는 믿음을 표현하고, posterior probability는 데이터를 본 이후 우리의 믿음을 나타낸다. 이렇게 믿음이 변하는 과정은 특정 패러미터를 가정했을 때 우리가 관측한 데이터가 나올 확률인 likelihood를 prior와 합쳐지며 이루어지며 정확한 계산은 베이즈 정리를 통해 유도할 수 있다.

Parametric한 모델로부터 데이터가 생성되었다는 가정은 나름의 이유가 있다. 주어진 데이터가 exchangeable 시퀀스라면 representation theorem에 의해 임의의 랜덤 subsample은 어떤 모델 $p(x_i|\theta)$로부터 나왔다고 생각할 수 있다. 또한 이에 대응하는 prior probability $p(\theta)$가 존재한다. 보통 데이터가 독립이라는 가정을 많이 하는데 이는 exchangeable 하다는 가정보다 강력한 가정으로 위의 조건을 만족하게 된다.

$$p(x_1, \ldots, x_n) = \int_{\Theta} p(x_i | \theta) p(\theta) d\theta$$

다시 한번 정리해보면, 우리는 불확실한 상황을 다룸에 있어서 확률 체계를 사용해야 한다. 특히 베이즈 정리가 새로운 데이터를 관측했을 때 어떤 방식으로 믿음을 갱신해야 하는지 알려준다.

Coin Toss Example

동전을 던져서 앞면이 나올 확률을 추정하는 문제를 생각해보자. 열 번 동전을 던져서 아래와 같은 결과가 나왔다.

HHTHTTHHHT

앞면이 나올 확률은 얼마일까? 특별한 이유가 없다면 총 10회 시행 중 앞면이 6회 나왔으니 $\frac{6}{10}$이라는 대답을 할 것이다. 하지만 그렇다면 정답이 $\frac{1}{2}$일 가능성은 없을까? 그렇지 않다. 당연히 우리의 추정치는 불확실성을 내포하고 있으며 동전이 앞면이 나올 확률이 얼마인지에 대한 믿음이 매 시행을 관찰하면서 갱신된다. 이를 위의 베이즈 정리를 활용해서 정확하게 논해보자.

동전의 앞면이 나올 확률이 $p$라는 패러미터로 결정된다고 가정하자. 만약 $p = 0.5$라면 50%의 확률로 앞면이 나오는 것이다. 일차적으로 $p = 0.5$와 $p = 0.6$ 중 어떤 것이 더 그럴싸한지 판단해보자. 이는 $p(p=0.5|HHTHTTHHHT)$와 $p(p=0.6|HHTHTTHHHT)$를 비교하면 된다. 즉, HHTHTTHHHT라는 관찰을 하였을 때 $p$가 0.5인 경우와 0.6인 경우가 각각 얼마나 그럴싸한지 계산해보면 되겠다.

주의해야 하는 점은 우리가 궁금한 것은 특정한 관찰을 했을 때 모델의 그럴싸함이다. 즉, HHTHTTHHHT를 관찰했을 때 앞면이 나올 확률이 0.5인 것이 얼마나 그럴싸한지가 궁금한 것이지 앞면이 나올 확률이 0.5일 때 HHTHTTHHHT가 나올 확률이 궁금한 것은 아니라는 것이다. 전자는 posterior probability이고 후자는 likelihood이다. 대체로 모델을 만들면 likelihood는 계산이 쉬운 반면 posterior probability의 계산은 베이즈 정리를 활용해야 하며, 정확한 값의 계산은 쉽지 않다.

다시 위의 문제로 돌아와서 베이즈 정리를 적용해보면 아래와 같다.

$$p(p=0.5|HHTHTTHHHT) = \frac{p(HHTHTTHHHT|p=0.5) p(p=0.5)}{p(HHTHTTHHHT)}$$ $$p(p=0.6|HHTHTTHHHT) = \frac{p(HHTHTTHHHT|p=0.6) p(p=0.6)}{p(HHTHTTHHHT)}$$

두 확률의 비율을 계산해보고 이를 통해 한쪽이 다른 쪽보다 얼마나 그럴싸한지 정확하게 계산해보자. 여기에서 prior probability에 대응되는 $p(p=0.5)$와 $p(p=0.6)$은 같다고 가정하자. 즉, 데이터를 하나도 관찰하지 않은 시점에 우리는 앞면이 나올 확률이 0.5인 경우와 0.6인 경우가 동등하게 그럴싸하다고 믿고 있다는 것을 의미한다. 그리고 marginal probability인 $p(HHTHTTHHHT)$는 양쪽 모두의 분모에 똑같이 나오므로 이는 상쇄되어 없어진다. 그렇다면 결과적으로 likelihood인 $p(HHTHTTHHHT|p=0.5)$와 $p(HHTHTTHHHT|p=0.6)$의 값의 비를 계산하는 것으로 문제가 환원된다.

앞면이 나올 확률이 0.5일 때 HHTHTTHHHT를 관측할 확률은 $0.5^6 \times 0.5^4 = 0.5^{10} = 0.000976562$이다. 비슷한 계산을 통해 앞면이 나올 확률이 0.6인 경우 HHTHTTHHHT를 관측할 확률을 계산해보면 $0.6^6 \times 0.4^4 = 0.046656 \times 0.0256 = 0.001194394$이다. 즉, 앞면이 나올 확률이 0.6인 경우가 0.5인 경우보다 더 그럴싸함을 알 수 있다. 그 비율을 계산해보면, 0.6이 0.5보다 약 1.22배 더 그럴싸하다고 말할 수 있다.

만약 애초에 데이터를 관찰하기 전에 앞면이 나올 확률이 0.5인 것이 0.6보다 두 배 더 그럴싸하다고 생각했다면 위의 결과는 여전히 0.5가 0.6보다 더 그럴싸하지만 처음의 두 배에서 약 1.6배 그럴싸한 정도로 떨어질 것이다.

이런 계산을 가능한 모든 $p$에 대해 수행하면 각각의 $p$값이 얼마나 그럴싸한지 정확하게 논할 수 있을 것이다. 이에 대한 자세한 이야기는 추후 logistic regression에 대해 다루면서 논할 기회가 있을 것이다.

References

좀비 예제는 Uri의 Thinking Statistically로부터 가져온 것이다. Exchangeability 및 de Finetti의 representation theorem에 대한 간단한 설명은 Bernardo의 The Concept of Exchangeability and its Applications를 참고하기 바란다.

확률probability, 확률 변수random variable와 분포distribution 등은 측도론measure theory을 기반으로 한 정의가 있으나 위의 논의에서는 이를 정확하게 논하지 않고 넘어갔다. 최소한의 엄밀함을 원한다면 mathematicalmonk의 Probability Primer 영상을 참고하길 바란다. 그보다 더 엄밀한 내용을 알고 싶다면 Jacod와 Protter의 Probability Essentials를 살펴보길 권한다.

측도론까지 가지는 않지만 확률론을 다루는 수업은 Tsitsiklis의 Probabilistic Systems Analysis and Applied Probability 수업을 추천한다.