이 영상은 수학의 즐거움, Enjoying Math 채널의 기하학적 통계 (이하 기통) 시리즈의 3번째 영상을 다시 정리한 것입니다. 핵심을 축약해서 정리한 것이므로 풀 디스커션을 보시려면 영상을 참고하시길 바랍니다.
가령 가우시한 형태의 함수가 나온다고 했을 때, 이 함수는 기본적으로 확률 분포 를 지칭합니다. 이 개념을 수학적으로 정확하게 할려면 확률 측도라는 개념, probability distribution, probability measure 라는 개념을 만들어 나가는 데 있어서 필요한 블록이 측도론의 measure space예요. 그래서 소위 Sample Space라고 부르는 걸 제가 보통 오메가 $\Omega$로 적고 시그마 필드를 보통 에프 $F$라고 적고 필요하면 설명을 할게요 그리고 마지막으로, probability measrue $P$ 이거 세 가지가 다 주어져 있어야 비로소 probaility space 라고 호칭을 하구요. 정리하면 확률 분포를 생각하기 위해서 수학적으로는 probability space를 먼저 가정하고 얘기를 출발해야 됩니다.
$(\Omega, F, P)$ Probability space.
그랬을 때, 저희는 이 공간을 "샘플 스페이스"라고 부르고, 이벤트들의 모임을 "시그마 필드"라고 합니다. 이벤트들을 기반으로 값의 확률을 평가하는 함수를 "probability measure"라고 부릅니다. 또한, 이를 위해 countable additivity 같은 조건들이 있습니다. 이와 같은 확률 분포를 만들기 위해서는 "random variable"이라는 개념이 필요합니다. 보통 random variable은 대문자 "X"로 표기하고, random vector나 random variable 등 다양한 용어로 실상 같은 대상을 지칭합니다. 기본적으로 이는 도메인이 오메가 $\Omega$인데, probability space가 기반이기 때문에 이를 받아들일 수 있습니다.
Definition. We say $X: \Omega \longrightarrow\left(\mathbb{R}^{k}, \beta\left(\mathbb{R}^{k}\right)\right)$ is a randam variable if each Bord set $B$ in $\mathbb{R}^k, X^{-1}(\mathbb{B}) \in F$. Here $\beta\left(\mathbb{R}^{k}\right)=$ Borel sigma field $=\{$ Borel sets $\}$.
랜덤변수는 말 그대로 랜덤 변수입니다. 값이 찍히는데 랜덤성이 개입하는 것으로 이 랜덤성을 어떻게 평가하느냐면, 기본적으로 이는 연속함수를 일반화하는 것인데, 연속함수는 기본적으로 좋은 함수로 여겨지기 때문에 이를 일반화하는 것입니다. 연속함수는 해석학의 레벨에서는 많은 분들이 들어보신 입실론-델타 정의로 설명됩니다. 이는 극한값과 함숫값이 동일하다는 개념을 수학적으로 엄밀하게 만들어서 추상화한 것입니다. 이는 학부 위상수학에서 훈련이 되면 쉽게 이해할 수 있는 부분에 해당합니다.
Remark. Random variable is a generalization of a continuous function in the following sense:
$$
\begin{aligned}
& \Leftrightarrow \lim _{x \rightarrow p} f(x)=f(p) \\
& \Leftrightarrow \text { i.e., } \forall y \in(x-\delta, x+f), f(y) \in(f(x)-\varepsilon, f(x)+\varepsilon) \\
& \Leftrightarrow \forall \varepsilon>0, \exists \delta>0 \text { s.t } f\left(B_{\delta}(x)\right) \subseteq B_{\varepsilon}(f(x)) \\
& \Leftrightarrow \forall \varepsilon>0, \exists \delta>0 \text { s.t } B_{\delta}(x) \subseteq f^{-1}\left(B_{\varepsilon}(f(x))\right)
\end{aligned}
$$
i.e., the definition of continuous function is, inverse image of each open set is open.
임의의 입실론에 대해서 델타가 존재하여 특정 조건을 만족한다는 위 수식들은 이는 연속함수의 정의를 입실론-델타와 같은 것을 다 버리고 추상화 시키면 결국 임의의 오픈셋마다 역상(inverse image)가 오픈임을 의미합니다 도메인과 코도메인이 실수 집합이든 다른 것이든 상관없습니다. 이것이 연속함수의 정의입니다. 이것은 토폴로지에서 반드시 알아야 하는 연속함수의 개념입니다. 이해가 되시나요? 그래서 우리는 이 개념을 바탕으로 랜덤 변수라는 개념을 연속함수의 일반화로서 정의하고 싶습니다. 다만 랜덤 변수는 전혀 연속함수일 필요가 없습니다. 그냥 확률에 따라 값이 랜덤하게 찍히는 함수입니다. 그래서 이를 어떻게 일반화하냐면, 기본적으로 오픈셋들의 모임을 포함하는 것을 토폴로지라고 부릅니다. 이것이 토폴로지를 배우는 이유로 오픈셋의 모임 자체가 토폴로지의 정의입니다. 그래서 이것을 어떻게 정의해야 하는가? 이벤트를 다 모으는데, 어떤 이벤트를 다 모으냐면 오픈셋 타입들을 다 갖고 있는 가장 작은 이벤트들의 집합입니다. 이것이 정의입니다. 이는 존재하고 유일하다는 것을 가장 작다고 한 것 때문에 보일 수 있습니다. 그러면 여기에 있는 원소들은 오픈셋들입니다. 오픈셋이 여기에 있는 것만을 의미하는 것은 아닙니다. 예를 들어, closed set이나 다른 이상한 형태의 집합도 오픈이 아닌 다른 변종 집합일 수 있습니다. 이 집합의 원소들을 Borel set의 모임이라고 부릅니다. 그래서 open set은 Borel set이지만 반대는 성립하지 않습니다.
Definition. Given a topological space $S$ with a probability space $\Omega, P(\Omega, F, P)$, let $X: \Omega \longrightarrow S$ be a random variable. Denote $B(S)$ the Borel Sigma algebra of topological space $S$. Define the probability measure (usually called the probability distribution) $P_{X}: B(S) \rightarrow [0,1], B \mapsto P(X^{-1}(B)).$ Here, we used $P: F \longrightarrow[0,1]$ with $X^{-1}(B) \in F $.
Consequently, $\left(S, B(S), P_{X}\right)$ is a probability space.
자, 여기서부터는 생각이 굉장히 재미있어진 거예요. 왜냐하면, 다시 말해 우리는 사실 probability space에 대해 추상적으로 정의가 되는 사실과 별개로 그 실체에 대해선 실상 몰라요. 말그대로 단순히 확률론의 체계가 동작하도록 말이 되게끔 만든 거예요. 반면에 랜덤 변수의 공역은 우리가 관심을 갖고 다루고자 하는 공간 이에요. 그럼 "랜덤베리어블"이라는 개념을 사실 만들어낸 게 무엇인가요? 랜덤변수의 공역 위에서 확률 공간의 개념을 새롭게 만들어낸 것입니다. 그러면 이제 우리가 이해하고자 하는 세계관으로 넘어오게 됩니다. 여기서 카타르시스가 있어요. 그러니까 비록 확률 공간을 피상적으로 정의한 것으로 출발했지만 우리가 어떤 데이터들을 실제로 관측할 수 있는 공간에 대한 이야기로 환원시키고 있다는 거죠.
Given a Probability Space $(\Omega, F, P)$,
$$
\begin{aligned}
& \text { consider 'any' random variable } x: \Omega \rightarrow \mathbb{R}^{k} \\
& \rightarrow X:\left(\Omega, F\right) \rightarrow\left(\mathbb{R}^{k}, \mathbb{B}^{k}\left(\mathbb{R}^{k}\right), P_{X}\right) \\
& \leadsto \text { look at }\left(\mathbb{R}^{k}, B(\mathbb{R}^k), P_{X}\right).
\end{aligned}
$$
그러면 우리는 우리가 관심을 갖는 공간에 probabilty space structure를 줄 수 있다고 얘기했는데, 이렇게 하면 왜 미적분을 할 수 있는지를 볼 수 있게 되고, 사실 이게 측도론의 꽃인 Radon-Nikodym theorem 입니다. 그러니까 다시 정리하겠습니다. 우리가 잘 모르지만 좌우지간 추상적인 probability space가 있습니다. 여기다 우리가 어떤 조건을 거는 게 아닙니다. 물론 Radon-Nikodym theorem이 되게 하려면 이게 소위 sigma finite 을 걸어야 되는데 이게 probability space이면 자동으로 성립해서 말을 따로 할 필요가 없어요. 그리고 랜덤 벡터 혹은 랜덤 변수로서 로서 함수가 있다고 하죠. 그러면 랜덤 변수의 공역을 새로이 probabilty space가 되도록 만드는 법을 우리는 알고 있습니다. 근데 여기서 라돈-니코딤 정리가 알려주는 것은, 결국 우리가 만들어낸 확률 분포가 적분에 지나지 않다는 것입니다. 즉 지금까지 한 모든 이야기를 우리가 친숙하게 잘 다룰 줄 아는 미적분학으로 논리를 바꾸게 되었다는 겁니다. 이게 확률론의 세계관 입니다. 수학적으로는 결국 우리가 아는 미적분학으로 확률을 논하고자 하는 것입니다.
Radon-Nikodym Theorem tells us $$
P_{x}(B)=\int_{B} f_{x}(x) d x \text {. }
$$
for some unique $L^{\prime}$ - function $f x$, called the Radon-Nikodym derivative.
'기하학적 통계학' 카테고리의 다른 글
| 4. 조건부 기댓값의 정의와 성질 (0) | 2023.07.02 |
|---|