본문 바로가기
직장인과 문과생을 위한 수학교실 (직문수)

17강. 통계학에 녹아있는 기하학의 아름다움

by EnjoyingMath 2023. 8. 8.
반응형

 

다음 포스팅은 https://youtu.be/LHf-RiqvXNw 의 영상에서 작성한 노트의 핵심을 정리한 것입니다. 여러 오탈자 및 수정 사항들이 있을 수 있습니다. 노트 내용에 대한 디테일한 설명들은 영상을 참고하시길 바랍니다.

 

17강 통계학에 녹이있는 기하학의 아름다움

 

  • (위키피디아) 통계학이란 산술적 방법을 기초로 하여 데이터를 관찰,정리,분석하는 방법을 연구하는 수학의 한 분야이다
  • 즉 데이터(표본) $X_1,...X_n$으로 부터 특정 수치를 주는 함수 $f(X_1,...X_n)$(랜덤변수)인 통계량 (statistic)을 정의해서 이로부터 적절한 판단을 내리고자 하는게 주요한 목적이다.  예시) 무작위로 한국사람 100명을 선택해서 키를 잴 수있고, 이로부터 한국사람 전체의 키의 평균(통계량)을 추정하는 경우.
  • 가장 널리 쓰이는 통계량에는 (표본) 평균. 분산, 표준편차가 있다.
  • 주사위를 던져서 1-6까지 각 숫자가 나올 확률이 $\frac{1}{6}$이라고 할 때,

기댓값 $=1 \times \frac{1}{6}+2 \times \frac{1}{6}+3 \times \frac{1}{6}+4 \times \frac{1}{6}+5 \times \frac{1}{6}+6 \times \frac{1}{6}=3.5$ 

분산 $=(1-3.5)^{2} \times \frac{1}{6}+(2-3.5)^{2} \times \frac{1}{6}+0.0+(6-3.5)^{2} \times \frac{1}{6}$

 

  • 일반적으로, $n$개의 숫자 $x_1,...,x_n$이 있고 각 숫자가 나올 확률이 $Pi(1≤i≤n)$이면

기댓값$$\begin{aligned}
&=E(x):=x_1p_1+x_2p_2+...x_np_n=\sum_{k=1}^{n}{X_kP_k}\end{aligned}$$

분산$$\begin{aligned}
&=V(x):=\left(x_{1}-E(x)\right)^{2} p_{1}+\left(x_{2}-E(x)\right)^{2} p_{2}+...+\left(x_{n}(E x)\right)^{2} p_{n} \\
& =\sum_{k=1}^{n}\left(x_{k}-E(x)\right)^{2} P_{k}\end{aligned}$$

여기서 확률을 알려주는 ($p_1,p_2,...p_n$)을 확률질량함수 (probability massfunction)라고 부르며, $$\sum_{k=1}^{n}=Pk=p_1+p_2+...+p_n=1,pi\geq 0, 1\leq i\leq n$$을 만족해야 한다.

 

  • 위의 상황에서 $n$이 무한대 ∞이면 유한합이 적분으로 표현된다.

$\begin{aligned}& E(x)=\int x P(x) d x, \\
& V(x)=\int(x-E(x))^{2} P(x) d x .\end{aligned}$

 

여기서 확률을 알려주는 함수 $p(x)$를 확률밀도함수 (probability density function)라고 부르며,  $\int P(x) d x=1, P(x) \geq 0$을 만족해야 한다.

  •  확률밀도함수의 예시: 실수축 $\mathbb R'$위에서 각 실수 $\mu∈\mathbb R$, 양의 실수 $\sigma>0$마다 $P\mu,\sigma(x):=\frac{1}{\sqrt{\pi\sigma}}exp(-\frac{(x-\mu)^2}{2\sigma^2})$: 가우시안 함수 (Gaussian function)

이  '종모양'의 확률밀도 함수를 '정규분포'라고 부르며 $\left\{\begin{array}{l}E(x)=\mu,\\V(x)=\sigma^{2}\end{array}\right.$을 만족한다. 

 

 

중심극한정리(Central limit theorem)

 

동전을 던지면 횟수가 늘어날수록 확률질량함수가 정규분포의 확률밀도함수 형태에 가까워진다.

 

통계학의 한 가지 전형적인 문제-가설검정 (Hypothesis test)

한 회사의 신입사원들의 지난해 평균 월급은 150만원, 분산은 144만원 이었다고 하자. 올해는 이보다 높을 것으로 기대하며 임의로 신입사원 100명을 골라서 평균 월급을 조사해보니 153만원 이었다. 이 때 올해의 신입사원 평균 월급이 150만원 이라고 할 수 있는지를 알아보기 위한 가설을 세우고자 한다.

 

풀이) 모든 신입사원 (모집단이라 한다)에 대한 가설: 월급 150만원 이상 표본으로부터 얻은 사실: 100명의 평균월급이 153만원.

 

  • 각 신입사원들의 월급은 독립적으로 하나의 정규분포를 따른다고 가정하자.

 

이 경우의 가설 검정문제는 $P\theta_0$와 $P\theta_1$중에서 무엇을 선택하기로 정할지 통계학적으로 타당한 특정 기준을 제시해야 하는 문제로 귀결된다.

 

기준의 일례로 고른 100명의 월급을 $x_1,...x_100$이라고 할 때에

$\frac{P\theta_1(_1)P\theta_1(_2)...P\theta_1(x_{100})}{P\theta_0(_1)P\theta_0(_2)...P\theta_0(x_{100})}$ 값이 정한 기준 값 이하이면 $P\theta_0$를 이상이면,  $P\theta_1$을 고른다. 

(Likelihood ration test, LRT라고 부른다.)

 

기하학적 렌즈로 지금까지 한 이야기를 다시 보기위한 복습

 

정리 (14강) 상반평면(Upper half plane) $H^{2}=\left\{(\mu, 6): \begin{array}{c}\mu \in \mathbb{R}\} \\ 6>0\end{array}\right\}$ 

단순열결된 곡면들 중에서 가우스곡률이 음의 상수인 유일한 공간이다.

이 경우 가우스곡률이 음의 상수에 해당하는 내적은 2×2 행렬로서 각 ($\mu,\sigma$)∈$\mathbb H^2$마다 $\frac{1}{\sigma^2}\left(\begin{array}{ll}1 & 0 \\ 0 & 1\end{array}\right)$로 주어진다 (푸앙카레 메트릭 Poincare metric이라고 부릅니다)

 

 

리만사상정리와 슈왈츠 보조정리 (15강)

복소평면 $\mathbb C=\mathbb R^2$와 같지 않은 단순연결죈 (열린) 부분집합 $S$는 언제나 상반평면 (Upper half plane)간에 일대일 대응인 복소해석학적 함수가 존재하며, 상반평면간의 일대일 대응인 임의의 복소해석적 함수는 가우스 곡률이 음의 상수인 내적을 보존한다.

 

관찰 위에서의 가설 검정이 결국에 $P\theta_i$를 선책하는게 목표라면 수학적인 관점에서는 가능한 $P\theta$의 후보군들을 한 집합으로서 전부 모으는 것이 자연스럽다. 즉 다음의 집합을 생각하자:

$S_{0}=\left\{P_{\mu, \sigma}(x)=\frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{(x-\mu)^{2}}{2\sigma}\right): \mu \in \mathbb{R}, \sigma>0\right\}$

 

이 집합은 (확률밀도) 함수들의 모임이다. 그런데 여기서 각각의 $P_\mu, \sigma$는 각 순서쌍 $\mu\in\mathbb R$, $\sigma>0$마다 유일하게 정해지므로 집합 $S$는 집합 $\mathbb H^2=\{(\mu,\sigma):\mu\in\mathbb R,\sigma>0\}$과

다음의 일대일 대응 관계가 성립한다: $P_{\mu, \sigma}(x)=\frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{(x-\mu)^{2}}{2 \sigma^{2}}\right) \in S \longleftrightarrow(\mu, \sigma) \in H^{2}$

그런데, 우리는 이미 상반평면 $\mathbb H^2$를 단순히 아무 구조도 없는 '집힙'으로서 바라보고 있는게 아닌, 내적으로 형상을 규정하고 있는 찰흙덩어리 (위상공간)으로서 생각하고 있다.

 

자연스러운 질문 $\mathbb H^2$에 기하학적 구조가 있으니, 응당 $1+1^2$와 일대일 대응 관계에 있는 $S$에도 $\mathbb H^2$와 동일한 기하학적 구조가 있지 않겠는가?

 

  • 지금부터 정의하는 수학적 대상들은 기하학적 관점과 무관하고 독립적으로 만들어진 것으로 물리학, 정보이론, 통계학, 기계학습등의 학문에서 매우 빈번히 사용된다.

정의 (쿨백-라이블러 발산, Kullback-Leibler divergence)

두 확률밀도 함수 $P(x), q(x)$에 대해서 $K L(P \| q):=\int_{\mathbb{R}} P(x) \log \left(\frac{P(x)}{q(x)}\right) d x$를 두 확률분포간의 (KL-divergence or relative entropy)라고 부른다.

KL-divergence의 성질 

  • 임의의 $p,q$에 대해서 $KL(p||q)≥0$
  • $KL(p||q)=0$ if and only if $p=q$

Likelihood Ration Test and KL-divergence

 

  • 위의 신입사원 평균월급 문제에서 100명의 월근 $x_1,...,x_100$을 하나의 정규분표 $q(x)$로 부터 추출할 때,

$\frac{P_{\theta_{1}}\left(x_{1}\right) P \theta_{1}\left(x_{2}\right) 000 P_{\theta_{1}}\left(x_{100}\right)}{P_{\theta_{0}}\left(x_{1}\right) P \theta_{0}\left(x_{2}\right) 000 P_{\theta_{0}}\left(x_{100}\right)}>r$

 

if and only if $K L\left(q \| p_{\theta_{0}}\right)-K L\left(q \| p_{\theta_{1}}\right)>\frac{1}{100} r$

 

정규분포의 모임의 통계량과 기하학적 구조의 관계

우리가 정말로 알고자 하는 '참' 정규분포를 $q(x)$라 하고,

각 $\theta=(\mu,\sigma)∈\mathbb H^2\longleftrightarrow P\theta(x)\in S$의 일대일 대응관계를 활용해서

 

$KL(q||P\theta)=K(\theta)$라고 적고, 

 

각 $\theta(\mu,\sigma)$는 변수 2개 $\mu,\sigma$가 있으니 

 

이 두 변수로 2번 편미분해서 2×2 행렬

 

$I(\theta)=\left(\begin{array}{ll}\frac{partial^2k}{partial\mu\partial\mu}(\theta)&\frac{\partial^2k}{\partial\mu\partial\sigma}(\theta) \\ \frac{\partial^2k}{\partial\sigma\partial\mu}(\theta) & \frac{\partial^2k}{\partial\sigma\partial\sigma}(\theta)\end{array}\right)$ 을 만들자.

 

우리는 이 행렬을 피셔정보행렬 (Fisher Information Matrix)라 부른다.

$\underline{\text { Magic 1 }} I(\theta)=\frac{1}{sigma^{2}}\left(\begin{array}{ll}1 & 0 \\ 0 & 1\end{array}\right)$이 된다.

이는 음의 상수 곡률을 만다는 내적 (푸앙카레 메트릭)과 정확히 일치한다!

 

Magic 2 신입사원 평균 문제에서, $\theta=(\mu, \sigma)\in\mathbb H^2$ 중에서 $P_\theta(x_1)P_\theta)(x_2)...P_\theta(x100)$이 최대값이 되는 $\theta$를 $\hat{\theta}$=$(\hat{mu},\hat{sigma})$이라고 적자 

 

($(\hat{\theta}$을 MLE, Maximum likelihood estimator 라고 부른다.)

그러면 $\hat{\theta}$ 에서 피셔정보행렬의 역행렬은 공분산행렬과 일치한다!

 

$I(\hat{theta})^{-1}=\left(\begin{array}{ll}\int_{\mathbb R}(x-E(x))^2P_\hat{\theta}(x)dx &\iint_\mathbb R^2(x-E(x)(y-E(\mathbb C)P_\hat{\theta}(x)q(y)dxdy \\ \\iint_\mathbb R^2(x-E(x)(y-E(\mathbb C)P_\hat{\theta}(x)q(y)dxdy & \int_{\mathbb R}(y-E(\mathbb C))^2q(y)dy\end{array}\right)$

 

참 정규분포 $q(x)$와 $p\hat{\theta}(x)$간의 공분산 행렬 (Covariance Matrix)

 

  • 적어도 정규분포의 모임으로 한정했을 때에 중요한 통계량 들과 정규분포의 모임이 내재적으로 갖고 있는 기하학적 구조와 밀접한 관계가 있음을 알게 되었는데, 사실 이 관찰은 정규분포의 모임에만 국한되지 않는 일반화를 포함하고 있을 가능성이 다분해보이며 이를 잘 관찰하면 응용학문에 요긴하게 사용될 도구들을 만들어낼 여지도 있을 것이다. 이러한 기대치 및 했던 구체적인 관찰을 토대로 다음과 같이 통계적인 모델들을 정의하자.

정의 (정규 통계적 모델), Regular Statistical Model

확률밀도 함수나 확률질량 함수들을 적당히 모은 집합

$S=\{P \theta(x): \theta \in(H)\}$이 다음의 두 조건을 다 만족하면

정규통제적모델 이라 부르고, 하나라도 만족하지 않으면 특이통계적모델이라고 부른다.

(1) 각 $\theta$는 $P_{\theta}$와 일대일 대응된다.

(2) 각 $\theta$마다 피셔정보행렬 $I(\theta)={(\frac{\partial^2k}{\partial\theta i\partial\theta i}(\theta)})$ $1≤i_1,1≤n$

은 내적이 된다 (즉, 모든 고유치 (eigenvalue)가 양수이다)

 

코멘트 한마디로 말해서, 정규통계모델은 확률분포의 모임을 미분기하학적인 공간 (예시: 우리가 지금껏 보아온 곡면), 즉 내적으로서 형상이 규정되는 찰흙 덩어리로서 보겠다는 선언이며, 반면에 특이 통계적 모델은 확률분포의 모임을 위와 같이 여길수 없는 경우들을 통칭한다.

 

코멘트 정규분포의 모임을 토대로 살펴보았던 구체적인 관찰들은 정규통계적 모델의 크래머-라오 (Cramer-Rao Inequality) 으로 일반화 되어있다.

 

정규 통계적 모델의 예시

 

  • Exponential family $=\left\{P_{\theta}(x)=\exp (\theta \cdot x-\psi(\theta)): \theta \in \mathbb{P}\right\}$

→ Normal, Beta, Poisson, Exponential, Dirichlet, Wischart, Gamma, Bernoulli, Inverse Wischart, Chi-squared, Categorical, Geometric.

 

  • 이산확률변수 (discret random variable)을 갖는 확률분포의 모임
  • Mixture family

필요한 질문 정말 기하학적 관점으로 확률분포의 모임을 취급하면 요긴 할 수 있는가? 어떠한 응용학문적 어플리케이션을 기대할 수 있는가?

 

Application (1) 정규통계적 모델(정확히는 dually flat manifold)의 

피타고라스 정리와 마르코프 체인 몬테카를로 (MCMC)

: 정규통계적 모델 $S$의 적당한 부분집합 $M$을 선택하고, $M$에 속하지 않은 $q\in S$를 택하자. $q$로 부터 $M$ 까지 KL-divergence 기준으로 최단거리가 되는 $P_0\in M$을 택하자. 그러면 각 $r\in M$마다 $KL(r||q)=kl(r||P_0)+KL(P_0||q)$이 성립한다.

 

코멘트 위 그림을 수학적으로 공부하는 기하학을 정보기하학 (Information geometry)라 부르며, 이는 대학원 리만기하 (Riemannian geometry)에 대한 전반적인 이해를 요구합니다.

 

(성능이 나쁜 MCMC 알고리즘)

 

 

  • $P(n)$이 커지면 확률밀도함수 $\pi$로 수렴한다.

Application (2) 정규통계적 모델의 자연경사각하법 (natural gradient descent)는 르장드르 변환 (legendre thransform)을 따라서 만든 (쌍대 dual) 정규통계적모델의 거울경사하강법(mirror gradient descent)과 같다.

 

코멘트 경사하강법은 기계학습 (Machine learning)의 근간에 해당하되, 여기서 'Natural'이라는 단어를 앞에 붙이는 이유는 피셔정보행렬을 내적으로 간주한 가운데 gradient vector를 계산하는 것이기 때문이다. 이 미분법은 피셔정보행렬이 항등행렬이 아니므로 유클리드 공간의 미분법이 아니다.

 

Application (3) 시계열분석 (Time series analysis, 시간의 흐름에 따라 기록된 자료들을 분석하고 여러 변수들간의 인과관계를 분석하는 방법론)의 모형들의 (예시: AR,MA,ARMA,...)많은 예시가 정규통계적 모델이 될 뿐만 아니라 심지어 복소수 위에서 정의 된다.

유식한 말로 표현하면, 일반적인 정규통계적 모델들은 리만기하하의 구조만 갖고 있는데, 시계열 분석의 모형들은 이보다 훨씬 강한 복소기하 (Complex geometry or Kahler geometry)의 구조를 갖고 있다.

 

코멘트 시계열 분석 모형들의 복소기하 구조를 활용한 연구들이 학계에 보고 된지는 아직 10년도 지나지 않은 것으로 보인다.

 

Application (4) 해밀토니안 마르코프 체인 몬테카를로 (HMC) 

통상적으로 많이 쓰이는 MCMC알고리즘인 Metropolis-hasting 알고리즘은 데이터를 무작위로 뽑는 공간이 지저분하게 생겨있으면 성능이 그다지 좋지 않다. 이 경우 전혀 새로운 관점에서 데이터를 선택하는 HMC 알고리즘은 사교기하학 (Symplectic Geometry)의 대상으로서 데이터를 고르는 공간을 바라본다.

 

지금까지 살펴본 이야기들의 대전제에 대한 질문

 

만약에 우리가 관심이 있는 특정 확률밀도함수의 모임이 '정규' 통계적 모델이 아니라 특이 통계적 모델이라면 어떻게 할 것인가?

 

이 경우에는 정규통계적 모델에 대해 성립하던 명제들이 대부분 깨지며, MLE,MAP(maximum a posteriori estimator)등을 사용하는 통계학적 방법론들도 이에 따라 fail한다.

  • 정규통계적 모델이 아닌 특이 통계적 모델에 해당하는 예시가 있는가? 아쉽게도 심지어 매우 많다... 이 전제에 대한 문제를 수학적으로 해결하는 기법은 현재까지는 대수기하(algebraic geometry)적 접근 이외엔 전무하다.
  • 대수기하학이란? 다항식의 '해집합'을 찰흙덩어리 (위상공간)으로 여기고 공부하는 학문.

특이통계적 모델을 정규통계적 모델로 근사하는 대수기하적 접근

특정 확률밀도 함수들의 모임을 $S=\{P_\theta(x):\theta\in mathbb H\}$라 하자.

만약에 정규통계적 모델의 첫 번째 가정이 깨진다면, 이 말은 $\theta_1,\theta_2\in\mathbb H$,$\theta_1≠\theta_2$이나, $P_{\theta 1}(x)=P_{\theta 2}(x)$가 되는 $(\theta_1,\theta_2)$가 존재한다는 뜻이다.

 

즉, $KL(P_{\theta 1}||P_{\theta 2})=0$ 인 $\theta_1≠\theta_2$가 존재한다.

KL-divergence를 $\theta_1,\theta_2$를 입력 받는 함수로 바라보고 이 함수의 '해집합'을 살펴보고 있음을 주목하자

 

이번에는 정규통계적 모델의 두 번째 가정이 깨진다고 해보자.

이는 피셔정보행렬 $I(\theta)=(\frac{\partial^2K}{\partial\theta_i\partial\theta i})$ $1≤i,i≤n$이 내적이 되지 못한다는 의미로 행렬식 $det(I(\theta))=0$과 동치이다.

즉, 정규통계적 모델이 되지 못하는 여하는 특정 함수들의 해집합을 살펴봄으로서 알아낼 수 있다.

 

  • KL-divergence가 다항식이거나 적어도 해석적 함수라고 가정하면, 적절히 공간 자체를 새로이 바꾸어서 위에서 문제를 일으키던 해집합들을 제거해버리는 방법을 대수기하 에서는 특이점 해소(resolution of sigularity)라고 부른다. 이는 '학문의 즐거움'이라는 책으로 유명한 수학자 히로나카 헤이스케의 1964년 필즈메달 업적이다.

 

코멘트 스미오 와탄베 도쿄대 교수는 특이점 해소 방법론을 토대로 통계학을 완전히 새로이 써야한다고까지 주장한다.

 

수학교실의 결론 수학은 어렵다. 그러나 순수수학만 어렵고 응용학문은 상대적으로 더 쉬운게 아니다. 제대로 알아가면 괴물이 아닌게 없다. 그럼에도 결국에 이 모든 수학의 끝은 미적분학과 선형대수학으로 귀결된다. 어떠한 공리 및 접근법을 택할지는 철저하게 수학을 알아가는 각자에게 남겨둔 채로 말이다.

 

 

수학적 앎의 과정에서 함께 하면서 참 즐거웠을 뿐만 아니라
이 배움이 각자에게 유익이 있기를 바라며 이 시간을 감사히 마칩니다.

 

 

반응형