회귀분석 계수에 대한 검정(F-test, LRT, Wald, Score)
모델 설명
다음과 같은 다중 회귀 모형을 생각해보자.
\[y_i = \beta_0 + \beta_1 x_{1i} + \dotsb + \beta_q x_{qi} + \beta_{q+1} x_{(q+1)i} + \dotsb + \beta_p x_{pi} + \epsilon_i, \quad \epsilon_i \stackrel{iid}{\sim} N(0,\sigma^2)\]행렬을 이용하여 나타내면,
\[y = X\beta + \epsilon = \left(X_1 X_2\right)\left(\begin{array}{c}\beta^*_1\\ \beta^*_2\end{array}\right) + \epsilon = X_1\beta^*_1+X_2\beta^*_2 + \epsilon, \; \epsilon \sim N(0, \sigma^2I_n)\]위 식의 $\beta$ 들은
\[\beta^*_1 = ( \beta_0, \beta_1, \dotsb, \beta_q)\] \[\beta^*_2 = (\beta_{q+1}, \dotsb, \beta_p)\]이다.
이 모형의 회귀 계수 일부에 대한 검정을 해보자. 그렇다면 귀무가설은 다음과 같이 설정 할 수 있다.
\[H_0 : \beta_{q+1} = \dotsb = \beta_p = 0\]또한, 아무런 제약이 없는 상황에서 고려할 수 있는 전체모형(Full model, FM)과, 귀무가설 하에서 $\beta_{q+1} = \dotsb = \beta_p = 0$ 이 되므로, 이 때의 축소모형(Reduced model, RM)을 생각할 수 있다.
F-test
설명을 위해 $J = \underset{\tilde{}}{1}\underset{\tilde{}}{1}’, \;\;H = X(X’X)^{-1}X’, \;\; H_1 = X_1(X_1’X_1)^{-1}X_1’$ 을 정의한다.
Reduced Model으로 부터, $SST, SSE_R, SSR_R$의 제곱합들을 계산할 수 있다.
\[\begin{align*} SST &= y'\left(I-\frac Jn\right)y \\ &= y'\left(I-H_1\right)y + y'\left(H_1-\frac Jn\right)y \\ &= SSE_R + SSR_R \end{align*}\]마찬가지로 Full Model로 부터,
\[\begin{align*} SST &= y'\left(I-\frac Jn\right)y \\ &= y'\left(I-H\right)y + y'\left(H-\frac Jn\right)y \\ &= y'\left(I-H\right)y + y'\left(H-H_1\right)y + y'\left(H_1-\frac Jn\right)y \\ &= SSE_F + SSR_{\beta^*_2|\beta^*_1} + SSR_{\beta^*_1}, \; (SSR_F = SSR_{\beta^*_2|\beta^*_1} + SSR_{\beta^*_1}) \end{align*}\]귀무가설 하에서,
\[\begin{align*} \frac{SSR_{\beta^*_2|\beta^*_1}}{\sigma^2} &\sim \chi^2_{p-q} = \chi^2_{rank(H-H_1)}\\ \\ \frac{SSE_F}{\sigma^2} \; \; &\sim \chi^2_{n-p-1} = \chi^2_{rank(I-H)} \end{align*}\]임을 알고있고, 두 통계량은 서로 독립이다. (두 통계량의 공분산을 계산해보면 알 수 있다.)
검정을 위한 검정통계량 F
는 아래와 같이 정의 할 수 있다.
유의수준 $\alpha$의 검정에서, 만약 $F> F_{p-q, n-p-1}(\alpha)$ 라면, 귀무가설 $H_0$를 기각한다.
LRT(Likelihood Ratio Test)
$\beta, \sigma^2$의 MLE(Maximum Likelihood Estimator)는 각각 다음과 같다.
\[\hat{\beta} = (X'X)^{-1}X'y, \;\; \hat{\sigma^2} = \frac 1n ||y-X\hat{\beta}||^2\]또한 귀무가설 하에서, $\beta^*_1, \sigma_0^2$의 MLE는 비슷한 형식으로
\[\hat{\beta^*_1} = (X_1'X_1)^{-1}X_1'y,\;\;\hat{\sigma_0^2} = \frac 1n ||y-X_1\hat{\beta^*_1}||^2\]이다.
가능도비(likehood, L)은
$ \log L = (2\pi\sigma)^{-n/2} exp(-(y-X\beta)’(y-X\beta)/2\sigma^2)$
로 표현되는데, 각각의 상황에서의 Likelihood는
\[L_1 = L(\hat{\beta},\hat{\sigma^2)}, \;\; L_0 = L(\hat{\beta^*_1}, \hat{\sigma_0^2})\]이다.
가능도비검정을 위한 LRT 통계량
은 다음과 같이 정의된다.
또한 이 통계량은 카이제곱분포를 따르고, 자유도는 두 모형에서 추정하는 모수의 개수의 차이와 일치한다.
\[-2 \log \Lambda \sim \chi^2_{p-q}\]따라서 유의수준 $\alpha$의 검정에서, 만약 $-2 \log \Lambda> \chi^2_{p-q}(\alpha)$ 라면, 귀무가설 $H_0$를 기각한다.
Wald
\[\beta = (\beta^*_1 \; \beta^*_2), \quad \beta^*_2 = (\beta_{q+1}, \dotsb, \beta_p)\]
에 대해서, 우리는 귀무가설 $H_0 : \beta^*_2=0$ 을 검정하려고 한다.
일반적으로 $H_0 : \beta = \beta_0$ 를 검정할 때 사용하는 Wald 통계량은
\[W = (\hat{\beta} - \beta_0)'[\widehat{cov}(\hat{\beta})]^{-1}(\hat{\beta} - \beta_0)\]인데, 우리가 다루고 있는 문제의 상황에 적용해보면 Wald 통계량
은
이고, 구성하는 식들은 다음과 같다.
\[\begin{align*} \hat{\beta^*_2} &= (\hat{\beta_{q+1}}, \dotsb, \hat{\beta_p}) \; of \; \hat{\beta} \\ \widehat{cov}(\hat{\beta^*_2}) &= (\hat{\beta_{q+1}}, \dotsb, \hat{\beta_p}) \text{에 관한} \; Var(\hat{\beta}) \; \text{의 블록행렬} \end{align*}\]이 때, $W$는 카이제곱분포를 따르고, 자유도는 $rank(\widehat{cov}(\hat{\beta^*_2}))$를 따른다. 여기서 또한 자유도를 귀무가설하에서 추정하는 모수의 수와 제약이 없는 상황에서 추정하는 모수의 수의 차이로 생각해도 문제가 없다.
\[W \sim \chi^2_{p-q}\]이므로, 유의수준 $\alpha$ 검정에서 만약 $W > \chi^2_{p-q}(\alpha)$ 이면, 귀무가설 $H_0$를 기각한다.
Score
우선 score funtion 을 정의하자.
\[u(\beta) = \left(\frac{\partial \log L}{\partial \beta_0}, \frac{\partial \log L}{\partial \beta_1}, \dotsb, \frac{\partial \log L}{\partial \beta_p}\right)^T = (u_1(\beta^*_1, \beta^*_2)^T, \; u_2(\beta^*_1, \beta^*_2)^T)^T\]이고,
\[\beta^*_0 = (\beta_0, \beta_1, \dotsb, \beta_q, 0, \dotsb, 0) = (\beta^*_1, \underset{\hat{}}{0})\]라고 하면, Score 통계량은
\[S = u(\beta^*_0)'[I(\beta^*_0)]^{-1}u(\beta^*_0)\]로 정의된다.
그런데 귀무가설 하에서, $\beta^*_2$ 의 값을 알고있다.
하지만, $\beta^*_1$ 에 대한 정보는 갖고있지 않기때문에 위의 통계량을 그대로 사용할 수 없다.
따라서 귀무가설 하에서의 $\hat{\beta^*_1}^{MLE}$ 를 추정값으로 사용한다.
\[\hat{\beta^*_1}^{MLE} = (X_1'X_1)^{-1}X_1'y\]그렇다면 Score 통계량은
,
로 정의된다.
그렇다면 $[I(\beta^*_0)^{-1}]$ 는 어떻게 구할까?
\[u_2(\beta^*_1,\beta^*_2) = \frac 1{\sigma^2} X_2'(y-X_1\beta^*_1-X_2\beta^*_2)\] \[I(\beta) = \begin{pmatrix} I_{11} & I_{12} \\ I_{21} & I_{22} \end{pmatrix} , \quad I(\beta)^{-1} = \begin{pmatrix} I^{11} & I^{12} \\ I^{21} & I^{22} \end{pmatrix}\] \[I^{22} = (I_{22}-I_{21}I^{-1}_{11}I_{12})^{-1} = [X_2'X_2 - X_2'X_1(X_1'X_1)^{-1}X_1'X_2]^{-1}\sigma_0^2\]임을 이용하면,
\[S = \frac 1{\hat{\sigma_0^2}}(y-X_1\hat{\beta^*_1})'X_2[X_2'(I-H)X_2]^{-1}X_2'(y-X_1\hat{\beta^*_1})\]이고,
\[S \sim \chi^2_{p-q}\]인 분포를 갖는다.
따라서, 유의수준 $\alpha$ 검정에서 만약 $S > \chi^2_{p-q}(\alpha)$ 이면, 귀무가설 $H_0$를 기각한다.
주의할 점 (다른 귀무가설 상황의 경우)
위에서 설명한 검정은 여러가지 조건 덕분에 과정이 편하게 진행되었다. 예를 들어,
-
$\epsilon \stackrel{iid}{\sim} N(0, \sigma^2)$
위 조건은 $y \stackrel{iid}{\sim} N(0, \sigma^2 I_n)$ 의 분포를 가정하기 때문에 계산이 훨씬 쉽다.
일반적인 상황인 \(y \sim N(0,\Sigma)\) 인 경우에 대해서도 생각해 볼 필요가 있다.
-
$H_0 : \beta_1 = \dotsb = \beta_p = 0$
우리가 이용한 가설에서 $q=0$ 인 케이스이다. 위 과정과 비슷하게 적용할 수 있다.
-
$H_0 : \beta_j = 0, \; j=1,2,\dotsb,p$
귀무가설 상황을 고려하여, Full model 과 Reduced model을 생각해보면
\[\begin{align*} (FM) : y_i &= \beta_0 + \beta_i x_{1i} + \dotsb + \beta_p x_{pi} + \epsilon_i \\ (RM) : y_i &= \beta_0 + \beta_i x_{1i} + \dotsb + \beta_{(j-1)} x_{(j-1)i} + \beta_{j+1} x_{(j+1)i} + \dotsb + \beta_p x_{pi} + \epsilon_i \end{align*}\]축소모형은 $X$ 에서 j번째 열(column)을 제거한 행렬을 design matrix로 사용하는 모형이다.
이처럼 다양한 상황에서도 비슷하게 생각해 볼 수 있다.
[참고] :
https://j0shuajun.github.io
326.520A: Applied Statistics