小梅の日記帳

覚書き、メモ、等々残していくつもりです。

標本平均を用いた場合のχ2分布の自由度について

標準正規分布 N(0, 1)に従う互いに独立な確率変数 X_{1}, X_{2}, ...X_{n}は、自由度 n {\chi}^2分布に従います。

また、正規分布 N(\mu, {\sigma}^2)に従う互いに独立な確率変数 X_{1}, X_{2}, ...X_{n}についても、自由度 n {\chi}^2分布に従います。

上記の様な母集団から抽出した標本については、自由度が n-1 {\chi}^2分布に従います。

自由度が n-1になるのか不明だったので、数学的に確認出来たことを纏めたいと思います。

下記の様な正規分布 N(\mu, {\sigma}^2)に従う互いに独立な確率変数 X_{1}, X_{2}, ...X_{n}について考えます。

 X_{1}, X_{2}, \cdots X_{n}\overset{iid}{\sim}N(\mu, {\sigma}^2)



次に、変数 Y_{1}を作ります。

 \displaystyle Y_{1}=\frac{X_{1} + X_{2} + \cdots + X_{n}}{\sqrt{n}}

 Y_{1}の平均と分散を計算してみると、


\begin{aligned}
E \left [ Y_{1} \right ] &= E \left [ \frac{X_{1}+X_{2}+ \cdots + X_{n}}{ \sqrt{n}} \right ] \\
&= \frac{1}{\sqrt{n}} E \left [X_{1}+X_{2} + \cdots + X_{n} \right ] \\
&= \frac{1}{\sqrt{n}} ( E\left[ X_{1} \right ] + E\left[ X_{2} \right ] + \cdots + E\left[ X_{n} \right ]  ) \\
&= \frac{n{\mu}}{\sqrt{n}} \\
&= {\sqrt{n}}{\mu}
\end{aligned}

\begin{aligned}
V \left [ Y_{1} \right ] &= V \left [ \frac{X_{1}+X_{2}+ \cdots + X_{n}}{ \sqrt{n}} \right ] \\
&= \frac{1}{n} V \left [X_{1}+X_{2} + \cdots + X_{n} \right ] \\
&= \frac{1}{n} ( V\left[ X_{1} \right ] + V\left[ X_{2} \right ] + \cdots + V\left[ X_{n} \right ]  ) \\
&={\sigma}^2
\end{aligned}


次に、 Y_{1}に直行する単位ベクトルを作っていきます。


\begin{aligned}
\displaystyle Y_{2} &=\frac{X_{1} - X_{2}}{\sqrt{2}} \\
\displaystyle Y_{3} &=\frac{X_{1} + X_{2} -2 X_{3}}{\sqrt{6}} \\
&\vdots \\
\displaystyle Y_{n} &=\frac{X_{1} + X_{2} + \cdots + X_{n-1} - (n-1) X_{n}}{\sqrt{n(n-1)}} \\
\end{aligned}


次にこれらを行列表現していきます。


\begin{aligned}
Y_{1} &=
\begin{pmatrix}
1 & 1 & {\cdots} & 1 & 1
\end{pmatrix}
\begin{pmatrix}
X_{1}\\
{\vdots}\\
X_{n}
\end{pmatrix}\\
\end{aligned}

\begin{aligned}
Y_{2} &=
\begin{pmatrix}
1&-1&0&{\cdots}&0
\end{pmatrix}
\begin{pmatrix}
X_{1}\\
{\vdots}\\
X_{n}
\end{pmatrix}\\
\end{aligned}

\begin{aligned}
Y_{3} &=
\begin{pmatrix}
1&1&-2&0&{\cdots}&0
\end{pmatrix}
\begin{pmatrix}
X_{1}\\
{\vdots}\\
X_{n}
\end{pmatrix}\\
\end{aligned}

\vdots\\

\begin{aligned}
Y_{n} &=
\begin{pmatrix}
1&1&{\cdots}&1&-(n-1)
\end{pmatrix}
\begin{pmatrix}
X_{1}\\
{\vdots}\\
X_{n}
\end{pmatrix}\\
\end{aligned}


まとめて表現すると、


\begin{aligned}
\begin{pmatrix}
Y_{1} \\
Y_{2} \\
Y_{3} \\
Y_{4} \\
Y_{5} \\
{\vdots}\\
Y_{n} \\
\end{pmatrix}
&=
\begin{pmatrix}
1 & 1  & 1  &  1 &  1 & {\cdots} & 1 \\
1 &- 1 & 0  &  0 &  0 & {\cdots} & 0 \\
1 & 1  & -2 &  0 &  0 & {\cdots} & 0 \\
1 & 1  & 1  & -3 &  0 & {\cdots} & 0 \\
1 & 1  & 1  &  1 & -4 & {\cdots} & 0 \\
\vdots & \vdots & \vdots & \vdots & \vdots & \ddots & \vdots \\
1 & 1  & 1  &  1 & 1  & {\cdots} & -(n-1)\\
\end{pmatrix}
\begin{pmatrix}
X_{1} \\
X_{2} \\
X_{3} \\
X_{4} \\
X_{5} \\
{\vdots}\\
X_{n}
\end{pmatrix}\\
\end{aligned}


 Aを下記の様に定義すると、 Aは直行行列であるため、逆行列と転置行列が等しくなります。


\begin{aligned}
A &=
\begin{pmatrix}
1 & 1  & 1  &  1 &  1 & {\cdots} & 1 \\
1 &- 1 & 0  &  0 &  0 & {\cdots} & 0 \\
1 & 1  & -2 &  0 &  0 & {\cdots} & 0 \\
1 & 1  & 1  & -3 &  0 & {\cdots} & 0 \\
1 & 1  & 1  &  1 & -4 & {\cdots} & 0 \\
\vdots & \vdots & \vdots & \vdots & \vdots & \ddots & \vdots \\
1 & 1  & 1  &  1 & 1  & {\cdots} & -(n-1)\\
\end{pmatrix}
\end{aligned}


したがって、このようにXYの2乗和が等しくなります。


\begin{aligned}

\begin{pmatrix}
Y_{1} & {\cdots} & Y_{n}
\end{pmatrix}

\begin{pmatrix}
Y_{1} \\ 
{\vdots} \\
Y_{n}
\end{pmatrix}

&=

{}^t\!{
\left(
A
\begin{pmatrix}
X_{1} \\
{\vdots}\\
X_{n}
\end{pmatrix}
\right)
}
A
\begin{pmatrix}
X_{1} \\
{\vdots}\\
X_{n}
\end{pmatrix}\\

&=

\begin{pmatrix}
X_{1} & {\cdots} & X_{n}
\end{pmatrix}
{}^t\!{
A
}
A
\begin{pmatrix}
X_{1} \\
{\vdots}\\
X_{n}
\end{pmatrix}\\

&=

\begin{pmatrix}
X_{1} & {\cdots} & X_{n}
\end{pmatrix}

\begin{pmatrix}
X_{1} \\
{\vdots}\\
X_{n}
\end{pmatrix}

\end{aligned}


ここで、 Xの平均からの残差平方和について考えます。


\begin{aligned}
\sum_{i=1}^{n} \left(X_{i} - \overline{X} \right)^2 &= \sum_{i=1}^{n} \left({X_{i}}^2 - 2 X_{i} \overline{X} + {\overline{X}}^2 \right) \\
&= \sum_{i=1}^{n} {X_{i}}^2 -2\overline{X} \sum_{i=1}^{n} X_{i} + \sum_{i=1}^{n} {\overline{X}}^2 \\
&= \sum_{i=1}^{n} {X_{i}}^2 -2 \frac{\sum_{i=1}^{n} X_{i}}{n} \sum_{i=1}^{n} X_{i} + n\left(\frac{ \sum_{i=1}^{n} X_{i}}{n}\right)^2 \\
&= \sum_{i=1}^{n} {X_{i}}^2 - \frac{ \left(\sum_{i=1}^{n} X_{i} \right)^2}{n} \\
&= \sum_{i=1}^{n} {X_{i}}^2 - {Y_{1}}^2 \\
&= {Y_{1}}^2 + {Y_{2}}^2 + \cdots + {Y_{n}}^2- {Y_{1}}^2 \\
&= {Y_{2}}^2 + \cdots + {Y_{n}}^2 \\
\end{aligned}


ここで、 Y_{n}は互いに独立な分散 {\sigma}^2, 平均0の正規分布に従っているため、正規化する。

 
\begin{aligned}
\sum_{i=1}^{n}\left(\frac{X_{i}-\overline{X}}{\sigma}\right)^2 &=  \left( \frac{Y_{2}}{\sigma}\right)^2 + \cdots + \left( \frac{Y_{n}}{\sigma}\right)^2
\end{aligned}


右辺は平均0、分散1の標準正規分布に従う確率変数 \frac{Y_{n}}{\sigma}の二乗和となることから、自由度n-1の {\chi}^2分布に従う。 よって、標本平均 \overline{X}を持ちいた場合には、自由度n-1の {\chi}^2分布に従うことが分かった。
また、自由度は全て {\chi}^2分布に由来していることが分かった。