小梅の日記帳

覚書き、メモ、等々残していくつもりです。

t分布について

2標本の差の検定について纏めておきたいと思います。
2つの標本 X_{1}, X_{2} \cdots X_{n} Y_{1}, Y_{2}, \cdots Y_{m}について、 それぞれの標本の平均を \overline{X}, \overline{Y}とします。

 t分布の定義

 t分布の定義は以下の通りで、標準正規分布 {\chi}^2分布の商で表されてます。


\displaystyle \frac{Z}{\sqrt{\frac{W}{n}}}{\sim}t_{n}

Z{\sim}N(0, 1)\\
W{\sim}{\chi}^2_{n}

 {\chi}^2分布の自由度のところで証明した様に、平均値と偏差平方和は独立になります。
 Zには平均値が入り、 Wには偏差平方和が入るので、 Z, Wは独立ということになります。

分子の Zについて

まず、 Zに入れる値について考えます。

 X, Yの母平均を \mu_{1}, \mu_{2}、母分散を共通として {\sigma}^2とする。


 {\chi}^2分布の自由度は母平均 \muか、標本平均 \overline{X}かで変わる。

 X{\sim}N({\mu, {\sigma}^2})の時、


\begin{aligned}
\displaystyle
&\left( \frac{X_{1}-\mu}{\sigma}\right)^2 +
\left( \frac{X_{2}-\mu}{\sigma} \right)^2 +
\cdots +
\left( \frac{X_{n}-\mu}{\sigma} \right)^2
{\sim} {\chi}^2_{n}\\

\displaystyle
&\left( \frac{X_{1}-\overline{X}}{\sigma}\right)^2 +
\left( \frac{X_{2}-\overline{X}}{\sigma} \right)^2 +
\cdots +
\left( \frac{X_{n}-\overline{X}}{\sigma} \right)^2
{\sim} {\chi}^2_{n-1}
\end{aligned}


また、平均 \overline{X}と偏差 {( X_{i}-\overline{X} )}^2は独立となる。



 {\chi}^2分布の再生性(reproduction)
自由度aの {\chi}^2_{a}と、自由度bの {\chi}^2_{b}の和は自由度a+bの {\chi}^2_{a+b}に従う。

2つの母集団から、

 
\displaystyle
S^2 = 
\frac{\sum_{i=1}^{n}\left(X_{i} - \overline{X}\right)^2 + \sum_{i=1}^{m}\left(Y_{i} - \overline{Y}\right)^2}{m+n-2}

ここで、
 \overline{X} S^2は独立
 \overline{Y} S^2は独立



ここで、2つの母集団の母分散が等しい(等分散)であると仮定する。

 
\displaystyle
X{\sim}N({\mu}_{1}, {\sigma}^2)\\
Y{\sim}N({\mu}_{2}, {\sigma}^2)


上式の両辺を {\sigma}^2で割って整理すると、下式が得られる。

 
\displaystyle
\frac{(m+n-2)S^2}{{\sigma}^2} = \sum_{i=1}^{n}\left(\frac{X_{i} - \overline{X}}{\sigma}\right)^2 + \sum_{i=1}^{m}\left(\frac{Y_{i} - \overline{Y}}{\sigma}\right)^2

右辺は自由度m+n-2の {\chi}^2分布に従う。

 
\displaystyle
\sum_{i=1}^{n}\left(\frac{X_{i} - \overline{X}}{\sigma}\right)^2 + \sum_{i=1}^{m}\left(\frac{Y_{i} - \overline{Y}}{\sigma}\right)^2 {\sim} {\chi}^2_{m+n-2}



次に、 \overline{X}-\overline{Y}の母平均と母分散について考える。


\begin{aligned}
E[ \overline{X}-\overline{Y} ] &= E[ \overline{X} ]-E[ \overline{Y}]\\
&= {\mu}_{1} - {\mu}_{2}
\end{aligned}

\begin{aligned}
V[ \overline{X}-\overline{Y} ] &= V[ \overline{X} ]-V[ \overline{Y} ]\\
&= \frac{{\sigma}^2}{n}+\frac{{\sigma}^2}{m}
\end{aligned}

\displaystyle
\frac{\overline{X}-\overline{Y}-({\mu_{1}}-{\mu}_{2})}{\sqrt{\left(\frac{1}{m}+\frac{1}{n}\right){\sigma}^2}}{\sim}N(0, 1)

最後に、t分布の式へ代入します。

標本平均を用いた場合のχ2分布の自由度について

標準正規分布 N(0, 1)に従う互いに独立な確率変数 X_{1}, X_{2}, ...X_{n}は、自由度 n {\chi}^2分布に従います。

また、正規分布 N(\mu, {\sigma}^2)に従う互いに独立な確率変数 X_{1}, X_{2}, ...X_{n}についても、自由度 n {\chi}^2分布に従います。

上記の様な母集団から抽出した標本については、自由度が n-1 {\chi}^2分布に従います。

自由度が n-1になるのか不明だったので、数学的に確認出来たことを纏めたいと思います。

下記の様な正規分布 N(\mu, {\sigma}^2)に従う互いに独立な確率変数 X_{1}, X_{2}, ...X_{n}について考えます。

 X_{1}, X_{2}, \cdots X_{n}\overset{iid}{\sim}N(\mu, {\sigma}^2)



次に、変数 Y_{1}を作ります。

 \displaystyle Y_{1}=\frac{X_{1} + X_{2} + \cdots + X_{n}}{\sqrt{n}}

 Y_{1}の平均と分散を計算してみると、


\begin{aligned}
E \left [ Y_{1} \right ] &= E \left [ \frac{X_{1}+X_{2}+ \cdots + X_{n}}{ \sqrt{n}} \right ] \\
&= \frac{1}{\sqrt{n}} E \left [X_{1}+X_{2} + \cdots + X_{n} \right ] \\
&= \frac{1}{\sqrt{n}} ( E\left[ X_{1} \right ] + E\left[ X_{2} \right ] + \cdots + E\left[ X_{n} \right ]  ) \\
&= \frac{n{\mu}}{\sqrt{n}} \\
&= {\sqrt{n}}{\mu}
\end{aligned}

\begin{aligned}
V \left [ Y_{1} \right ] &= V \left [ \frac{X_{1}+X_{2}+ \cdots + X_{n}}{ \sqrt{n}} \right ] \\
&= \frac{1}{n} V \left [X_{1}+X_{2} + \cdots + X_{n} \right ] \\
&= \frac{1}{n} ( V\left[ X_{1} \right ] + V\left[ X_{2} \right ] + \cdots + V\left[ X_{n} \right ]  ) \\
&={\sigma}^2
\end{aligned}


次に、 Y_{1}に直行する単位ベクトルを作っていきます。


\begin{aligned}
\displaystyle Y_{2} &=\frac{X_{1} - X_{2}}{\sqrt{2}} \\
\displaystyle Y_{3} &=\frac{X_{1} + X_{2} -2 X_{3}}{\sqrt{6}} \\
&\vdots \\
\displaystyle Y_{n} &=\frac{X_{1} + X_{2} + \cdots + X_{n-1} - (n-1) X_{n}}{\sqrt{n(n-1)}} \\
\end{aligned}


次にこれらを行列表現していきます。


\begin{aligned}
Y_{1} &=
\begin{pmatrix}
1 & 1 & {\cdots} & 1 & 1
\end{pmatrix}
\begin{pmatrix}
X_{1}\\
{\vdots}\\
X_{n}
\end{pmatrix}\\
\end{aligned}

\begin{aligned}
Y_{2} &=
\begin{pmatrix}
1&-1&0&{\cdots}&0
\end{pmatrix}
\begin{pmatrix}
X_{1}\\
{\vdots}\\
X_{n}
\end{pmatrix}\\
\end{aligned}

\begin{aligned}
Y_{3} &=
\begin{pmatrix}
1&1&-2&0&{\cdots}&0
\end{pmatrix}
\begin{pmatrix}
X_{1}\\
{\vdots}\\
X_{n}
\end{pmatrix}\\
\end{aligned}

\vdots\\

\begin{aligned}
Y_{n} &=
\begin{pmatrix}
1&1&{\cdots}&1&-(n-1)
\end{pmatrix}
\begin{pmatrix}
X_{1}\\
{\vdots}\\
X_{n}
\end{pmatrix}\\
\end{aligned}


まとめて表現すると、


\begin{aligned}
\begin{pmatrix}
Y_{1} \\
Y_{2} \\
Y_{3} \\
Y_{4} \\
Y_{5} \\
{\vdots}\\
Y_{n} \\
\end{pmatrix}
&=
\begin{pmatrix}
1 & 1  & 1  &  1 &  1 & {\cdots} & 1 \\
1 &- 1 & 0  &  0 &  0 & {\cdots} & 0 \\
1 & 1  & -2 &  0 &  0 & {\cdots} & 0 \\
1 & 1  & 1  & -3 &  0 & {\cdots} & 0 \\
1 & 1  & 1  &  1 & -4 & {\cdots} & 0 \\
\vdots & \vdots & \vdots & \vdots & \vdots & \ddots & \vdots \\
1 & 1  & 1  &  1 & 1  & {\cdots} & -(n-1)\\
\end{pmatrix}
\begin{pmatrix}
X_{1} \\
X_{2} \\
X_{3} \\
X_{4} \\
X_{5} \\
{\vdots}\\
X_{n}
\end{pmatrix}\\
\end{aligned}


 Aを下記の様に定義すると、 Aは直行行列であるため、逆行列と転置行列が等しくなります。


\begin{aligned}
A &=
\begin{pmatrix}
1 & 1  & 1  &  1 &  1 & {\cdots} & 1 \\
1 &- 1 & 0  &  0 &  0 & {\cdots} & 0 \\
1 & 1  & -2 &  0 &  0 & {\cdots} & 0 \\
1 & 1  & 1  & -3 &  0 & {\cdots} & 0 \\
1 & 1  & 1  &  1 & -4 & {\cdots} & 0 \\
\vdots & \vdots & \vdots & \vdots & \vdots & \ddots & \vdots \\
1 & 1  & 1  &  1 & 1  & {\cdots} & -(n-1)\\
\end{pmatrix}
\end{aligned}


したがって、このようにXYの2乗和が等しくなります。


\begin{aligned}

\begin{pmatrix}
Y_{1} & {\cdots} & Y_{n}
\end{pmatrix}

\begin{pmatrix}
Y_{1} \\ 
{\vdots} \\
Y_{n}
\end{pmatrix}

&=

{}^t\!{
\left(
A
\begin{pmatrix}
X_{1} \\
{\vdots}\\
X_{n}
\end{pmatrix}
\right)
}
A
\begin{pmatrix}
X_{1} \\
{\vdots}\\
X_{n}
\end{pmatrix}\\

&=

\begin{pmatrix}
X_{1} & {\cdots} & X_{n}
\end{pmatrix}
{}^t\!{
A
}
A
\begin{pmatrix}
X_{1} \\
{\vdots}\\
X_{n}
\end{pmatrix}\\

&=

\begin{pmatrix}
X_{1} & {\cdots} & X_{n}
\end{pmatrix}

\begin{pmatrix}
X_{1} \\
{\vdots}\\
X_{n}
\end{pmatrix}

\end{aligned}


ここで、 Xの平均からの残差平方和について考えます。


\begin{aligned}
\sum_{i=1}^{n} \left(X_{i} - \overline{X} \right)^2 &= \sum_{i=1}^{n} \left({X_{i}}^2 - 2 X_{i} \overline{X} + {\overline{X}}^2 \right) \\
&= \sum_{i=1}^{n} {X_{i}}^2 -2\overline{X} \sum_{i=1}^{n} X_{i} + \sum_{i=1}^{n} {\overline{X}}^2 \\
&= \sum_{i=1}^{n} {X_{i}}^2 -2 \frac{\sum_{i=1}^{n} X_{i}}{n} \sum_{i=1}^{n} X_{i} + n\left(\frac{ \sum_{i=1}^{n} X_{i}}{n}\right)^2 \\
&= \sum_{i=1}^{n} {X_{i}}^2 - \frac{ \left(\sum_{i=1}^{n} X_{i} \right)^2}{n} \\
&= \sum_{i=1}^{n} {X_{i}}^2 - {Y_{1}}^2 \\
&= {Y_{1}}^2 + {Y_{2}}^2 + \cdots + {Y_{n}}^2- {Y_{1}}^2 \\
&= {Y_{2}}^2 + \cdots + {Y_{n}}^2 \\
\end{aligned}


ここで、 Y_{n}は互いに独立な分散 {\sigma}^2, 平均0の正規分布に従っているため、正規化する。

 
\begin{aligned}
\sum_{i=1}^{n}\left(\frac{X_{i}-\overline{X}}{\sigma}\right)^2 &=  \left( \frac{Y_{2}}{\sigma}\right)^2 + \cdots + \left( \frac{Y_{n}}{\sigma}\right)^2
\end{aligned}


右辺は平均0、分散1の標準正規分布に従う確率変数 \frac{Y_{n}}{\sigma}の二乗和となることから、自由度n-1の {\chi}^2分布に従う。 よって、標本平均 \overline{X}を持ちいた場合には、自由度n-1の {\chi}^2分布に従うことが分かった。
また、自由度は全て {\chi}^2分布に由来していることが分かった。

標準化について

統計学では標準化とは、平均が0、分散が1のデータへ変換することを言う。

正規化とも呼ばれる。

この平均0、分散1へ変換出来ることを数学的に確かめたいと思う。

ある確率変数Xについて、母平均をμとすると、期待値は下記の様に表される。

μ = E(X)

\Longleftrightarrow 0 = E(X) - μ

\Longleftrightarrow 0 = E(X - μ)

これより、確率変数X-μの平均は0となることが示せた。

次に、分散について考えてみる。

同様に確率変数X標準偏差\sigmaとして、分散を {\sigma}^2 とすると、分散は下記の様に表される。

{\sigma}^2 = V(X)

\displaystyle \Longleftrightarrow 1 = \frac{V(X)}{{\sigma}^2}

\displaystyle \Longleftrightarrow 1 = V(\frac{X}{\sigma})

これより、確率変数\displaystyle \frac{X}{\sigma}の分散が1となることが示せた。

期待値と分散の加減乗除を理解するだけでも、基本的なことを証明できる様になるので良いと思う。

UbuntuでUbuntuのisoファイルを作成する

www.archlinux.site

まず設置したUSBがどのような名称となっているのか確認します。
ここでは/dev/sda1というファイル名となっています。

sudo fdisk -l


デバイス   起動 開始位置 最後から   セクタ サイズ Id タイプ
/dev/sda1  *        2048 15204351 15202304   7.3G  c W95 FAT32 (LBA)

次に、USBを一度フォーマットするためにマウントを外します。

sudo umount /dev/sda1

フォーマットを実行します。

sudo mkdosfs -F32 -nUSB /dev/sda1

次に、Ubuntuのisoイメージをダウンロードしてきます。

www.ubuntulinux.jp

最後にisoイメージをUSBへ焼きます。 if=の部分が焼き付ける元のisoファイルのパスを指定します。 of=の部分に先程調べたデバイス名を指定します。 bs=の部分は一度に焼くファイルサイズです。

sudo dd bs=4M if=/home/wataru/Downloads/ubuntu-ja-18.04.3-desktop-amd64.iso of=/dev/sda1 status=progress && sync

DockerでMySQLの公式イメージを使ってみる

まずはMySQLのイメージをプルしてくる。

あとパスワードと接続先ポートを設定する。

docker pull mysql

docker run --name mysql -e MYSQL_ROOT_PASSWORD=mysql -d -p 3306:3306 mysql

hub.docker.com

あとはdocker execコマンドでmysqlへ接続するだけ。

$ docker exec -it [コンテナID] bash

$ mysql -u root -p

パスワードを聞かれたら設定したmysqlと入力。

FPがお多い方が良いのか、それともFNが多い方が良いのか?

多すぎるFPがいいのか?それとも多すぎるFNが良いのか?

解決しようとしているドメインによります。

医療統計の分野では、FNは実際は存在するはずが、病気が存在しないと医師や患者へ間違って安心させるメッセージを提供するでしょう。
このことは、時に、患者と病気両方への適切ではない、または不十分な処置へ導いてしまいます。
このため、この場合には多くのFPが望まれます。

スパムフィルタリングの例を取ると、FPは、スパムフィルタリングやスパムブロックの技術が、間違って正当なメールをスパムとして分類する場合に発生します。
その結果、配信の障害を引き起こすことになります。

ほとんどのアンチスパムの戦術は不要なメールを高い確率でブロックしたりフィルターしたりすることが出来ますが、
重大なFPを発生させないことがより大きな要求となります。
このため、この場合には、FPよりもFNの方が良いということになります。