2020-06-29

t分布について

２標本の差の検定について纏めておきたいと思います。
2つの標本 $X_{1}, X_{2} \cdots X_{n}$ と $Y_{1}, Y_{2}, \cdots Y_{m}$ について、それぞれの標本の平均を $\overline{X}, \overline{Y}$ とします。

$t$ 分布の定義

$t$ 分布の定義は以下の通りで、標準正規分布と ${\chi}^2$ 分布の商で表されてます。

$\displaystyle \frac{Z}{\sqrt{\frac{W}{n}}}{\sim}t_{n}$

$Z{\sim}N(0, 1)\\ W{\sim}{\chi}^2_{n}$

${\chi}^2$ 分布の自由度のところで証明した様に、平均値と偏差平方和は独立になります。
$Z$ には平均値が入り、 $W$ には偏差平方和が入るので、 $Z, W$ は独立ということになります。

分子の $Z$ について

まず、 $Z$ に入れる値について考えます。

$X, Y$ の母平均を $\mu_{1}, \mu_{2}$ 、母分散を共通として ${\sigma}^2$ とする。

${\chi}^2$ 分布の自由度は母平均 $\mu$ か、標本平均 $\overline{X}$ かで変わる。

$X{\sim}N({\mu, {\sigma}^2})$ の時、

$\begin{aligned} \displaystyle &\left( \frac{X_{1}-\mu}{\sigma}\right)^2 + \left( \frac{X_{2}-\mu}{\sigma} \right)^2 + \cdots + \left( \frac{X_{n}-\mu}{\sigma} \right)^2 {\sim} {\chi}^2_{n}\\ \displaystyle &\left( \frac{X_{1}-\overline{X}}{\sigma}\right)^2 + \left( \frac{X_{2}-\overline{X}}{\sigma} \right)^2 + \cdots + \left( \frac{X_{n}-\overline{X}}{\sigma} \right)^2 {\sim} {\chi}^2_{n-1} \end{aligned}$

また、平均 $\overline{X}$ と偏差 ${( X_{i}-\overline{X} )}^2$ は独立となる。

${\chi}^2$ 分布の再生性(reproduction)
自由度aの ${\chi}^2_{a}$ と、自由度bの ${\chi}^2_{b}$ の和は自由度a+bの ${\chi}^2_{a+b}$ に従う。

2つの母集団から、

$\displaystyle S^2 = \frac{\sum_{i=1}^{n}\left(X_{i} - \overline{X}\right)^2 + \sum_{i=1}^{m}\left(Y_{i} - \overline{Y}\right)^2}{m+n-2}$

ここで、
$\overline{X}$ と $S^2$ は独立
$\overline{Y}$ と $S^2$ は独立

ここで、２つの母集団の母分散が等しい（等分散）であると仮定する。

$\displaystyle X{\sim}N({\mu}_{1}, {\sigma}^2)\\ Y{\sim}N({\mu}_{2}, {\sigma}^2)$

上式の両辺を ${\sigma}^2$ で割って整理すると、下式が得られる。

$\displaystyle \frac{(m+n-2)S^2}{{\sigma}^2} = \sum_{i=1}^{n}\left(\frac{X_{i} - \overline{X}}{\sigma}\right)^2 + \sum_{i=1}^{m}\left(\frac{Y_{i} - \overline{Y}}{\sigma}\right)^2$

右辺は自由度m+n-2の ${\chi}^2$ 分布に従う。

$\displaystyle \sum_{i=1}^{n}\left(\frac{X_{i} - \overline{X}}{\sigma}\right)^2 + \sum_{i=1}^{m}\left(\frac{Y_{i} - \overline{Y}}{\sigma}\right)^2 {\sim} {\chi}^2_{m+n-2}$

次に、 $\overline{X}-\overline{Y}$ の母平均と母分散について考える。

$\begin{aligned} E[ \overline{X}-\overline{Y} ] &= E[ \overline{X} ]-E[ \overline{Y}]\\ &= {\mu}_{1} - {\mu}_{2} \end{aligned}$

$\begin{aligned} V[ \overline{X}-\overline{Y} ] &= V[ \overline{X} ]-V[ \overline{Y} ]\\ &= \frac{{\sigma}^2}{n}+\frac{{\sigma}^2}{m} \end{aligned}$

$\displaystyle \frac{\overline{X}-\overline{Y}-({\mu_{1}}-{\mu}_{2})}{\sqrt{\left(\frac{1}{m}+\frac{1}{n}\right){\sigma}^2}}{\sim}N(0, 1)$

最後に、t分布の式へ代入します。

2020-06-28

直交行列について

直交行列の定義について考えます。

2020-06-28

標本平均を用いた場合のχ２分布の自由度について

標準正規分布 $N(0, 1)$ に従う互いに独立な確率変数 $X_{1}, X_{2}, ...X_{n}$ は、自由度 $n$ の ${\chi}^2$ 分布に従います。

また、正規分布 $N(\mu, {\sigma}^2)$ に従う互いに独立な確率変数 $X_{1}, X_{2}, ...X_{n}$ についても、自由度 $n$ の ${\chi}^2$ 分布に従います。

上記の様な母集団から抽出した標本については、自由度が $n-1$ の ${\chi}^2$ 分布に従います。

自由度が $n-1$ になるのか不明だったので、数学的に確認出来たことを纏めたいと思います。

下記の様な正規分布 $N(\mu, {\sigma}^2)$ に従う互いに独立な確率変数 $X_{1}, X_{2}, ...X_{n}$ について考えます。

$X_{1}, X_{2}, \cdots X_{n}\overset{iid}{\sim}N(\mu, {\sigma}^2)$

次に、変数 $Y_{1}$ を作ります。

$\displaystyle Y_{1}=\frac{X_{1} + X_{2} + \cdots + X_{n}}{\sqrt{n}}$

$Y_{1}$ の平均と分散を計算してみると、

$\begin{aligned} E \left [ Y_{1} \right ] &= E \left [ \frac{X_{1}+X_{2}+ \cdots + X_{n}}{ \sqrt{n}} \right ] \\ &= \frac{1}{\sqrt{n}} E \left [X_{1}+X_{2} + \cdots + X_{n} \right ] \\ &= \frac{1}{\sqrt{n}} ( E\left[ X_{1} \right ] + E\left[ X_{2} \right ] + \cdots + E\left[ X_{n} \right ] ) \\ &= \frac{n{\mu}}{\sqrt{n}} \\ &= {\sqrt{n}}{\mu} \end{aligned}$

$\begin{aligned} V \left [ Y_{1} \right ] &= V \left [ \frac{X_{1}+X_{2}+ \cdots + X_{n}}{ \sqrt{n}} \right ] \\ &= \frac{1}{n} V \left [X_{1}+X_{2} + \cdots + X_{n} \right ] \\ &= \frac{1}{n} ( V\left[ X_{1} \right ] + V\left[ X_{2} \right ] + \cdots + V\left[ X_{n} \right ] ) \\ &={\sigma}^2 \end{aligned}$

次に、 $Y_{1}$ に直行する単位ベクトルを作っていきます。

$\begin{aligned} \displaystyle Y_{2} &=\frac{X_{1} - X_{2}}{\sqrt{2}} \\ \displaystyle Y_{3} &=\frac{X_{1} + X_{2} -2 X_{3}}{\sqrt{6}} \\ &\vdots \\ \displaystyle Y_{n} &=\frac{X_{1} + X_{2} + \cdots + X_{n-1} - (n-1) X_{n}}{\sqrt{n(n-1)}} \\ \end{aligned}$

次にこれらを行列表現していきます。

$\begin{aligned} Y_{1} &= \begin{pmatrix} 1 & 1 & {\cdots} & 1 & 1 \end{pmatrix} \begin{pmatrix} X_{1}\\ {\vdots}\\ X_{n} \end{pmatrix}\\ \end{aligned}$

$\begin{aligned} Y_{2} &= \begin{pmatrix} 1&-1&0&{\cdots}&0 \end{pmatrix} \begin{pmatrix} X_{1}\\ {\vdots}\\ X_{n} \end{pmatrix}\\ \end{aligned}$

$\begin{aligned} Y_{3} &= \begin{pmatrix} 1&1&-2&0&{\cdots}&0 \end{pmatrix} \begin{pmatrix} X_{1}\\ {\vdots}\\ X_{n} \end{pmatrix}\\ \end{aligned}$

$\vdots\\$

$\begin{aligned} Y_{n} &= \begin{pmatrix} 1&1&{\cdots}&1&-(n-1) \end{pmatrix} \begin{pmatrix} X_{1}\\ {\vdots}\\ X_{n} \end{pmatrix}\\ \end{aligned}$

まとめて表現すると、

$\begin{aligned} \begin{pmatrix} Y_{1} \\ Y_{2} \\ Y_{3} \\ Y_{4} \\ Y_{5} \\ {\vdots}\\ Y_{n} \\ \end{pmatrix} &= \begin{pmatrix} 1 & 1 & 1 & 1 & 1 & {\cdots} & 1 \\ 1 &- 1 & 0 & 0 & 0 & {\cdots} & 0 \\ 1 & 1 & -2 & 0 & 0 & {\cdots} & 0 \\ 1 & 1 & 1 & -3 & 0 & {\cdots} & 0 \\ 1 & 1 & 1 & 1 & -4 & {\cdots} & 0 \\ \vdots & \vdots & \vdots & \vdots & \vdots & \ddots & \vdots \\ 1 & 1 & 1 & 1 & 1 & {\cdots} & -(n-1)\\ \end{pmatrix} \begin{pmatrix} X_{1} \\ X_{2} \\ X_{3} \\ X_{4} \\ X_{5} \\ {\vdots}\\ X_{n} \end{pmatrix}\\ \end{aligned}$

$A$ を下記の様に定義すると、 $A$ は直行行列であるため、逆行列と転置行列が等しくなります。

$\begin{aligned} A &= \begin{pmatrix} 1 & 1 & 1 & 1 & 1 & {\cdots} & 1 \\ 1 &- 1 & 0 & 0 & 0 & {\cdots} & 0 \\ 1 & 1 & -2 & 0 & 0 & {\cdots} & 0 \\ 1 & 1 & 1 & -3 & 0 & {\cdots} & 0 \\ 1 & 1 & 1 & 1 & -4 & {\cdots} & 0 \\ \vdots & \vdots & \vdots & \vdots & \vdots & \ddots & \vdots \\ 1 & 1 & 1 & 1 & 1 & {\cdots} & -(n-1)\\ \end{pmatrix} \end{aligned}$

したがって、このように $X$ と $Y$ の2乗和が等しくなります。

$\begin{aligned} \begin{pmatrix} Y_{1} & {\cdots} & Y_{n} \end{pmatrix} \begin{pmatrix} Y_{1} \\ {\vdots} \\ Y_{n} \end{pmatrix} &= {}^t\!{ \left( A \begin{pmatrix} X_{1} \\ {\vdots}\\ X_{n} \end{pmatrix} \right) } A \begin{pmatrix} X_{1} \\ {\vdots}\\ X_{n} \end{pmatrix}\\ &= \begin{pmatrix} X_{1} & {\cdots} & X_{n} \end{pmatrix} {}^t\!{ A } A \begin{pmatrix} X_{1} \\ {\vdots}\\ X_{n} \end{pmatrix}\\ &= \begin{pmatrix} X_{1} & {\cdots} & X_{n} \end{pmatrix} \begin{pmatrix} X_{1} \\ {\vdots}\\ X_{n} \end{pmatrix} \end{aligned}$

ここで、 $X$ の平均からの残差平方和について考えます。

$\begin{aligned} \sum_{i=1}^{n} \left(X_{i} - \overline{X} \right)^2 &= \sum_{i=1}^{n} \left({X_{i}}^2 - 2 X_{i} \overline{X} + {\overline{X}}^2 \right) \\ &= \sum_{i=1}^{n} {X_{i}}^2 -2\overline{X} \sum_{i=1}^{n} X_{i} + \sum_{i=1}^{n} {\overline{X}}^2 \\ &= \sum_{i=1}^{n} {X_{i}}^2 -2 \frac{\sum_{i=1}^{n} X_{i}}{n} \sum_{i=1}^{n} X_{i} + n\left(\frac{ \sum_{i=1}^{n} X_{i}}{n}\right)^2 \\ &= \sum_{i=1}^{n} {X_{i}}^2 - \frac{ \left(\sum_{i=1}^{n} X_{i} \right)^2}{n} \\ &= \sum_{i=1}^{n} {X_{i}}^2 - {Y_{1}}^2 \\ &= {Y_{1}}^2 + {Y_{2}}^2 + \cdots + {Y_{n}}^2- {Y_{1}}^2 \\ &= {Y_{2}}^2 + \cdots + {Y_{n}}^2 \\ \end{aligned}$

ここで、 $Y_{n}$ は互いに独立な分散 ${\sigma}^2$ , 平均0の正規分布に従っているため、正規化する。

$\begin{aligned} \sum_{i=1}^{n}\left(\frac{X_{i}-\overline{X}}{\sigma}\right)^2 &= \left( \frac{Y_{2}}{\sigma}\right)^2 + \cdots + \left( \frac{Y_{n}}{\sigma}\right)^2 \end{aligned}$

右辺は平均0、分散1の標準正規分布に従う確率変数 $\frac{Y_{n}}{\sigma}$ の二乗和となることから、自由度n-1の ${\chi}^2$ 分布に従う。よって、標本平均 $\overline{X}$ を持ちいた場合には、自由度n-1の ${\chi}^2$ 分布に従うことが分かった。
また、自由度は全て ${\chi}^2$ 分布に由来していることが分かった。

2020-06-26

標準化について

統計学では標準化とは、平均が０、分散が１のデータへ変換することを言う。

正規化とも呼ばれる。

この平均０、分散１へ変換出来ることを数学的に確かめたいと思う。

ある確率変数 $X$ について、母平均を $μ$ とすると、期待値は下記の様に表される。

$μ = E(X)$

$\Longleftrightarrow 0 = E(X) - μ$

$\Longleftrightarrow 0 = E(X - μ)$

これより、確率変数 $X-μ$ の平均は０となることが示せた。

次に、分散について考えてみる。

同様に確率変数 $X$ の標準偏差を $\sigma$ として、分散を ${\sigma}^2$ とすると、分散は下記の様に表される。

${\sigma}^2 = V(X)$

$\displaystyle \Longleftrightarrow 1 = \frac{V(X)}{{\sigma}^2}$

$\displaystyle \Longleftrightarrow 1 = V(\frac{X}{\sigma})$

これより、確率変数 $\displaystyle \frac{X}{\sigma}$ の分散が１となることが示せた。

期待値と分散の加減乗除を理解するだけでも、基本的なことを証明できる様になるので良いと思う。

2020-04-29

UbuntuでUbuntuのisoファイルを作成する

www.archlinux.site

まず設置したUSBがどのような名称となっているのか確認します。
ここでは/dev/sda1というファイル名となっています。

sudo fdisk -l


デバイス   起動 開始位置 最後から   セクタ サイズ Id タイプ
/dev/sda1  *        2048 15204351 15202304   7.3G  c W95 FAT32 (LBA)

次に、USBを一度フォーマットするためにマウントを外します。

sudo umount /dev/sda1

フォーマットを実行します。

sudo mkdosfs -F32 -nUSB /dev/sda1

次に、Ubuntuのisoイメージをダウンロードしてきます。

www.ubuntulinux.jp

最後にisoイメージをUSBへ焼きます。 if=の部分が焼き付ける元のisoファイルのパスを指定します。 of=の部分に先程調べたデバイス名を指定します。 bs=の部分は一度に焼くファイルサイズです。

sudo dd bs=4M if=/home/wataru/Downloads/ubuntu-ja-18.04.3-desktop-amd64.iso of=/dev/sda1 status=progress && sync

2020-02-12

DockerでMySQLの公式イメージを使ってみる

雑記

まずはMySQLのイメージをプルしてくる。

あとパスワードと接続先ポートを設定する。

docker pull mysql

docker run --name mysql -e MYSQL_ROOT_PASSWORD=mysql -d -p 3306:3306 mysql

hub.docker.com

あとはdocker execコマンドでmysqlへ接続するだけ。

$ docker exec -it [コンテナID] bash

$ mysql -u root -p

パスワードを聞かれたら設定したmysqlと入力。

2020-02-11

FPがお多い方が良いのか、それともFNが多い方が良いのか？

統計学

多すぎるFPがいいのか？それとも多すぎるFNが良いのか？

解決しようとしているドメインによります。

医療統計の分野では、FNは実際は存在するはずが、病気が存在しないと医師や患者へ間違って安心させるメッセージを提供するでしょう。
このことは、時に、患者と病気両方への適切ではない、または不十分な処置へ導いてしまいます。
このため、この場合には多くのFPが望まれます。

スパムフィルタリングの例を取ると、FPは、スパムフィルタリングやスパムブロックの技術が、間違って正当なメールをスパムとして分類する場合に発生します。
その結果、配信の障害を引き起こすことになります。

ほとんどのアンチスパムの戦術は不要なメールを高い確率でブロックしたりフィルターしたりすることが出来ますが、
重大なFPを発生させないことがより大きな要求となります。
このため、この場合には、FPよりもFNの方が良いということになります。

小梅の日記帳

覚書き、メモ、等々残していくつもりです。

t分布について

$t$ 分布の定義

分子の $Z$ について

直交行列について

標本平均を用いた場合のχ２分布の自由度について

標準化について

UbuntuでUbuntuのisoファイルを作成する

DockerでMySQLの公式イメージを使ってみる

FPがお多い方が良いのか、それともFNが多い方が良いのか？

分布の定義

分子のについて

$t$ 分布の定義

分子の $Z$ について