t分布について
2標本の差の検定について纏めておきたいと思います。
2つの標本とについて、
それぞれの標本の平均をとします。
分布の定義
分布の定義は以下の通りで、標準正規分布と分布の商で表されてます。
分布の自由度のところで証明した様に、平均値と偏差平方和は独立になります。
には平均値が入り、には偏差平方和が入るので、は独立ということになります。
分子のについて
まず、に入れる値について考えます。
の母平均を、母分散を共通としてとする。
分布の自由度は母平均か、標本平均かで変わる。
の時、
また、平均と偏差は独立となる。
分布の再生性(reproduction)
自由度aのと、自由度bのの和は自由度a+bのに従う。
2つの母集団から、
ここで、
とは独立
とは独立
ここで、2つの母集団の母分散が等しい(等分散)であると仮定する。
上式の両辺をで割って整理すると、下式が得られる。
右辺は自由度m+n-2の分布に従う。
次に、の母平均と母分散について考える。
最後に、t分布の式へ代入します。
直交行列について
直交行列の定義について考えます。
標本平均を用いた場合のχ2分布の自由度について
標準正規分布に従う互いに独立な確率変数は、自由度の分布に従います。
また、正規分布に従う互いに独立な確率変数についても、自由度の分布に従います。
上記の様な母集団から抽出した標本については、自由度がの分布に従います。
自由度がになるのか不明だったので、数学的に確認出来たことを纏めたいと思います。
下記の様な正規分布に従う互いに独立な確率変数について考えます。
次に、変数を作ります。
の平均と分散を計算してみると、
次に、に直行する単位ベクトルを作っていきます。
次にこれらを行列表現していきます。
まとめて表現すると、
を下記の様に定義すると、は直行行列であるため、逆行列と転置行列が等しくなります。
したがって、このようにとの2乗和が等しくなります。
ここで、の平均からの残差平方和について考えます。
ここで、は互いに独立な分散, 平均0の正規分布に従っているため、正規化する。
右辺は平均0、分散1の標準正規分布に従う確率変数の二乗和となることから、自由度n-1の分布に従う。
よって、標本平均を持ちいた場合には、自由度n-1の分布に従うことが分かった。
また、自由度は全て分布に由来していることが分かった。
UbuntuでUbuntuのisoファイルを作成する
まず設置したUSBがどのような名称となっているのか確認します。
ここでは/dev/sda1というファイル名となっています。
sudo fdisk -l デバイス 起動 開始位置 最後から セクタ サイズ Id タイプ /dev/sda1 * 2048 15204351 15202304 7.3G c W95 FAT32 (LBA)
次に、USBを一度フォーマットするためにマウントを外します。
sudo umount /dev/sda1
フォーマットを実行します。
sudo mkdosfs -F32 -nUSB /dev/sda1
次に、Ubuntuのisoイメージをダウンロードしてきます。
最後にisoイメージをUSBへ焼きます。 if=の部分が焼き付ける元のisoファイルのパスを指定します。 of=の部分に先程調べたデバイス名を指定します。 bs=の部分は一度に焼くファイルサイズです。
sudo dd bs=4M if=/home/wataru/Downloads/ubuntu-ja-18.04.3-desktop-amd64.iso of=/dev/sda1 status=progress && sync
DockerでMySQLの公式イメージを使ってみる
FPがお多い方が良いのか、それともFNが多い方が良いのか?
多すぎるFPがいいのか?それとも多すぎるFNが良いのか?
解決しようとしているドメインによります。
医療統計の分野では、FNは実際は存在するはずが、病気が存在しないと医師や患者へ間違って安心させるメッセージを提供するでしょう。
このことは、時に、患者と病気両方への適切ではない、または不十分な処置へ導いてしまいます。
このため、この場合には多くのFPが望まれます。
スパムフィルタリングの例を取ると、FPは、スパムフィルタリングやスパムブロックの技術が、間違って正当なメールをスパムとして分類する場合に発生します。
その結果、配信の障害を引き起こすことになります。
ほとんどのアンチスパムの戦術は不要なメールを高い確率でブロックしたりフィルターしたりすることが出来ますが、
重大なFPを発生させないことがより大きな要求となります。
このため、この場合には、FPよりもFNの方が良いということになります。