データの種別についての雑記
カテゴリカルデータ
データを把握しないと可視化が上手く出来ない。
タイタニックのデータがどういったデータに属するのか整理しておく。
カテゴリカルデータとは
物事の性質を数え上げるデータのこと。
これを計数データという。
例えば性別、血液型(A,B,O,AB)がある。
そして、計数データが持つ男女やA,B,O,ABなどをカテゴリカル変数(Categorical Variable)と呼ぶ。
この中で、さらに2種類に分類される。
一つが性別や血液型の様に順序を持たないデータで、吊義(nominal)尺度データ。
もう一つがアンケートで用いられる満足度の様なカテゴリーの順序に意味を持っている順序(ordinal)尺度データである。
また、カテゴリカルデータが質的なのに対して、量的なデータについても、ある一定の区間で区切ってカテゴリカルデータとして
使用することもある。
タイタニックでは
nominal : Survived, Sex, Embarked
ordinal : Pclass
という結論