小梅の日記帳

覚書き、メモ、等々残していくつもりです。

データの種別についての雑記

カテゴリカルデータ

データを把握しないと可視化が上手く出来ない。

タイタニックのデータがどういったデータに属するのか整理しておく。

カテゴリカルデータとは

物事の性質を数え上げるデータのこと。

これを計数データという。

例えば性別、血液型(A,B,O,AB)がある。

そして、計数データが持つ男女やA,B,O,ABなどをカテゴリカル変数(Categorical Variable)と呼ぶ。

この中で、さらに2種類に分類される。

一つが性別や血液型の様に順序を持たないデータで、吊義(nominal)尺度データ。

もう一つがアンケートで用いられる満足度の様なカテゴリーの順序に意味を持っている順序(ordinal)尺度データである。

また、カテゴリカルデータが質的なのに対して、量的なデータについても、ある一定の区間で区切ってカテゴリカルデータとして

使用することもある。

タイタニックでは

  • nominal : Survived, Sex, Embarked

  • ordinal : Pclass

という結論