集めたデータを整理する最初の一歩、それが「記述統計」です。これを理解すると、データの全体像をスッキリと把握でき、次の分析ステップ(推測統計)でどのような手法を選択したらよいのかわかるようになります。
今回は、連続データと離散データを中心に、平均値と中央値を使ったデータの見方をわかりやすく説明します。
連続データと離散データの違い
データには「測れるもの」と「数えられるもの」があります。例えば:
- 連続データ:身長、体重、カロリー、血圧のように、どこまでも細かく測れるデータ
- 離散データ:治療法(糖質ダイエット・カロリー制限・投薬)や診療回数のように、個数として数えられるデータ
それぞれに適した方法で特徴を整理することが大事です。
平均値と中央値の違い:データの「中心」を見る方法
特に、連続データの中心を把握するための基本的な方法が、平均値と中央値です。
- 平均値:データの合計をデータ数で割った値
- 中央値:データを小さい順に並べて、真ん中に来る値
具体例:リハビリ患者の1日の歩数データ
例えば、10人のリハビリ患者がいます。それぞれの1日の歩数を記録しました。
平均値:この歩数の平均は 9,200歩 です
中央値:歩数を小さい順に並べると、真ん中に来る値は 7,500歩 です
このデータを見ると、平均値は全体の「平均的な量」を示していますが、外れ値(25,000歩)の影響でやや高めになっています。
一方、中央値は「真ん中の患者」のデータを表しており、外れ値の影響を受けていません。
連続データと離散データをどう扱う?
連続データと離散データでは、記述の仕方が異なります。
1. 連続データ(歩数など):
平均値や中央値を使って中心傾向を示す。
範囲(最小値〜最大値)や標準偏差でデータの広がりを見る。
2. 離散データ(診療回数など):
頻度(例:1回の患者が3人、2回が5人)を集計して割合を出す。
グラフで可視化するのも有効(棒グラフやヒストグラム)。
まとめ:記述統計を制するものがデータを制す!
記述統計は、分析のスタート地点。データが「何を伝えようとしているか」を明確にすることで、次の分析がスムーズに進みます。
次回は、データの分布(ばらつき具合)を詳しく見る方法を解説していきます!