臨床と統計をつなぐブログ

コメディカルのみなさんをサポートしたい

データ整理の第一歩 ~平均値と中央値の使い方~

集めたデータを整理する最初の一歩、それが「記述統計」です。これを理解すると、データの全体像をスッキリと把握でき、次の分析ステップ(推測統計)でどのような手法を選択したらよいのかわかるようになります。

今回は、連続データと離散データを中心に、平均値と中央値を使ったデータの見方をわかりやすく説明します。

連続データと離散データの違い

データには「測れるもの」と「数えられるもの」があります。例えば:

  • 連続データ:身長、体重、カロリー、血圧のように、どこまでも細かく測れるデータ
  • 離散データ:治療法(糖質ダイエット・カロリー制限・投薬)や診療回数のように、個数として数えられるデータ

それぞれに適した方法で特徴を整理することが大事です。

平均値と中央値の違い:データの「中心」を見る方法

特に、連続データの中心を把握するための基本的な方法が、平均値と中央値です。

  • 平均値:データの合計をデータ数で割った値
  • 中央値:データを小さい順に並べて、真ん中に来る値

具体例:リハビリ患者の1日の歩数データ

例えば、10人のリハビリ患者がいます。それぞれの1日の歩数を記録しました。

平均値:この歩数の平均は 9,200歩 です

中央値:歩数を小さい順に並べると、真ん中に来る値は 7,500歩 です

このデータを見ると、平均値は全体の「平均的な量」を示していますが、外れ値(25,000歩)の影響でやや高めになっています。

一方、中央値は「真ん中の患者」のデータを表しており、外れ値の影響を受けていません

連続データと離散データをどう扱う?

連続データと離散データでは、記述の仕方が異なります。

1. 連続データ(歩数など):

 平均値や中央値を使って中心傾向を示す。

 範囲(最小値〜最大値)や標準偏差でデータの広がりを見る。

2. 離散データ(診療回数など):

 頻度(例:1回の患者が3人、2回が5人)を集計して割合を出す。

 グラフで可視化するのも有効(棒グラフやヒストグラム)。

まとめ:記述統計を制するものがデータを制す!

記述統計は、分析のスタート地点。データが「何を伝えようとしているか」を明確にすることで、次の分析がスムーズに進みます。

次回は、データの分布(ばらつき具合)を詳しく見る方法を解説していきます!