今回は分散・標準偏差の意味についてサクッと説明していきます。(数列の知識も使います)
「データ分析」と「確率分布」両方に出てくる単元です。データ分析を習ったけど、式を丸暗記しただけで何を表しているのかさっぱりという人の為に書いていきます。
分散・標準偏差とはいったい何?
ズバリ言います。分散と標準偏差は、「平均」からの散らばり度合いを表す値です。
散らばり度合いを表すもの
↓データ分析を履修していない人は飛ばして読んでください。
データ分析をすでに履修している人は、「分散」「標準偏差」という言葉を習う前に、散らばり度合いを表すものを勉強しています。
「範囲」「四分位範囲」「箱ひげ図」等です。
「範囲」はデータの最大値から最小値を引いたもので、データがどの区間に収まっているのかを表します。
「四分位範囲」は「範囲」の中でも他と比べて極端に大きいデータや極端に小さいデータが存在する場合、それを例外として、おおよそどれくらいのところにデータが集まっているのかを表します。
「箱ひげ図」は上に記述した「範囲」「四分位範囲」が見た目でわかるように図で示したものです。四分位範囲を箱で表し、それが小さければデータが密集していて、箱が大きい場合はデータが散らばっていると判断できます。
分散・標準偏差でわかること
では、上で記述した、散らばり度合いを表すものと一体何が違うのか。
それは、「平均」からの散らばり度合いということです。
どこにデータが集中しているとかではなく、平均からどれくらいばらつきがあるのかを示すものです。
各データから「平均」を引いたものを「偏差」といいます。この偏差について調べた値が「分散」「標準偏差」です。
分散の定義
では、それを踏まえて公式を改めて眺めてみます。
【データ】 \(x_1,x_2,x_3,……,x_n\)
について、分散は、
$$\frac{1}{n}\displaystyle\sum_{k=1}^{n}(x_k-\bar{x})^2$$
となります。ここで、\(x_k-\bar{x}\)は「偏差」(平均からのどれくらい差があるか)を表します。
一番手前に掛け算している\(\frac{1}{n}\)はデータの個数で割り算していることから、「偏差」についての平均をとっていることになります。
では、なぜ「偏差」を2乗してから平均をとっているのか?
分散はなぜ「偏差」を2乗してから平均をとるのか
公式でややこしくしているのは、この「2乗」なんですが、2乗する理由がしっかりとあります。
「偏差」を集めて平均を出せるなら、それが一番なのですが、、、ちょっと、2乗しないで計算してみましょう。
$$\frac{1}{n}\displaystyle\sum_{k=1}^{n}(x_k-\bar{x})=\frac{1}{n}\displaystyle\sum_{k=1}^{n}x_k-\frac{1}{n}\displaystyle\sum_{k=1}^{n}\bar{x}$$
\(\frac{1}{n}\displaystyle\sum_{k=1}^{n}x_k\)は各データの平均を表すので、\(\bar{x}\)に書き換えても問題なさそうです。
また、\(\frac{1}{n}\displaystyle\sum_{k=1}^{n}\bar{x}\)について計算すると、、、
$$\frac{1}{n}\displaystyle\sum_{k=1}^{n}\bar{x}=\frac{1}{n}\bar{x}n=\bar{x}$$
となるので、こちらも平均を表します。なので、計算すると「0」になってしまい散らばり度合いが表現できなくなってしまうのです。
「0」になった理由は、、各データは必ず「平均より大きい値」と「平均より小さい値」で構成されており(平均ぴったりの値もあるが、、)
・(平均より大きい値)ー(平均)=(正の値)
・(平均より小さい値)ー(平均)=(負の値)
これらを足し合わせることによって、せっかく求めた「偏差」(平均からの距離)が「正の値」と「負の値」で相殺してしまったんです。
なので、「2乗」して偏差を「正の値」にすることで、偏差を集めることを可能にしたのです。
標準偏差とは
「2乗」したものを集めているわけだから、本来のデータとは次元(単位)が違ってしまって扱いづらいことがあります。
例えば、靴のサイズのデータは「㎝」という単位ですが、分散においての単位は「㎠」という単位になってしまって扱いづらく感じます。
それを解消するために、ルートを付けてあげて本来の単位に戻してあげます。
まとめ
分散は何を表す値なのか、なんで2乗するのか等、公式についてじっくり見ていくと丸暗記では無くなり、しっかりとデータの分析に利用できると思います。
最後まで見てくれた皆さん、これからも頑張ってください。
式変形については、シグマ記号を利用することによって簡単に表記できるようになっていますので、数列の単元が終わってから勉強するとわかりやすかったりします。
また、「分散」にはさらにもう一つ公式があります。今回は「分散」「標準偏差」の意味についての説明だったので省略しました。もう一つの「分散」の公式ついても、また紹介していこうと思います。
コメント