基本統計量とは、データの中心傾向やばらつきを表す統計量のことです。
主な基本統計量には、平均値、中央値、最頻値、標準偏差、分散、四分位数があります。
データの中心を表す代表値
データの中心を表す代表値は基本統計量の中でも頻繁に使われます。
平均値
平均値は一連の数値データの合計を、データ数で割った値あり、データの重心を表します。
日常生活でも使われる用語のため、馴染みが深く伝えやすい統計量であることが特徴です。
注意点として、極端に大きい(もしくは小さい)値に平均値が引っ張られてしまいます。
このような極端な値は外れ値と呼ばれます。
外れ値の影響を減らしたい場合は、後述する中央値で見ることで解決できます。
中央値
中央値はデータを小さい順に並べたときに、中央に位置する値です。
平均値と異なり極端に大きい(もしくは小さい)値の影響を受けにくい特徴があります。
最大値
最大値はデータの中で一番大きな値を表します。
最小値
最小値はデータの中で一番小さな値を表します。
最頻値
最頻値はデータの中で最も頻繁に出現する値です。
中央値や平均値とは異なり値の大小関係には関係しません。
データの頻度に基づいて求められるため、数値ではないデータにも適用できます。
データの広がりを表す代表値
データの広がりを表す代表値はデータ全体の特徴を表しています。
標準偏差
標準偏差はデータが平均値からのどの程度ばらついているかを表します。
各データと平均値の差を2乗した値を平均し根号をとったものです。
標準偏差
$$ s=\sqrt{\frac{1}{n}\sum_{i=1}^n (x_{i}-\overline{x})^2}$$s=標準偏差、n:データ数、x:データの値、x̄:データの平均
四分位数
四分位数は、データを4つに分割するための値であり、データのばらつきや分布、外れ値を把握するために用いられます。
データの中央値を中心に、下位25%、50%、75%に位置する値を示します。
- 第1四分位数:データの下位25%に位置する値
- 第2四分位数:データの50%に位置する値(中央値)
- 第3四分位数:データの上位25%に位置する値
第3四分位数から第1四分位数を引いた値は四分位範囲(IQR)と呼ばれます。
箱ひげ図を書く際に四分位数は用いられ、第1四分位数や第3四分位数からIQRの1.5倍以上離れた値は外れ値として判断します。
範囲
範囲はデータがどの範囲に含まれているかを表します。
最大値から最小値を引くことで計算できます。
尖度
尖度は分布の尖り具合を表します。
正規分布と比較して分布のピークがより尖っているか、あるいは平らに広がっているかを示します。
尖度が大きい場合は分布が正規分布よりも尖っており、小さい場合は分布が平らになっています。
また、尖度が0の場合は正規分布と同じくらい尖っていることを意味します。
歪度
歪度は分布の左右対称性を表します。
正規分布と比較して分布が左右どちらに偏っているかを示します。
歪度が正の場合は分布が右に偏り、負の場合は左に偏っています。
また、歪度が0の場合は分布が正規分布のように左右対称であることを示します。
Excelで基本統計量を求める
Excelを使うことで、データ範囲を指定するだけで簡単に基本統計量が算出できます。
アドインでまとめて求める
Excelの「データ分析」アドインを使うと簡単に複数の基本統計量を算出してくれます。
以下、アドインを使うための手順です。
Excelの「ファイル」から「Excelのオプション」を開きます。
項目の中の「アドイン」を選択し、「管理:Excelアドイン」を選択して「設定」を押します。
開いたウィンドウから「分析ツール」にチェックを入れて「OK」を押します。
Excelのデータタブに「データ分析」が追加されます。
1つずつ関数で求める
Excelでは基本統計量を簡単に求められる関数が用意されています。
基本統計量 | Excel関数 |
---|---|
平均値 | average関数 |
中央値 | median関数 |
最頻値 | mode関数 |
最大値 | max関数 |
最小値 | min関数 |
標準偏差 | stdev.p関数 |
四分位 | quartile.inc関数(戻り値に影響) |
範囲 | maxからminを引く |
尖度 | kurt関数 |
歪度 | skew関数 |
四分位数はquartile.inc関数を使いますが、以下の戻り値を入力することで求める値を選択できます。
戻り値 | 名称 | データの位置 |
---|---|---|
0 | 最小値 | 0% |
1 | 第1四分位数 | 25% |
2 | 第2四分位数(中央値) | 50% |
3 | 第3四分位数 | 75% |
4 | 最大値 | 100% |
オススメ書籍
・データ分析に必須の知識・考え方 統計学入門
データ分析することに目線を置いた統計学の入門書です。
学問を体系的に学ぶことより実務面に寄った学習をしたい方にオススメです。
-
データ分析に必須の知識・考え方 統計学入門
www.amazon.co.jp
・データ可視化学入門
あらゆるデータに対する可視化の方法が網羅的に解説されています。
更に、可視化する指標を何にするか?といった前段の部分から深堀されており、データを見ることに特化した非常に分かりやすい書籍です。
-
指標・特徴量の設計から始める データ可視化学入門 データを洞察につなげる技術
www.amazon.co.jp
・多変量解析法入門
重回帰分析や主成分分析、クラスター分析などデータ分析の基本となる要素を順を追って分かりやすく解説してくれます。
20年以上経った今でも多くの方にオススメされる書籍です。
-
多変量解析法入門
www.amazon.co.jp