基本統計量の種類とExcelでの計算方法

2023年2月20日 広告

基本統計量とは、データの中心傾向やばらつきを表す統計量のことです。

主な基本統計量には、平均値、中央値、最頻値、標準偏差、分散、四分位数があります。

データの中心を表す代表値

データの中心を表す代表値は基本統計量の中でも頻繁に使われます。

平均値

平均値は一連の数値データの合計を、データ数で割った値あり、データの重心を表します。

日常生活でも使われる用語のため、馴染みが深く伝えやすい統計量であることが特徴です。

注意点として、極端に大きい(もしくは小さい)値に平均値が引っ張られてしまいます。

このような極端な値は外れ値と呼ばれます。

外れ値の影響を減らしたい場合は、後述する中央値で見ることで解決できます。

平均値イメージ

中央値

中央値はデータを小さい順に並べたときに、中央に位置する値です。

平均値と異なり極端に大きい(もしくは小さい)値の影響を受けにくい特徴があります。

中央値イメージ

最大値

最大値はデータの中で一番大きな値を表します。

最大値イメージ

最小値

最小値はデータの中で一番小さな値を表します。

最小値イメージ

最頻値

最頻値はデータの中で最も頻繁に出現する値です。

中央値や平均値とは異なり値の大小関係には関係しません。

データの頻度に基づいて求められるため、数値ではないデータにも適用できます。

最頻値イメージ

データの広がりを表す代表値

データの広がりを表す代表値はデータ全体の特徴を表しています。

標準偏差

標準偏差はデータが平均値からのどの程度ばらついているかを表します。

各データと平均値の差を2乗した値を平均し根号をとったものです。

標準偏差
$$ s=\sqrt{\frac{1}{n}\sum_{i=1}^n (x_{i}-\overline{x})^2}$$s=標準偏差、n:データ数、x:データの値、x̄:データの平均

四分位数

四分位数は、データを4つに分割するための値であり、データのばらつきや分布、外れ値を把握するために用いられます。

データの中央値を中心に、下位25%、50%、75%に位置する値を示します。

  • 第1四分位数:データの下位25%に位置する値
  • 第2四分位数:データの50%に位置する値(中央値)
  • 第3四分位数:データの上位25%に位置する値

第3四分位数から第1四分位数を引いた値は四分位範囲(IQR)と呼ばれます。

箱ひげ図を書く際に四分位数は用いられ、第1四分位数や第3四分位数からIQRの1.5倍以上離れた値は外れ値として判断します。

箱ひげ図の外れ値イメージ

範囲

範囲はデータがどの範囲に含まれているかを表します。

最大値から最小値を引くことで計算できます。

尖度

尖度は分布の尖り具合を表します。

正規分布と比較して分布のピークがより尖っているか、あるいは平らに広がっているかを示します。

尖度が大きい場合は分布が正規分布よりも尖っており、小さい場合は分布が平らになっています。

また、尖度が0の場合は正規分布と同じくらい尖っていることを意味します。

歪度

歪度は分布の左右対称性を表します。

正規分布と比較して分布が左右どちらに偏っているかを示します。

歪度が正の場合は分布が右に偏り、負の場合は左に偏っています。

また、歪度が0の場合は分布が正規分布のように左右対称であることを示します。

Excelで基本統計量を求める

Excelを使うことで、データ範囲を指定するだけで簡単に基本統計量が算出できます。

アドインでまとめて求める

Excelの「データ分析」アドインを使うと簡単に複数の基本統計量を算出してくれます。

基本統計量の選択と出力結果イメージ

以下、アドインを使うための手順です。

Excelの「ファイル」から「Excelのオプション」を開きます。

Excelのオプション画面

項目の中の「アドイン」を選択し、「管理:Excelアドイン」を選択して「設定」を押します。

アドインの設定ボタン画面

開いたウィンドウから「分析ツール」にチェックを入れて「OK」を押します。

有効にするアドインの選択画面

Excelのデータタブに「データ分析」が追加されます。

データタブ画面

1つずつ関数で求める

Excelでは基本統計量を簡単に求められる関数が用意されています。

基本統計量Excel関数
平均値average関数
中央値median関数
最頻値mode関数
最大値max関数
最小値min関数
標準偏差stdev.p関数
四分位quartile.inc関数(戻り値に影響)
範囲maxからminを引く
尖度kurt関数
歪度skew関数
基本統計量に対応するExcel関数

四分位数はquartile.inc関数を使いますが、以下の戻り値を入力することで求める値を選択できます。

戻り値名称データの位置
0最小値0%
1第1四分位数25%
2第2四分位数(中央値)50%
3第3四分位数75%
4最大値100%
四分位数の戻り値

オススメ書籍

・データ分析に必須の知識・考え方 統計学入門

データ分析することに目線を置いた統計学の入門書です。
学問を体系的に学ぶことより実務面に寄った学習をしたい方にオススメです。

データ分析に必須の知識・考え方 統計学入門
データ分析に必須の知識・考え方 統計学入門

www.amazon.co.jp

・データ可視化学入門

あらゆるデータに対する可視化の方法が網羅的に解説されています。
更に、可視化する指標を何にするか?といった前段の部分から深堀されており、データを見ることに特化した非常に分かりやすい書籍です。

指標・特徴量の設計から始める データ可視化学入門 データを洞察につなげる技術
指標・特徴量の設計から始める データ可視化学入門 データを洞察につなげる技術

www.amazon.co.jp

・多変量解析法入門

重回帰分析や主成分分析、クラスター分析などデータ分析の基本となる要素を順を追って分かりやすく解説してくれます。
20年以上経った今でも多くの方にオススメされる書籍です。

多変量解析法入門
多変量解析法入門

www.amazon.co.jp

関連記事

データにも種類がある
2値データの変換方法
データ分析の進め方
記事への問い合わせはこちら

-データサイエンス
-

//