様々な平均
様々な平均について式や使用例も含めて紹介します。
算術平均(相加平均)
算術平均は各データの合計をデータ数で割った値です。
一般的に”平均”というと算術平均を指します。
相加平均とも呼びます。
算術平均
$$ \begin{align}\bar{x}&=\frac{1}{n}\sum_{i=1}^n x_{i}\\\\
&=\frac{x_{1}+x_{2}+x_{3}+\cdots+x_{n}}{n} \end{align}$$n:データ数、x:各データ
加重平均
加重平均は各データに別の値(重み)を乗じてから算出する値です。
重みとは各データに対しての重要度を指します。
加重平均
$$ \begin{align}W&=\frac{\sum_{i=1}^n w_{i}x_{i}}{\sum_{i=1}^n w_{i}}\\\\
&=\frac{w_{1}x_{1}+w_{2}x_{2}+\cdots+w_{n}x_{n}}{w_{1}+w_{2}+\cdots+w_{n}} \end{align}$$n:データ数、x:各データ、w:重み
加重平均は複数の集団から全体平均を求める時に使われます。
例えば日々の歩留まりから1か月の歩留まりを算出するとします。
単純に日々の歩留まりを使って算術平均を求めるのではなく、”製造数量”=重み wとして加重平均を求めることで、より現実的な歩留まりが算出できます。
上記の例では、1か月間の全データを使って歩留まりを算出したことと同じ意味をもちます。
調和平均
調和平均は各データの逆数の算術平均を求めた値です。
速度のように比率で表示される数の平均を算出する際に使われます。
調和平均
$$ \begin{align}\frac{1}{H}&=\frac{1}{n}\sum_{i=1}^n \frac{1}{x_{i}}\\\\
&=\frac{\frac{1}{x_{1}}+\frac{1}{x_{2}}+\cdots+\frac{1}{x_{n}}}{n} \end{align}$$n:データ数、x:各データ
定義通りに式を計算すると見づらいため、逆数の形で考える場合もあります。
調和平均(変形)
$$ \begin{align}H&=(\frac{1}{n}\sum_{i=1}^n \frac{1}{x_{i}})^{-1}\\\\
&=\frac{n}{\frac{1}{x_{1}}+\frac{1}{x_{2}}+\cdots+\frac{1}{x_{n}}} \end{align}$$n:データ数、x:各データ
調和平均は"平均時速"や"並列の電気回路の抵抗"を計算するときに使われます。
例えば100kmの道を行きを時速80 km/h、帰りを50 km/hで往復し平均時速を出すとします。
実は単純に2つの平均(80+50)/2=65 km/hではありません。
行きに100/80時間、帰りに100/50時間の時間を要しているため、往復200km/(100/50時間+100/80時間)と計算して61.5 km/hが答えになります。
幾何平均(相乗平均)
幾何平均は各データの対数の算術平均を求めた値です。
複利計算や経済成長率など比率や割合で変化する数の平均を算出する際に使われます。
幾何平均
$$ \begin{align}G&=(\prod_{i=1}^n x_{i})^{1/n}\\\\
&=\sqrt[n]{x_{1}\times x_{2}\times \cdots \times x_{n}} \end{align}$$n:データ数、x:各データ
二乗平均
二乗平均は各データを二乗した値に対して算術平均を求めた値です。
単純に二乗平均で用いる例は少なく、二乗平均に平方根をとった二乗平均平方根 RMS(Root Mean Square)の形で利用されます。
二乗平均平方根(RMS)
$$ \begin{align}RMS&=\sqrt{\frac{1}{n}\sum_{i=1}^n (x_i)^2}\\\\
&=\sqrt{\frac{x_{1}^2+x_{2}^2+\cdots+x_{n}^2}{n}} \end{align}$$n:データ数、x:各データ
標準偏差は二乗平均の考えを使っており、各データと平均値との差を二乗しています。
標準偏差
$$ \begin{align}\sigma &=\sqrt{\frac{1}{n}\sum_{i=1}^n (x_i-\overline{x})^2}\\\\
&=\sqrt{\frac{(x_{1}-\overline{x})^2+(x_{2}-\overline{x})^2+\cdots+(x_{n}-\overline{x})^2}{n}} \end{align}$$n:データ数、x:各データ、x̄:xの平均値
機械学習で予測式を立てた場合、実測値との差を表現するために二乗平均平方根誤差 RMSEという指標を用います。
標準偏差ではxの平均との差を求めましたが、RMSEでは予測値との差を求めます。
二乗平均平方根誤差(RMSE)
$$ \begin{align}RMSE&=\sqrt{\frac{1}{n}\sum_{i=1}^n (y_i-\widehat{y})^2}\\\\
&=\sqrt{\frac{(y_{1}-\widehat{y})^2+(y_{2}-\widehat{y})^2+\cdots+(y_{n}-\widehat{y})^2}{n}} \end{align}$$n:データ数、y:各実測値、ŷ:yの予測値
トリム平均
トリム平均はデータを小さい順に並べたときに、大きい側と小さい側から任意の数だけ取り除いた後に算術平均を求めた値です。
5%トリム平均や10%トリム平均など両端(もしくは片端)から割合で削除する場合もあります。
トリム平均(両端削除)
$$ \begin{align}K&=\frac{1}{n-2k}\sum_{i=1+k}^{n-k} x_{i}\\\\
&=\frac{x_{1+k}+x_{2+k}+\cdots+x_{n-k}}{n-2k} \end{align}$$n:データ数、x:各データ、k:取り除くデータ数
トリム平均は集めたデータの異常に高い値や低い値(外れ値)の影響を極力受けないように考慮したい場合に使われます。
例えば各々が"主観的に"つけた点数の平均などが挙げられます。
時系列データの平均
時系列データを平滑化するために移動平均という平均が用いられます。
基準から離れたデータにどれくらい重みづけして平均化するかによって使われる平均値が変わります。
単純移動平均
単純移動平均は基準データの前後のデータも含めた平均値として算出します。
特に基準前後のデータから移動平均をとったものを中心化移動平均と呼びます。
対して基準データに対して過去のデータのみを使った場合は後方移動平均、未来のデータのみを使った場合は前方移動平均と呼びます。
単純移動平均(SMA)
$$ \begin{align}SMA &=\frac{1}n\left\{x_{i}+\sum_{j=1}^k\left(x_{i-j}+x_{i+j}\right)\right\}\\\\
& =\frac{x_{i-k}+\cdot\cdot\cdot+x_{i-2}+x_{i-1}+x_{i}+x_{i+1}+x_{i+2}+\cdots+x_{i+k}}{n} \end{align}$$n:データ数、xi:各データ、k:n=2k+1となる値
平均するデータ数が偶数の場合は最大値と最小値を0.5倍します。
平均範囲のデータは均等に重みづけされているため、過去のデータであっても重要度は同じとみなされます。
重みに変化をもたせる場合は後述する加重移動平均や指数移動平均を用います。
加重移動平均
加重移動平均は過去のデータになるに従い等間隔で重みが減少します。
過去の重みがある時点で0となるので、それより以前のデータは考慮されなくなる特徴があります。
加重移動平均(WMA)
$$ \begin{align}WMA&=\frac{\sum_{i=1}^nw_{i}x_{i}}{\sum_{i=1}^nw_{i}}\\\\
&=\frac{w_{1}x_{1}+w_{2}x_{2}+\cdots+w_{n}x_{n}}{w_{1}+w_{2}+\cdots+w_{n}} \end{align}$$n:データ数、x:各データ、w:重み
指数移動平均
指数移動平均は過去のデータになるに従い指数関数的に重みが減少します。
過去に遡っても重みづけが0になることはなく、微小ながらも過去データのすべてを予測値に反映させます。
つまり最近のデータを重視しつつも古いデータを完全には切り捨てない移動平均です。
指数移動平均(EMA)
$$ \begin{align}EMA &=\frac{\sum_{i=0}^{n-1}x_{n-i}(1-\alpha)^i}{\sum_{i=0}^{n-1}(1-\alpha)^i}\\\\
&=\frac{x_{n}+x_{n-1}(1-\alpha)+x_{n-2}(1-\alpha)^{2}\cdots+x_{1}(1-\alpha)^{n-1}}{1+(1-\alpha)+(1-\alpha)^{2}+\cdots+(1-\alpha)^{n-1}} \end{align}$$n:データ数、x:各データ、α:平滑化定数
重みの減少率である平滑化定数αは0~1の値をとり、α=2/(n+1)が一般的です。
オススメ書籍
・データ分析に必須の知識・考え方 統計学入門
データ分析することに目線を置いた統計学の入門書です。
学問を体系的に学ぶことより実務面に寄った学習をしたい方にオススメです。
-
データ分析に必須の知識・考え方 統計学入門
www.amazon.co.jp
・データ可視化学入門
あらゆるデータに対する可視化の方法が網羅的に解説されています。
更に、可視化する指標を何にするか?といった前段の部分から深堀されており、データを見ることに特化した非常に分かりやすい書籍です。
-
指標・特徴量の設計から始める データ可視化学入門 データを洞察につなげる技術
www.amazon.co.jp
・多変量解析法入門
重回帰分析や主成分分析、クラスター分析などデータ分析の基本となる要素を順を追って分かりやすく解説してくれます。
20年以上経った今でも多くの方にオススメされる書籍です。
-
多変量解析法入門
www.amazon.co.jp