スケーリングの役割
1から2に増加する場合と100から101に増加する場合、どちらも増加量1ですが増加率は100%と1%で大きく異なります。
スケールを合わせることでデータ同士を公平に比較できるようになります。
AIモデルへの影響
データ解析をするとき、他のデータに比べて数値が大きすぎるデータの方が重要な判定をされがちです。
そのためAIモデルの性能に影響を与える可能性があることからスケーリングが重要です。
標準化
標準化はデータを平均0、標準偏差1に変換します。
各データに対してデータ全体の平均値で引き、標準偏差で割る操作を行います。
正規分布が関係
多くの機械学習アルゴリズムは入力データが正規分布に従っていることを前提としています。
正規分布に従っていないデータを入力した場合、推定値が不正確になる可能性があります。
そのためデータを標準化することで、アルゴリズムの性能を改善することができます。
偏差値は標準化した値
偏差値も標準化を利用した値です。
標準化した値を10倍して50を足した数値が偏差値です。
正規化
正規化はデータを最小値0、最大値1に変換します。
スケールが固定されている場合に有用
例えば反応の収率は0~100%で決まっています。
こういったスケールが決まっているようなデータに対して正規化は有用です。
極端な外れ値に注意
データの中で最大値と最小値に注目してスケールを変更するため、極端に小さい値や大きい値が存在する場合には正しい変換が出来ません。
外れ値を削除して良い場合は事前に取り除いてから正規化します。
画像データへの利用
画像データは主に、0~255のピクセルデータで構成されています。
この値を0~1の値に変換して計算コストを抑える使い方をします。
クラスタリングへの利用
例えばK-meansクラスタリングのようなクラスタリングアルゴリズムは、データの距離を計算する際に特徴量間の距離を比較します。
特徴量間のスケールが同じになっていることが望ましいため、正規化してスケールを統一させます。
基準化
基準化はどこか基準値を決めてそこからの変動率として変換します。
例えば国が出す統計データのように時系列データに対して使われます。
測定開始を基準にした場合
基準とするデータ点が測定開始の場合には注意が必要です。
データごとに測定開始時点が異なる場合、データ間を比較して良いのか考慮しなければなりません。
この問題を解消するには以下の方法があります。
- 前日比や前日差などの指標を用いる
- 基準値を年月日などで固定する
オススメ書籍
・データ分析に必須の知識・考え方 統計学入門
データ分析することに目線を置いた統計学の入門書です。
学問を体系的に学ぶことより実務面に寄った学習をしたい方にオススメです。
-
データ分析に必須の知識・考え方 統計学入門
www.amazon.co.jp
・データ可視化学入門
あらゆるデータに対する可視化の方法が網羅的に解説されています。
更に、可視化する指標を何にするか?といった前段の部分から深堀されており、データを見ることに特化した非常に分かりやすい書籍です。
-
指標・特徴量の設計から始める データ可視化学入門 データを洞察につなげる技術
www.amazon.co.jp
・多変量解析法入門
重回帰分析や主成分分析、クラスター分析などデータ分析の基本となる要素を順を追って分かりやすく解説してくれます。
20年以上経った今でも多くの方にオススメされる書籍です。
-
多変量解析法入門
www.amazon.co.jp