データ(変数)は大きく数値で示される量的データとカテゴリで示される質的データに分かれます。
その中でも量的データは比例尺度と間隔尺度に、質的データは名義尺度と順序尺度に分かれます。
各尺度は表現可能な内容が異なります。
尺度の種類
まず比例尺度、間隔尺度、名義尺度、順序尺度の関係性について整理します。
数値変数と非数値変数、その中でも連続変数、離散変数、名目変数、順序変数などと表現する場合もありますが意味は同じです。
図で表すと以下のような構造になっています。
量的データ(数値変数)
データが数値で示されるようなものを量的データと呼びます。
その中でも比例尺度と間隔尺度の2種類に分類されています。
これらには0という値が絶対的な意味を持つかどうかの違いがあります。
比例尺度(連続変数)
連続的な数値データです。
その間隔だけでなく比率に意味を持ち、数値間で計算することができます。
また原点0が絶対的な意味を持ちます。
製造データとして以下の例が挙げられます。
絶対温度は分子の振動が無くなる温度を0Kと定めているため比例尺度です。
一方、摂氏温度や華氏温度は任意でゼロ点を決めるため間隔尺度となります。
間隔尺度(離散変数)
目盛りを等間隔に設定された飛び飛びの数値データです。
その間隔自体に意味があるのであり、数値間の比率には意味がありません。
例えば温度が10℃から15℃に上がったとしても50%の上昇という比率に意味は無く、5℃という間隔に意味があります。
また0という数値は相対的な意味しか持ちません。
製造データとして以下の例が挙げられます。
質的データ(非数値変数)
データがカテゴリで示されるようなものを質的データと呼びます。
その中でも順序尺度と名義尺度の2種類に分類されています。
これらには大小関係に意味を持つかどうかの違いがあります。
順序尺度(順序変数)
各テーマごとに順位がつけられているデータです。
数値(順位)には大小関係がありますが、数値の間隔には意味がありません。
製造データとして以下の例が挙げられます。
名義尺度(名目変数)
カテゴリーごとに分類されているデータです。
それぞれのカテゴリー間に意味は無く、大小関係はありません。
製造データとして以下の例が挙げられます。
尺度水準
それぞれの尺度には統計学的に定められた水準があります。
水準が高い方から比例尺度、間隔尺度、順序尺度、名義尺度となります。
水準が高い尺度は水準が低い尺度の要素を含んでいることを表します。
また水準が高い尺度は水準が低い尺度を用いて表現しなおすことが出来ます。
例えば製品の重さという比例尺度で表現されたデータを、一定範囲の重さごとに製品数を数えることで順序尺度に表現しなおすことが出来ます。
これがヒストグラムです。
オススメ書籍
・データ分析に必須の知識・考え方 統計学入門
データ分析することに目線を置いた統計学の入門書です。
学問を体系的に学ぶことより実務面に寄った学習をしたい方にオススメです。
-
データ分析に必須の知識・考え方 統計学入門
www.amazon.co.jp
・データ可視化学入門
あらゆるデータに対する可視化の方法が網羅的に解説されています。
更に、可視化する指標を何にするか?といった前段の部分から深堀されており、データを見ることに特化した非常に分かりやすい書籍です。
-
指標・特徴量の設計から始める データ可視化学入門 データを洞察につなげる技術
www.amazon.co.jp
・多変量解析法入門
重回帰分析や主成分分析、クラスター分析などデータ分析の基本となる要素を順を追って分かりやすく解説してくれます。
20年以上経った今でも多くの方にオススメされる書籍です。
-
多変量解析法入門
www.amazon.co.jp