「数量化」
多変量解析の「重回帰分析」「判別分析」「主成分分析」等は、量的データを扱う分析方法であるが、いつも量的データの形で標本を得られるとは限らない。そこで、得られた質的データに適当な数量を与え、質的データを数量化することにより多変量解析が行えるようにすることを「数量化」という。
統計で扱うデータには、「量的データ」と「質的データ」があり、量的データは数値の間隔に意味を持つデータであるが、質的データはその間隔に意味はもたなく他のものと区別したり、順序を示したりするデータである。
量的データ
間隔尺度…絶対原点を持たない尺度データ
比例尺度…絶対原点を持つ尺度データ
質的データ 名義尺度…分類を示すデータで大小関係に意味は持たない
順序尺度…順序関係の大小に意味を持つデータ
通常質的データは計算することができないので、そのまま統計分析をすることはできない。そこで、質的データを目的に合うように最適な数値に置き換えて数量化することにより、多変量的な解析ができるようにするのが数量化であり、「重回帰分析」「判別分析」「主成分分析」に対応するのが、「数量化T類」「数量化U類」「数量化V類」である。
9. 数量化T類
数量化T類は、量的データを分析する重回帰分析に対応する質的データを分析する方法で ある。重回帰分析では、量的データである説明変量から、量的データである目的変量を予測した。これに対し数量化T類では、アイテム・カデゴリと呼ばれる質的データを得て、この値から量的データである外的基準(目的変量に対応する)を得る方法である。
アイテム(項目)とは質問事項のようなものであり、カテゴリとはその回答のようなものである。
アイテムは、例えば「貴方は英語が好きですか?」のようにアンケートの質問事項のように与えられ、カテゴリは「はい/いいえ」のように分類で与えられる。この質的データであるカテゴリから外的基準と呼ばれる量的データを予測するのが数量化T類という分析方法である。
9.1 予測線形式を求める。
9.1.1アイテムが1つ、カテゴリが2つの場合を考える。
標本No |
外的基準 |
ア イ テ ム |
|
カテゴリ1 |
カテゴリ2 |
||
1 2 … n |
y1 y2 … yn |
x11 x12 … x1n |
x21 x22 … x2n |
いま、外的基準として英語の点数(10点満点)、アイテムとして「英語は好きですか?」という質問事項、カテゴリとして「はい/いいえ」とする。
標本No |
外的基準 |
英語は好きですか? |
|
はい |
いいえ |
||
1 2 3 4 5 6 7 8 |
2 4 5 7 8 6 5 3 |
レ レ レ レ |
レ レ レ レ |
アンケートをとった結果、該当するカテゴリにレ印をつけて、上のような表を得たとする。
次に、カテゴリにおいて、該当があれば「レ」をつけたが、このままでは計算することができないので「該当有り…1」「該当無し…0」と置き換える。この置き換える変数のことを「ダミー変数」と言う。
1…アイテム(i)、カテゴリ(j)で該当有り
ダミー変数(xij)
0…アイテム(i)、カテゴリ(j)で該当なし
このダミー変数を使用して、先ほどの表を数量化してみると
標本No |
外的基準 y |
英語は好きですか? |
|
はい (x1) |
いいえ(x2) |
||
1 2 3 4 5 6 7 8 |
2 4 5 7 8 6 5 3 |
0 0 1 1 1 1 0 0 |
1 1 0 0 0 0 1 1 |
アイテム・カテゴリの結果から、外的基準を求める予測式Yを考える。
Y=a1・x1+a2・x1 とすると
予測値は Y1=a1・0+a2・1
Y2=a1・0+a2・1
Y3=a1・1+a2・0
Y4=a1・1+a2・0
Y5=a1・1+a2・0
Y6=a1・1+a2・0
Y7=a1・0+a2・1
Y8=a1・0+a2・1
予測値Yiと実測値yi とのずれを小さくしたいので、最小2乗法を使って
煤iyi−Yi)2 を最小にすることを考える。
煤iyi−Yi)2 =(2−a2)2+(4−a2)2+(5−a1)2+(7−a1)2+(8−a1)2+(6−a1)2+(5−a2)2+(3−a2)2
= 4a12 + 4a22 − 52a1 − 28a2 + 228 =Gとおく
このGをa1a2 で偏微分し0とおいて、正規方程式を得ると
よって、予測式Yは、Y=6.5・x11 + 3.5x12 となる。
この式を使用することにより、アンケ−ト結果から外的基準である英語の点数を予測するこ とができる。
9.1.2 アイテムが2つ、カテゴリが2つの時
(1)アイテムが1つの時と同じように最小2乗法で予測式を求める。
今度はアイテムが2つ、英語と数学。カテゴリが2つ、好きと嫌いの場合を考える。
標本No |
英語の点数 y |
英 語 |
数 学 |
||
好き x11 |
嫌い x12 |
好き x21 |
嫌い x22 |
||
1 2 3 4 5 6 7 8 |
2 4 5 7 8 6 5 3 |
レ レ レ レ |
レ レ レ レ |
レ レ レ レ |
レ レ レ レ |
これをダミー変数を使用して書くと
標本No |
英語の点数 |
英 語 |
数 学 |
||
好き |
嫌い |
好き |
嫌い |
||
1 2 3 4 5 6 7 8 |
2 4 5 7 8 6 5 3 |
0 0 1 1 1 0 1 0 |
1 1 0 0 0 1 0 1 |
0 1 1 0 1 1 0 0 |
1 0 0 1 0 0 1 1 |
ここで予測式Yを
Y=a11・x11+a12・x12+a21・x21+a22・x22 とする。
アイテムが1つの時と同様にして
煤iyi−Yi)2 =Gとして、この式をa11・a12・a21・a22 で偏微分して0とおき、正規方程式を得る。
G=(2−a12−a22)2 + (4−a12−a21)2 +
…
+ (3−a12−a22)2
=228−50a11−30a12−46a21−34a22+4a11・a21+4a11・a22+4a12・a21+4a12・a22+4a112+4a122+4a212+4a222
ダミ−変数間で、x11+x12=1 x21+x22=1 となっているために、このままでは
aij を求めることはできない。アイテムが1つの時にはこの問題はなかったが、アイテム が2つ以上になると、この問題は必ず発生する。このため、通常第2アイテム以降の第1カテゴリを0として計算する。
条件 ai1=0 (i=2,3 …)
としてaijを求める。
a21=0 とすると
4a11+2a22 =25
4a12+2a22 =15
2a11+2a12 =23
2a11+2a12+4a22 =17
これを解くと
a11 = 7 a12 = 4.5
a22 = −1.5
よって予測式は
Y = 7・x11 + 4.5・x12 − 1.5・x22 と求められる。
9.1.3 行列を使用して、予測式を求める。
(1)いま、各カテゴリについて行列を作成し、Dとすると
つぎに、D’・Dを求める。
これをみると、各行がそのまま正規方程式の係数になっていることが分かる。これから
4a11+2a21+2a22 =25
4a12+2a21+2a22 =15
2a11+2a12+4a21 =23
2a11+2a12+4a22 =17
の方程式を得て、a21=0として、aijを得ることができる。
(2)ダミー行列を使用して、予測式を求める。
(1)の方法では、行列から正規方程式を得てa21=0として、方程式を解きその係数aijを求めたが、最初に行列のa21成分を取り除いたダミー行列を考えて、直接aijを
求める。
この時、X
は、 X=(D’・D)-1・D’・Y で求めることができる。
一般の場合でも、第2アイテム以降の第1カテゴリを除いた行列から、線形予測式の係数を求めることができる。
9.2 カテゴリ数量の基準化
通常線形予測式を求めるにあたり、第2アイテム以降の第1カテゴリに対応する数量
ai1 =0(i=2,3…)として求めているので、第2アイテム以降の第1カテゴリ 係数は常に0となる。そこで各アイテム内のカテゴリ数量が0になるようにカテゴリ数量を変換する。これをカテゴリ数量の基準化という。こうすると、第2アイテム以降の第1カテゴリの係数を他のものと同じように得ることができる。
標本No |
英 語 |
数 学 |
実測値(y) 英語の点数 |
予測値(Y) 英語の点数 |
||
好き |
嫌い |
好き |
嫌い |
|||
1 2 3 4 5 6 7 8 |
0 0 1 1 1 0 1 0 |
1 1 0 0 0 1 0 1 |
0 1 1 0 1 1 0 0 |
1 0 0 1 0 0 1 1 |
2 4 5 7 8 6 5 3 |
3.0 4.5 7.0 5.5 7.0 4.5 5.5 3.0 |
予測値
Y は予測式 Y = 7・x11 + 4.5・x12 − 1.5・x22 から求めた値。上の表で、各カテゴリについてaij・xijを求めていくと
標本No |
英 語 |
数 学 |
実測値(y)英語の点数 |
予測値(Y) 英語の点数 |
||
x11 |
x12 |
x21 |
x22 |
|||
1 2 3 4 5 6 7 8 |
0 0 7 7 7 0 7 0 |
4.5 4.5 0 0 0 4.5 0 4.5 |
0 0 0 0 0 0 0 0 |
−1.5 0 0 −1.5 0 0 −1.5 −1.5 |
2 4 5 7 8 6 5 3 |
3.0 4.5 7.0 5.5 7.0 4.5 5.5 3.0 |
合計 |
28 |
18 |
0 |
−6 |
40 |
40 |
合計 |
46 |
−6 |
40 |
40 |
||
平均 |
5.75 |
−0.75 |
5 |
5 |
第1アイテム内のカテゴリ平均:5.75、第2アイテム内のカテゴリ平均:−0.75
外的基準の平均:5 以上から、各アイテム内の平均値=0から、 基準化した予測値
Y’は、
Y’− 5= (7−5.75)・x11 + (4.5−5.75)・x12 − (0+0.75)・x21 + (−1.5+0.75)・x22 となる。これから
Y’= 1.25・x11 − 1.25・x12 + 0.75・x21 − 0.75・x22 + 5 が基準化したときの線形予測式となる。 基準化した線形予測式を求めるには、各係数からその平均を引いて求めると
Y = 1.25・x11 − 1.25・x12 + 0.75・x21 − 0.75・x22 + 5 が得られる。
9.3 重相関係数と偏相関係数
重回帰分析と同様に、実測値yと線形予測式から求めた予測値Yとの相関係数を重相関係数という。重相関係数をrとすると
重相関係数の2乗は、決定係数(R2 )に等しいので、決定係数により求めた線形予測式の精度を調べることができる。また、各アイテムの単相関係数から重相関係数を求めることができる。
いま、アイテム1,2,…ならびに実測値yがあるとき、その単相関行列を
標本No |
アイテム1 |
アイテム2 |
実測値(y) 英語の点数 |
||
x11 |
x12 |
x21 |
x22 |
||
1 2 3 4 5 6 7 8 |
0 0 7 7 7 0 7 0 |
4.5 4.5 0 0 0 4.5 0 4.5 |
0 0 0 0 0 0 0 0 |
−1.5 0 0 −1.5 0 0 −1.5 −1.5 |
2 4 5 7 8 6 5 3 |
平均 |
5.75 |
−0.75 |
5 |
上の表から、アイテム1・アイテム2・実測値(y)間の単相関係数行列を求めると
以上から、この線形予測式により、実測値の約60%が説明されており、アイテム1と実測値との偏相関係数=0.729、アイテム2と実測値との偏相関係数=0.539でアイテム1の方が実測値に与える影響は大きいので、より重要な要因である。
9.4 線形予測式の評価について
求めた線形予測式が、もとのデータをどれくらい正確に予測しているのか、その精度を評価する。
@決定係数(R2)をみる。
決定係数R2は、重相関係数(r)の2乗に一致しており、0≦R2≦1の値を示す。
R2が1に近いほど、実測値yiと予測値Yiの相関が高く、よい予測値であるといえる。
A範囲(レンジ)を調べる。
各アイテム内の各カテゴリに与えた基準化された数量の範囲(数量の最大値−数量の最小値)をレンジという。レンジの大きいほど外的基準に与える影響が大きいので、より重要なカテゴリである。アイテム1=1.25−(−1.25)=2.5 アイテム2=0.75−(−0.75)=1.5 アイテム1の方がレンジ(範囲)が大きいので、アイテム1の方が外的基準に与える影響は大きい。
B偏相関係数を調べる。
各アイテムと外的基準との偏相関係数riyを調べ、riyの値が大きいほど外的基準に与える影響が大きいので、より重要なアイテムである。
ry1.2=0.729
ry2.1=0.539 であるから、アイテム1の方が外的基準に与える影響は大きい。
数量化1類例題
重回帰分析の例題は、店員充実度・売場面積・商品充実度などが量的データであった。これをいま、6点以上を「良い」、5点以下を「悪い」と質的データにして、数量化1類の分析を行う。重回帰分析の例題を書き直すと下のような表となる。この表を元にして分析を実施。該当あり:1 該当なし:0 とする。
NO |
アイテム1 店員充実度 |
アイテム2 売り場面積 |
アイテム3 商品充実度 |
売上高 (単位:百万円) |
|||
良いa11 |
悪い a12 |
良いa21 |
悪いa22 |
良い a31 |
悪い a32 |
Y |
|
1 2 3 4 5 6 7 8 |
1 1 0 0 1 0 0 1 |
0 0 1 1 0 1 1 0 |
0 1 1 0 1 0 1 1 |
1 0 0 1 0 1 0 0 |
1 1 1 0 1 0 1 1 |
0 0 0 1 0 1 0 0 |
18 12 14 6 12 8 10 16 |
1.予測式を求める
1.1 正規方程式を得て、予測式を求める。
各カテゴリについて行列式を作成し、Dとする。
D'を求める。
=TRANSPOSE(範囲)により、Dの転置行列D'を求める。
D'Dを求める。
成分a21・a31を0にする。
以上から下のような正規方程式を得る。
4a11 + a22 = 58
4a12 + 2a22 + 2a32 =38
3a11 +2a12 =64
a11 + 2a12 + 3a22 + 2a32 =32
4a11 + 2a12 + a22 =82
2a12 + 2a22 + 2a32 = 14
これを解くと、
a11 = 13.33 a12 = 12 a21 = 0 a22 = 4.667 a31 = 0 a32 = −9.667
1.2 成分a21・a31を取り除いた行列を使用して予測式を得る。
成分a21・a31を取り除いた行列をDとすると
その転置行列D'は、=TRANSPOSE(範囲)により、Dの転置行列D'を求める。
D'Dを求める
(D'D)-1を求める
(D'D)-1・D'を求める
D'D)-1・D'・Yを求める
以上から
a11 = 13.33 a12 = 12 a21 = 0 a22 = 4.667 a31 = 0 a32 = −9.667
予測式は、Y = 13.33X11 + 12X12 + 4.667X22 − 9.667X32
1.3 予測式 Y = 13.33X11 + 12X12 + 4.667X22 − 9.667X32で予測値を求める。
1.4 カテゴリ数量の基準化を行う。
第1アイテム内のカテゴリ平均:12.667 第2アイテム内のカテゴリ平均:1.75
第3アイテム内のカテゴリ平均:−2.417 外的基準の平均:12
以上から
基準化した予測式Y'は
Y'−12=(13.33−12.667)X11+(12−12.667)X12+(0−1.75)X21+(4.667−1.75)X22+(0−(−2.417))X31+(− 9.667−(−2.417))X32
Y '= 0.667X11−0.667X12−1.75X21+2.917X22+2.41X31−7.25X32+12
この基準化した予測式を使用して予測値を求めても同じ予測値を得ることができる。
2.重相関係数と偏相関係数を求める。
2.1 実測値と予測値から重相関係数求める。
重相関係数は、実測値と予測値の相関係数であるから、=CORREL(範囲1,範囲2)から重相関係数を求める。
R=CORREL(実測値範囲、予測値範囲)=0.903037
2.2 基準化されたカテゴリデータから重相関係数を求める。
aij・Xijで各カテゴリを求める。
上のデータにおいて、それぞれのアイテムの各カテゴリを合計する。
この新しい表を用いて、関数を使用し、各アイテム間の単相関係数を求める。
単相関係数行列をRとする
単相関係数Rの逆行列R-1を求める。
以上から求められた線形予測式により、実測値の約81.5%が説明されており、アイテム3の偏相関係数が一番大きいので、アイテム3がもっとも重要な要因であるといえる。
2.4 各アイテムの範囲(レンジ)を調べる。
各アイテムのレンジは基準化されたカテゴリデータの最大値−最小値で求められる。
アイテム1:13.333−12=1.333
アイテム2:4.667−0=4.667
アイテム3:0−(−9.667)=9.667
アイテム3のレンジが一番大きい、よってアイテム3が外的基準に与える影響がもっとも大きいので、アイテム3が一番重要な要因である。