7. 正準相関分析
2つの量的変量x1とx2がある時、この2変量間の関係を調べたいときには、2変量の標本を幾つか集め、その相関係数を求めることにより2変量間の関係の度合を調べることができる。しかし変量がx1・x2・x3の3変量になったとき、x1・x2の組とx3の関係をみたいとか、変量がx1・x2・x3・x4の4変量で、x1・x2の組とx3・x4の組の関係をみたいとき、そのままでは相関関係をみることができない。そこで、x1・x2の組とx3の関係をみたいときには、まずx1・x2のデータを合成して、その合成した変量とx3との相関係数を求めて、関係をみるようにする。このようにx1・x2を合成して得られる変量を正準変数と呼び、得られる相関係数を正準相関係数と呼ぶ。
7.1 正準相関係数を求める。
いま下の表のように4変量(x1・x2・x3・x4)の標本データがあるとする。
標本NO |
Z |
W |
||
x1 |
x2 |
x3 |
x4 |
|
1 2 … n |
x11 x12 … x1n |
x21 x22 … x2n |
x31 x32 … x3n |
x41 x42 … x4n |
変量x1・x2の組とx3・x4の組がどれくらい関係があるかを調べる。
x1・x2を合成して得られる変量をZ、x3・x4を合成して得られる変量をWとすると、
この時、Z・Wを正準変量といい、l・mは正準変量の係数である。この正準変量ZとWの相関係数(正準相関係数)を最大にするような、l・mを求める必要がある。
(合成変数間の関係をできるだけ残すように集約させなければならないので)
正準相関分析では、正準変量Wが1変量の時には、重回帰分析と同じとなる。また、正準変量Wが1変量で2群以上に分かれているときには、判別分析と同じとなる。
一般に、p個の変数とq個の変数間には、p・q個の相関関係を求めることができるが、これはp個の正準相関に集約することができる。(但しp≦q)
正準相関係数を求める。
この分散をSZZ・SWW、共分散をSZWとすると、ZとWの相関係数rZWは
である。
合成変量ZとWのそれぞれの分散を1・平均を0と仮定する。標準化された変量x1〜x4を使用して、それぞれの分散共分散を求める。
SZZ=1、SWW=1の条件下で、このrZWを最大にするようなl・mを求める。
4変量x1・x2・x3・x4の単相関係数をみると
|
x1 x2 |
x3
x4 |
x1 x2 |
r11
r12 r21
r22 |
r13
r14 r23
r24 |
x3 x4 |
r31
r32 r41
r42 |
r33
r34 r43
r44 |
なおr11=r22=r33=r44=1
ここで
前の行列は
R12・m=λ・R11・l
R21・l=μ・R22・m と表される。
これから
l’・R12・m=λ・l’・R11・l=λ・SZZ=λ
m’・R21・l=μ・m’・R22・m=μ・SWW=μ
l’・R12・m=m’・R21・l=SZW
λ=μ=SZW=rZW
R21・l=μ・R22・m=λ・R22・m
λ・m=R22-1・R21・l
また R12・m=λ・R11・l
λ・R12・m=λ2・R11・l
R11-1・R12・R22-1・R21・l=λ2・l
l≠0
|R11-1・R12・R22-1・R21−λ2E|=0
|T−λ2E|=0
この固有方程式から、λ2を得る。第1正準相関は値の大きい方のλ値を採用する。
いま、λ1≧λ2 とすると、λ1を使用して固有ベクトルを求める。
7.2 正準相関係数の検定
正準相関係数の個数は、p個の変数とq個の変数があると(p≦qとする)、p個の正準相関係数を求めることができる。しかし、この全てを使用するとは限らない。そこで、母集団において有効な正準相関係数の個数を決めるための検定を行う。この検定をバートレットの検定という。
いま、p個の変数とq個の変数があり(p≦q)、p個の固有値(λ)が、
λ12≧λ22≧…≧λp2と得られたとする。
この時、「1番目からk番目までの固有値は0である。」という仮説下で、検定統計量をχ2 とすると、
検定統計量 χ2 =−{n−0.5×(p+q+3)}・loge(Λ)
は、自由度p・qのχ2 分布に漸近的に従う。
検定をおこなう。
(1)仮説をたてる
帰無仮説
H0:ρj=0 (j=1,2,…k)
(1からk番目迄の正準相関係数=0)
対立仮説
H1:ρj≠0 (j=1,2,…k)
(1からk番目迄の正準相関係数≠0)
(2)検定統計量χ2 は、自由度p・qのχ2 分布に従う
(3)有為水準αで検定する
χ2 ≧χ2p・q であれば、仮説を棄却する。つまり、第1正準相関係数から第k正準相関係 数まで、0ではない。
また、k+1番目の正準相関係数の検定については、
検定統計量 χ2k =−{n−0.5(p+q+3)}・loge(Λk)
これを利用してk+1番目の正準相関係数についての検定を行うことができる。
8. 正準相関分析例題
10社についてその知名度・販売力・研究力・応用力について10点満点で評価をし、下のような表を得たとする。
標本NO |
知名度 X1 |
販売力 X2 |
研究力 X3 |
応用力 X4 |
1 2 3 4 5 6 7 8 9 10 |
2 5 7 9 8 4 2 6 3 6 |
3 4 6 8 5 3 3 5 4 7 |
4 6 8 8 7 2 3 7 5 8 |
3 3 5 9 6 5 4 7 4 6 |
いま上記のように4変量ある時、知名度(X1)と販売力(X2)を合成した営業力と、研究力(X3)と応用力(X4)を合成した技術力とがどの様な関係にあるか正準相関係数を求めて調べてみる。知名度(X1)と販売力(X2)の正準変量をZ、研究力(X3)と応用力(X4)の正準変量をWとする。それぞれの正準変量をZ=l1・X1+l2・X2 W=m1・X3+m2・X4 とする。
8.1 重み係数を求める。
相関係数行列を求める。
|
X1 |
X2 |
X3 |
X4 |
X1 |
1.000 |
0.842 |
0.815 |
0.792 |
X2 |
0.842 |
1.000 |
0.882 |
0.792 |
X3 |
0.815 |
0.882 |
1.000 |
0.577 |
X4 |
0.792 |
0.792 |
0.577 |
1.000 |
R11-1・R12・R22-1・R21 を求めると
|
第1成分 |
第2成分 |
固有値 |
0.936 |
0.0154 |
相関係数 |
0.967 |
0.124 |
重み係数 |
X1
X2 X3 X4 0.378 0.660 0.6445 0.478 |
X1
X2
X3 X4 1.817 −1.734 −1.04
1.13 |
8.2 正準変量を求める。
実際に求めた第1正準変量の重み係数を用いて正準変量のZ1とW1 求める。
標準化した値を使用して、第1正準変量のZ1とW1を求めると上の表のようになる。
このZ1とW1の相関係数を求めると RZW =0.9679 となり第1正準相関係数に一致。
次に、第2正準変量の重み係数を用いて正準変量のZ2とW2 求める。
第2正準変量のZ2とW2を求めその相関係数を求めると0.124となり同様に第2正準相関係数に一致している。
それぞれの正準変量間の相関係数を求めると、Z1とZ2 Z1とW2 W1とZ2 W1とW2のいずれにおいてもその相関係数は0となっている。
8.3 構造係数を求める。
構造係数は、各変量と正準変量間の相関係数であるから、標準化した各変量と正準変量と の相関係数を求める。
標準化した変量X1 と第1正準変量Z1の相関係数をRX1−Z1 とすると
RX1−Z1 = 0.9343
同様に求めていくと
RX2−Z1= 0.9791
RX3−W1= 0.204 RX4−W1= 0.8501
標準化した変量X1 と第2正準変量Z2の相関係数をRX1−Z2 とすると
RX1−Z2 = 0.3564
同様に求めていくと
RX2−Z2=
−0.2033 RX3−W2=−0.3910 RX4−W2= 0.5266
8.4 正準相関係数の検定を行う。
(1)母集団における第1正準相関係数の検定を行う
母集団における第1正準相関係数をρ1 とする。
(1)仮説をたてる
帰無仮説:H0 ρ1=0
対立仮説:H1 ρ1≠0
(2)検定統計量χ2 を求める
固有値: λ1=0.9679 λ2 =0.1243 標本数(m):10
変量数(p):2
χ2=18.053 >
χ24(0.05)=9.49
棄却域にはいる。帰無仮説を棄却する。よって対立仮説(H1):ρ1≠0を採択する。
母集団における第1正準相関係数は0ではないといえる。
(2)母集団における第2正準相関係数の検定を行う
母集団における第2正準相関係数をρ2 とする。
(1)仮説をたてる
帰無仮説:H0 ρ2=0
対立仮説:H1 ρ2≠0
(2)検定統計量χ2 を求める
固有値: λ1=0.9679 λ2 =0.1243 標本数(m):10
変量数(p):2
χ2=0.102 <
χ21(0.05)=3.84
棄却域に入らない。よってρ2=0という帰無仮説を棄却できない。
以上から、採用する正準相関係数は第1正準相関係数までとする。
第1正準相関係数=0.9679であり、今回実施した会社の営業力(知名度と販売力の合成した変量)と技術力(研究力と応用力の合成した変量)の相関は非常に高いと考えられる。