3.判別分析
 2群以上の母集団から抽出した標本データを得て、いまどの母集団に属するか不明のサン  プルデータがあるとする。このサンプルデータがどの母集団に属するか調べる方法に、判別分析がある。判別分析を実施するには、集めた標本がどの母集団に属しているのかをあらかじめ区分けしておく必要がある。区分けする方法に、線形判別式を使用する方法と、マハラノビスの距離を用いる方法がある。
3.1 線形判別式を使用する方法
 多変量データx1・x2…xn があるとする。この説明変量x1・x2…xn  はいずれも量的データであり、この変量に適当な重みa1・a2…an をつけ目的変量Zを得る。
   Z=a1・x1+a2・x2+…+an・xn+a0
 この時得られる目的変量Zが区分わけを示す質的データであるとき、この式を線形判別式という。重回帰式では、説明変量も目的変量も量的データを扱ったが、判別分析においては、説明変量は量的データであるが、得られる目的変量はどの母集団に属するのか示す質的データを扱う。
 いま、A中学校の8人の生徒の英語(x1)と数学(x2)の評価があり、この8人の生徒がB高校を受験してその合否結果(Z)が分かっているとする。すると、ここに2つの母集団、合格群と不合格群があることになる。
| 
   NO  | 
  
   説明変量 英語(x1)  数学(x2)  | 
  
   目的変量(Z) 合 否  | 
 
| 
   1 2 3 4 5 6 7 8  | 
  
   5    8 5    5 7       4 8       5 7       2 4       3 8       7 4       6  | 
  
   合 否 合 合 否 否 合 否  | 
 
| 
   平均  | 
  
   6       5  | 
  
   | 
 

 
合格した群(1・3・4・7)と不合格の群(2・5・6・8)を区分わけする直線を1本考える。
 この直線が、線形判別式となる。この線形判別式が判明すれば、どの母集団に付属するのか不明のサンプルデータの所属を得ることができる。
3.1.1 線形判別式を求める。
 説明変量が2つあるのでこれをx1・x2 とすると、この判別式を
    Z=a1・x1+a2・x2+a0   とする。
 合格した群をA群、不合格の群をB群とすると、この判別式Zは、2群(A群とB群)から最も遠い位置に引かれる必要がある。2群から最も遠い位置に引かれることにより、この判別式は、2群A・Bを区分けする最も良い基準線となる。
                      
       
(1)判別得点を求める
   判別得点は、各標本データ点から判別式までの距離で表される。
   もとの標本を合格した群と不合格の群に分けて整理すると
| 
   NO  | 
  
   説明変量 英語(x1)   数学(x2)  | 
  
   目的変量(Z) 合 否  | 
 |
| 
   1 3 4 7  | 
  
   5        
  8 7        
  4 8        
  5 8        
  7  | 
  
   合 合 合 合  | 
  
   A 群  | 
 
| 
   平 均  | 
  
   7        
  6  | 
  
   | 
 |
| 
   2 5 6 8  | 
  
   5        
  5 7        
  2 4        
  3 4        
  6  | 
  
   否 否 否 否  | 
  
   B 群  | 
 
| 
   平 均  | 
  
   5        
  4  | 
  
   | 
 |
| 
   全平均  | 
  
   6        
  5  | 
  
   | 
 |
説明変量x1・x2は量的データであり、目的変量Zは区分を示す質的データである。
通常量的データ間の関係を表すものとしては相関係数があるが、量的データと質的データの  関係を表すものとして相関比(η)がある。相関比(η)は
        
η2=級間変動÷全変動 
で与えられる。
   


t=1.381,−1 で相関比η2は最大値または最小値を持つ。このtの値を相関比η2に代入するとt=−1の時 η2=0 となり最小となる。t=1.381の時  η2=0.71556 となり最大となる。つまり相関比η2は、a1÷a2=−1の時最小となり、a1÷a2=1.381の時最大となる。いま求めようとしているのは、相関比η2を最大とするa1・a2であるから、1.381を採用する。
  判別式は、Z=a1・x1+a2・x2+a0  であるからこれを変形して
   Z = x1+ x2 +    =1.381であるから、Z=1.381x1+x2+
  定数項の  がまだ不明である
数   10                   
線形判別式                                              
学                                                                                 
      8                 
・                              
                          
                                 
・       合格グル-プの中心(7,6)                   
      6             
・        。                                                  
                        
・        ・                               
                
      4               
。      ・                                                  
                    
・                   
不合格グループの中心(5,4)                 
      2                       
・                                             
     
                                                                                   
        
       
0      
2     
4     
6     
8     
10    英語
  
これより求める線形判別式は、Z=1.381x1+x2−13.286 となる。この線形判別式を使用することにより、データを2群に分けることができる。
      実際に判別得点を求めて表にしてみると
| 
   NO  | 
  
   x1 英 語  | 
  
   x2 数 学  | 
  
   判別得点  | 
  
   群  | 
 
| 
   1 3 4 7  | 
  
   5 7 8 8  | 
  
   8 4 5 7  | 
  
   1.619 0.381 2.762 
  4.762  | 
  
   合 格  | 
 
| 
   平均  | 
  
   7  | 
  
   6  | 
  
   2.381  | 
  
   | 
 
| 
   2 5 6 8  | 
  
   5 7 4 4  | 
  
   5 2 3 6  | 
  
   −1.381 −1.619 −4.762 −1.762  | 
  
   不 合 格  | 
 
| 
   平均  | 
  
   5  | 
  
   4  | 
  
   −2.381  | 
  
   | 
 
| 
   全平均  | 
  
   6  | 
  
   5  | 
  
   0  | 
  
   | 
 
判別得点を見ると、合格群は+ 不合格群は−に群分けされていることが分かる。
以上から、グラフを描いてみると
 
   
 
  
   
   
 判別直線を境にして、右側に合格群、左側に不合格群があることが分かる。
  また全平均(6、5)を通り判別直線に直行する直線を1本引き、その直線上に各点から降ろした点を見ると、全平均(6、5)を新たな原点と考えると上側(+側)に合格群、下側(−側)に不合格群がありその距離が判別得点となっていることが分かる。
3.1.2 分散・共分散行列を用いて判別式を求める。(不偏分散を使用する)
(1)説明変数が2個の時
   判別式
Z=a1・x1+a2・x2+a0  を求めるのに分散共分散行列を利用して求める方      法がある。いま説明変量がx1・x2と2つあり、A群・B群の2群に分かれている。
| 
   群  | 
  
   標本NO  | 
  
   x1  | 
  
   x2  | 
 
| 
   A 群  | 
  
   1 2 … n1  | 
  
   x11A x12A … x1・n1A  | 
  
   x21A x22A … x2・n1A  | 
 
| 
   平均 分散  | 
  
   S11A  | 
  
   S22A  | 
 |
| 
   共分散  | 
  
   S12A  | 
 ||
| 
   B 群  | 
  
   1 2 … n2  | 
  
   x11B x12B … x1・n2B  | 
  
   x21B x22B … x2・n2B  | 
 
| 
   平均 分散  | 
  
   S11B  | 
  
   S22B  | 
 |
| 
   共分散  | 
  
   S12B  | 
 ||
     
いまA群・B群が上の様になっているとき
 
(2)説明変量がp個ある時に2A群・Bに分けるとき
| 
   群  | 
  
   標本NO  | 
  
   x1    
  x2    
  …    
  xp  | 
 
| 
   A 群  | 
  
   1 2 … n1  | 
  
   x11A    x21A    …     xp1A x12A    x22A    …     xp2A     … x1・n1A  x2・n1A  …    xp・n1A  | 
 
| 
   | 
  
   平均  | 
  
       …   
    | 
 
| 
   B 群  | 
  
   1 2 … n2  | 
  
   x11B    x21B   …     xp1B x12B    x22B    …     xp2B     … x1・n2B  x2・n2B  …    xp・n2B  | 
 
| 
   | 
  
   平均  | 
  
       …       | 
 
   
 この時、A群の分散共分散行列をSA、B群の分散共分散行列をSB 
  プール後の分散共分散行列をSとすると

 
  
 
3.2 ボックスM検定
 線形判別式を使用して2群を区分わけできるのは、母分散共分散行列が等しい時に限られ  る。2群の母分散が等しい時には、その判別式は直線になるが、等しくない時には判別式は曲線となる。母分散共分散行列が等しくない時には、マハラノビスの距離による判別を行う必要がある。母分散共分散行列が等しいかどうかの検定に「ボックスM検定」がある。
「ボックスM検定」
  A群・B群のそれぞれの分散共分散行列をSA・SBとする。またSA・SBのプール後の分散  共分散行列をSとすると

       p:説明変量の個数 nA:A群の標本数  nB:B群の標本数
   自由度 p(p+1)/2のχ2 分布に漸近的に従う。これを利用して検定を行う。
 (1)仮説をたてる
  帰無仮説 H0 :2群の母分散共分散行列は等しい
  対立仮説 H1 :2群の母分散共分散行列は等しくない
 (2)検定統計量χ2は自由度p(p+1)/2のχ2 分布に従う。
 (3)有為水準をαとすると
 
  
  
  
  
  
  
  
 
            
                  
 
χ2 >
χ2p(p+1)/2(α)であれば仮説を棄却する。つまり、2群の母分散共分散行列は等しくない。よってマハラノビスの距離による判別処理をする方が望ましい。
3.3 マハラノビスの距離による判別
3.3.1 マハラノビスの距離
(1)1変量時のマハラノビスの距離
        

 1変量のデータA群とB群が上の様に分布しているとする。A群のデータは分散の大きいデ  ータ群、B群のデータは分散の小さいデータ群である。この時所属不明のデータxpがある時、この所属不明のデータxpがA群、B群のどちらに所属するデータであるか調べる
  単純にxpからそれぞれの群の中心までの距離を見ると、明らかにこのxpはB群の中心に  近い。
となっていので、このxpはB群のデータであるように思える。しかしA群は分散の大きいデータ群であり、B群は分散の小さいデータ群である。この分散を考慮しないで、単純に距離だけでどちらの群に所属するのかを判断することはできない。この分散を考慮した距離に「マハラノビスの距離」がある。
1変量時のマハラノビスの距離をD2とすると、
(
A群は分散の小さいデータ群、B群は分散の大きいデータ群とする。この時所属不明のデータxp(x1,x2)がある時、このデータxpはA群・B群のどちらに所属するデータであるか調べる。
 
         
                 
   
3.4 多変量における2群の母平均の差に関する検定
3.4.1 2群間の母平均に差があるかどうか検定を行う。
 いま2群がそれぞれN(μ1,σ2)・N(μ2,σ2)に従うとき、ここからn1個・n2個の標本を得たとする。この時2群の母平均μ1=μ2であるかどうか検定は
  検定統計量をFとすると
   ![]()
      ただしp:説明変量の個数 D2:2群の中心間のマハラノビスの汎距離
 は自由度p,n1+n2−p−1のF分布に従う。これを利用してp変量の2群の母平均の   差の検定を行う
(1)仮説をたてる
  帰無仮説 
H0:μ1=μ2  (2群の母平均は等しい)
  対立仮説 
H1:μ1≠μ2  (2群の母平均は等しくない)
(2)検定統計量Fは自由度p,n1+n2−p−1のF分布に従う
(3)有為水準αで検定をおこなう
 
   
 
  
   
   
   F>Fp,n1+n2−p−1(α)であれば仮説H0を棄却する。つまり2群の母平均に差がある    とする。
3.4.2 ウィルクスのΛ(ラムダ)統計量
      多変量時の群間の変動を示す量として、ウィルクスのΛ統計量がある。
    2群の多変量データが下の表のようにあるとすると
| 
   群  | 
  
   変量 標本  | 
  
   X1      X2      …  Xp  | 
 
| 
   A 群  | 
  
   1 2 … n1  | 
  
   X11A   X21A    …   Xp1A X12A   X22A    …   Xp2A … X1・n1A
  X2・n1A  …   Xp・n1A  | 
 
| 
   B 群  | 
  
   1 2 … n2  | 
  
   X11B   X21B    …   Xp1B X12B   X22B    …   Xp2B … X1・n2B
  X2・n2B  …    Xp・n2B  | 
 
Λ統計量は、0≦Λ≦1の値をとり、Λが0に近いほど2群間の差が大きく、Λが1に近づくほど2群間の差が小さくなる。
 このΛ統計量を使用して、2群間の母平均の差の検定をすることができる。
 2群p変量の母平均をそれぞれμiA・μiBとすると、μiA=μiBの仮定下で
      検定統計量をFとすると、
     
 上記検定統計量Fを使用して、有為水準αで仮説H0:μiA=μiB  i=1,2…p を検定し、もしF≧Fp,n−p−1(α)であれば仮説を棄却し、2群の母平均に差があるとする。
3.5 判別分析の的中率
 判別分析を実施して所属する群を判別したとき、その標本が本当に所属している母集団と正しく判定されたかどうかの精度を計るものに判別的中率がある。
  判別的中率=(正しく判別された標本÷全標本の数)×100 である。             
3.6 誤判別の確率
 母集団が2つある時、ある標本を間違った母集団からの標本であると判定する誤りの確   率を誤判別の確率という
  標本が2A群・Bに分かれており、その説明変量がp個ある時、A群の説明変量の平均を   x1A・x2A…xpA、またB群の説明変量の平均をx1B・x2B…xpB とする。この時、A群の中心からB群への中心へのマハラノビスの距離D02 は
 いまP1をA群の標本であるにもかかわらず、B群の標本であると判定する間違いの確率。    またP2をB群の標本であるにもかかわらず、A群の標本であると判定する間違いの確率とすると誤判別の確率は、P1=P2=標準正規分布の
)値の上側確率である。
             
                                         
             
・・・・・・・・・・・・・・・・・・・・・                   
         
                      ↑
                     ![]()
3.7 説明変量の寄与
 線形判別式を、Z=a1x1+a2x2+…+anxn+a0とする。この時係数aiが、判別式に寄与しているかどうか調べる。もし寄与していないのであれば、その説明変量はなくても判別結果に影響を与えていないので、線形判別式から落としてもよい係数である。
 2A群・Bで説明変量がp個ある時、下の表のようであるとする。
| 
   群  | 
  
   標本NO  | 
  
   x1       x2        …     xp  | 
 
| 
   A 群  | 
  
   1 2 … n1  | 
  
   x11A   
  x21A    …     xp1A x12A   
  x22A    …     xp2A … x1・n1A  x2・n1A  …     xp・n1A  | 
 
| 
   B 群  | 
  
   1 2 … n2  | 
  
   x11B   
  x21B 
   …     xp1B x12B   
  x22B    …     xp2B … x1・n2B  x2・n2B  …     xp・n2B  | 
 
  D2P :P個の変量を使用した2群の中心間のマハラノビスの距離。D2P-1:P個の変量からある特定の変量を1つ落としたときの2群の中心間のマハラノビスの距離 とすると
  
検定を行う
 (1)仮説をたてる
  帰無仮説 H0:ai=0 (係数aiは役にたたない)
    対立仮説 
H1:ai≠0
(2)検定統計量Fは自由度1,n1+n2−p−1のF分布に従う。
(3)有為水準αで検定を行う
 
   
 
  
   
   
 
 
 
  
                                            
  F>F1,n1+n2−p−1(α)であれば、仮説H0を棄却する。つまり係数aiは判別式に寄与しているといえる。
  判別式に寄与していない係数は、使用しなくても結果に影響を与えていないので不必要な変量であるといえるので、その係数は削除しても構わない。
 この係数の寄与についてのF値を使用することにより、重回帰式と同様に変数選択の前進選択法・後退減少法ならびに変数増減法などの変数選択を実行することができる。
3.8 よい判別式を作成する。
 判別式では、いくつかの量的データである説明変量から区分わけを示す質的データである目的変量を得る。この時重回帰式と同様に説明変量をむやみに多くしても無駄なことが多い。よい判別式は、少ない説明変量で精度の高い区分わけができるような式である。このために説明変量を調べ、判別式に必要な変量であるかどうか検討する必要がある。
3.8.1 説明変量選択の基準
(1)目的変量に与える影響の大きい説明変量を選ぶ。
 重回帰分析では、説明変量・目的変量ともに量的データであるので、その関係は相関係数で調べることができたが、判別分析では説明変量は量的データで目的変量は質的データである。このように量的データと質的データ間の関係を調べるには相関比(η)を使用する。
  なお、相関比(η)は、0≦η≦1の値をとり、1に近いほど級間変動が大きく2変量間の関係が強いといえる。
 いま説明変量がいくつかあり、その中の1つの変量xが2A群・Bに分かれているとする。この時の相関比を求める。

 

 各変量について相関比を求め、相関比の大きい変量ほど目的変量に与える影響が大きいとい  えるので積極的に判別式に採用する。
  [相関比に関する検定]
    変量x1…xpがお互いに独立であり、ともに正規分布に従うものとする。
    (1)仮説をたてる
    帰無仮説 
H0:η0=0   
(母相関比=0)
    対立仮説 
H1:η0≠0   
(母相関比≠0)
  
  (2)検定統計量をFとする
    F= 
  は自由度p−1,n−pのF分布に従う
          n:標本数 p:変量数
  (3)有為水準αで検定する
 
   
 
  
   
   
 
 
   F≧Fp−1,n−p(α)であれば、仮説を棄却する。つまり母相関比≠0とする。
(2)説明変量間でお互いに高い相関がある時には、どちらかの変量を落とす。説明変量間の相関については、単相関係数を用いて調べる。これは重回帰式と同様に説明変量間でお互いに高い相関があるときには、多重共線性を示すからである。お互い高い相関がある変量は、同じことを説明しているので、どちらか一方の変量を落としても目的変量に与える影響は小さく、判別結果に差異はないといえる。
 多重共線性を調べるには、係数aiの符号と2群の平均の差(−)の符号が不一致のときに多重共線性があるのですぐに調べることができる。

「係数aiの符号」と「2群の平均の差の符号」を見れば、多重共線性が分かる。
3.8.2 判別式における変数選択法
 重回帰式の時と同様に、判別式においても説明変量選択の方法がある。  
 説明変量の選択の方法には、重回帰式同様「変数増加法」「変数減少法」「変数増減法」「変数減増法」などがあり、これらの方法を重回帰式の時と同じように行う。
  変量採否の基準としては、説明変量の寄与での係数aiのF値を検討しながら行う。
4. 判別分析例題
 ある会社を訪問してきた他社の社員(A業界社員とB業界社員)について、その印象について、10点評価をつけたのが下の表である。A業界社員とB業界社員間で印象に違いがあるかどうか調べる。
| 
   NO  | 
  
   X1 礼儀  | 
  
   X2 積極性  | 
  
   X3 強調性  | 
  
   X4 業界区分  | 
 
| 
   1 2 3 4 5 6 7 8  | 
  
   3 8 6 8 7 4 6 7  | 
  
   8 2 7 6 3 7 3 5  | 
  
   4 6 6 4 5 3 6 8  | 
  
   A B A A B A B B  | 
 
※各点は、10(良)〜0(悪) の10点評価値。業界区分はA業界とB業界の2社
 上の表をもとにして、判別分析を実施してA業界とB業界の社員間で印象が違うかどうか調 べる。A業界を「1」・B 業界を「2」と質的区分データに置き換える。文字データから質的数値データに置き換えたデータを使用して判別分析を実行する。
| 
   NO  | 
  
   X1 礼儀  | 
  
   X2 積極性  | 
  
   X3 強調性  | 
  
   X4 業界区分  | 
 
| 
   1 2 3 4 5 6 7 8  | 
  
   3 8 6 8 7 4 6 7  | 
  
   8 2 7 6 3 7 3 5  | 
  
   4 6 6 4 5 3 6 8  | 
  
   1 2 1 1 2 1 2 2  | 
 
 判別分析を実施するには、まず分析するデータを入力して。1ケースあたりの変数はX1〜X4であり、NO1〜NO8 までの8ケース分のデータがある。分析用データ入力後、判別分析を実施する。
4.1 判別分析の実施
 ボックスM検定を実施し、線形判別式で区分するか、マハラノビスの距離を用いて判別するかを決定する。
 ボックスM検定は、群分けした時の2群の母分散共分散が等しいかどうかの検定である。   ボックスM検定の結果2群の母分散共分散が等しければ、2群は線形判別式で区分するこ   とができる。2群の母分散共分散が等しくなければマハラノビスの距離による判別分析を実施する。
4.1.1 群1(A業界)・群2(B業界)それぞれの分散・共分散を求める


4.1.2 検定統計量をχ2 として、この検定統計量を求める。
  群1(A業界社員)の分散共分散行列をS1、標本数をn1、群2(B業界社員)の分散共分散行列をS2、標本数をn2、またプールした分散共分散行列をS、変量数をpとすると

行列式の値は、=MDETERM(範囲)で求める。ただし正方行列に限る
以上関数を使用して求めた値を整理すると
     
    
4.1.3 検定を実施
    帰無仮説:H0 :2群の母分散共分散は等しい
    対立仮説:H1 :2群の母分散共分散は等しくない
 
   
 
  
   
   
 
  
 
  
 
  
                 
↑              
               
χ2=4.1945 
   χ2 < χ26 (0.05) であり、棄却域に入らない。よって仮説H0:(2群の母分散共分散は等しい)を棄却できない。2群の母分散共分散行列は等しくないとはいえない。よって2群を、線計判別式で分ける。
4.2 線形判別式を求める。
4.2.1 分散共分散行列を求める。
 群1・群2の分散共分散行列をそれぞれS1・S2 、プールした分散共分散行列をSは

4.2.2 群1と群2の各変量の平均値の差をとる
 
プール後の分散共分散行列Sと、平均の差の行列を入力する。
 
   
 
  
   
   
分散共分散行列の逆行列を求める。
 先頭の値を=MINVERSE(行列範囲)で求める。
 
   
 
  
   
   
先頭の値が求まったら、そこから逆行列を求める範囲をドラッグし、次に数式バーをクリックした後、CTRLキー+SHIFTキー+ENTERキーを押して、配列式を完成する。

求まったSの逆行列(S-1)と平均の差の行列の積を求める。
先頭の値を=MMULT(行列1範囲,行列2範囲)で求める。
行列積を求める範囲をドラッグした後、数式バーをクリックし、CTRLキー+SHIFTキー+ENTERキーを押して配列式を完成する。

     これより 
a1=4.605 a2=11.36 a3 =−7.08
 
   よって線形判別式は、Y=4.605・X1+11.36・X2−7.08・X3−49.25 
4.3 判別分析における2群の母平均の差の検定を実施
4.3.1 群1の中心から群2の中心までのマハラノビスの距離を求める。
     群1の中心から群2の中心までのマハラノビスの距離D02は
       
4.3.2 2群の母平均に差があるかどうか検定を実施する。
      帰無仮説:H0:μ1=μ2  (2群の母平均は等しい)
      対立仮説:H1:μ1≠μ2  (2群の母平均は等しくない)
    
   F>F3,4(0.05) であり、棄却域に入る。よって2群の母平均は等しいという仮説を棄却す  る。2群の母平均に差がある。
4.4 ウィルクスのΛ(ラムダ)統計量を使用して、2群間の母平均の差の実施。
 群1(A業界)の3変量の平方和・積和行列をS1、群2(B業界)の3変量の平方和・積和行列をS2、群内の積和・平方和行列SWとする。

以上をまとめると

 
   
 
  
   
   
  |SW|=321.75
    全体の平方和・積和行列(ST)
    
 |ST|=5545.12
  以上からΛ統計量は、Λ=|SW|÷|ST|   
Λ=321.75÷5545.12=0.05802
 
 Λ統計量から求めた検定統計量と、マハラノビスの距離から求めた検定統計量は一致        
する。
4.5 誤判別の確率

標準正規分布に関する関数
  Z値から確率を求める … =normsdist(Z値)
  確率からZ値を求める … =normsinv(確率)
今観測されたZ値=3.4893である。この時の確率値は =normsdist(3.4893)=0.999758
となる。これは下図の灰色部分の値(−∞から3.4893)までの確率値であり、検定に使用する上側確率値は、1− 0.999758=0.000242の値を使用する。正規分布は偶関数であるから、下側2.5%のZ値(−3.4893)を使用すれば、同じ値を得ることができる。=normsdist(3.4893)=0.000242
誤判別の確率は0.024%であることが分かる。
 
   
 
  
   
   
4.6 判別得点を求める
   判別得点は、判別式 Y=4.605・X1+11.36・X2−7.08・X3−49.25  で求める。
| 
   番号  | 
  
   判別得点  | 
 ||
| 
   
   判別得点を見ると、A業界の社員(群1)は+値に、B業界の社員(群2)は−値になっていることが分かる。 2 3 4 5 6 7 8  | 
  
   27.12 −32.17 15.42 27.43 −18.335 27.45 −30.02 −16.85  | 
 
    
4.7 よい判別式を作成する。
  よい判別式は、少ない変量で最良の判別結果を得られる判別関数を求めることである。       変数増加法で最良の判別式を求める。
変数増加法では、使用する変数を徐々に増やしていく方法である。
4.7.1 最初に3変量のうち、判別式で最も寄与している変量を採用する。最も寄与している変量は検定統計量F値の最も大きな値を与える変量である。
変量を1つずつ使用した時のマハラノビスの汎距離を求める。
「変量X1のみ使用した時のマハラノビスの汎距離」
 
   
 
  
   
   
A群・B群の各不偏分散を関数で求める。不偏分散を求める関数は =VAR(範囲)である。
A群・B群の標本数はともに4である。これからプ−ル後の分散を求める。

このX1の係数に2群の平均の差をかければマラハノビスの汎距離が求められる。
D02  =  (−0.62687)×(−1.75)=−1.097015
 同様にして、X2変量のみを使用した時、X3変量のみ使用した時のそれぞれのマハラノビスの汎距離を求める。式を作成しておけば、X2の変量をコピーすればすぐに再計算されて、X2を使用した時のマハラノビスの汎距離が求められる。
「変量X2のみ使用した時のマハラノビスの汎距離」

「変量X3のみ使用した時のマハラノビスの汎距離」

以上から各変量を1つ使用時のマハラノビスの汎距離は
   X1変量使用時のマハラノビスの汎距離:1.097
   X2変量使用時のマハラノビスの汎距離:12.5
   X3変量使用時のマハラノビスの汎距離:2.526
各変量1つ使用した時の係数が役に立つかの検定統計量Fは
![]()
 
   
 
  
   
   
 
   
 
  
   
   ![]()
   X1変量使用時のF値:2.194
   X2変量使用時のF値:25
   X3変量使用時のF値:5.053
  それぞれの各変量を1つ使用して得られた線形判別式のF値で最大のF値を与えるのは、   変量X2を使用した時であるので、まず変量X2を採用する。
よって、線形判別式は、Y=3.333・X2−17.0833と求められる。
この時の2群の中心間のマハラノビスの距離は12.5であるので、これから変量X2だけを   使用した時の線形判別式で判別したとき、その係数が役に立つかどうか検定する。
 検定統計量をFとするとF=25.0  
自由度は、1,4+4−1−1=6  である。
 
 
 
 
                                    
 
  
  
                              ↑
                                            
F=25.0
    有為水準α=0.05で
F=25.0 >
F1,6(0.05)=5.978 であるから、係数a2≠0である。
  4.7.2 2群の相関比を求めて、相関比の検定を行う。
  いま合格群・不合格群に群分けすると以下のような表になる。
| 
   | 
  
   NO  | 
  
   X1  | 
  
   X2  | 
  
   X3  | 
 
| 
   合 各 群  | 
  
   1 3 4 6  | 
  
   3 6 8 4  | 
  
   8 7 6 7  | 
  
   4 6 4 3  | 
 
| 
   不 合 各 群  | 
  
   2 5 7 8  | 
  
   8 7 6 7  | 
  
   2 3 3 5  | 
  
   6 5 6 8  | 
 
  
変量X1について合格群・不合格群に分けると

| 
   | 
  
   NO  | 
  
   X1  | 
 
| 
   合 各 群  | 
  
   1 3 4 6  | 
  
   3 6 8 4  | 
 
| 
   不 合 各 群  | 
  
   2 5 7 8  | 
  
   8 7 6 7  | 
 
 
 全変動をST、2群間の級間変動をSBとすると     
 ST=22.875    SB= 4×(5.25−6.125)2 + 4×(7−6.125)2 = 6.125  
よってη2=SB÷ST=0.26776                  
 ![]()
F=2.194の時の確率値は、=FDIST(F値、自由度1、自由度2)から求める。
いま自由度1:1  自由度2:6であるから
| 
   F値  | 
  
   F値関数  | 
  
   確率  | 
 
| 
   2.194  | 
  
   =FDIST(E2,1,6)  | 
  
   0.189054  | 
 
| 
   25  | 
  
   =FDIST(E3,1,6)  | 
  
   0.002452  | 
 
| 
   5.053  | 
  
   =FDIST(E4,1,6)  | 
  
   0.065631  | 
 
  同様に変量X2について合格群・不合格群に分け、全変動・級間変動からη2=0.80645であるからF=25。変量X3について合格群・不合格群に分け、全変動・級間変動からη2=0.457143
 F=5.053 と求められる。
4.7.3  変量X2を採用したので、次に変量を1つ増やしてF値を検討する。
 変量を増加させた時、その変量を採用するかどうかの目安として、F値を求め、その値が2以上であれば採用するようにする。 
(1)変量X2に変量X3を増加させた時
  線形判別式は、Y=5.1685・X2−3.30337・X3−9.14607
  この時の2群の中心間のマハラノビス距離は、25.989である。
  この線形判別式の変量X3の係数a3が判別に役立つかどうか検定を実施する。
  a3=0(変量X3の係数a3は役にたたない)という仮説のもとで
 検定統計量をFとすると
 
  変量X2を使用した線形判別式で、2群に判別したときの2群の中心間のマハラノビスの距離 はD2 =12.5。変量X2とX3を使用した線形判別式で、2群に判別したときの2群の中心間のマハラノビスの距離は 
D2 =25.989
F値:4.351であるので、X2に変量X3を増加させた式は採用する。
(2)変量X2に変量X1を増加させた時
  線形判別式は、Y=0.832117・X1+4.07299・X2−0.259708
  この時の2群の中心間のマハラノビス距離は、13.818である。
  この線形判別式の変量X1の係数a1が判別に役立つかどうか検定を実施する。
  a1=0(変量X1の係数a1は役にたたない)という仮説のもとで
       検定統計量をFとすると

  変量X2を使用した線形判別式で、2群に判別したときの2群の中心間のマハラノビスの距離 はD2 =12.5。変量X2とX1を使用した線形判別式で、2群に判別したときの2群の中心間のマハラノビスの距離は 
D2 =13.818
F値:0.425であるので、X2にX1の変量を増加させた式は採用しない。
 以上の変数増加法により最良の線形判別式は、Y=5.1685・X2−3.30337・X3−9.14607である。
4.8 求めた線形判別式を使用し、判別を予測する。 
  いまA業界・B業界の業界区分不明の人が訪れてきたが、その人の印象が、
X1(礼儀)=6 X2(積極性)=5 X3(強調性)=6  であったとするとこの人はA業界・B業界のどちらの人であると判別できるだろうか?
 3変量を使用した時の線形判別式を使用すると
 線形判別式は、Y=4.6049・X1+11.3601・X2−7.08042・X3−49.2635 
  Y=4.6046×6+11.3601×5−7.08042×6−49.2535 = −7.30792
   よって、B業界の社員と考えられる。
  変数選択法で求めた、最良の線形判別式を使用すると
    線形判別式は、Y=5.1685・X2−3.30337・X3−9.14607 
であるから、
    Y=5.1685×5−3.30337×6−9.14607=  −3.12379
    よって、B業界の社員と考えられる。