【２】判別分析

３．判別分析

　２群以上の母集団から抽出した標本データを得て、いまどの母集団に属するか不明のサン　　プルデータがあるとする。このサンプルデータがどの母集団に属するか調べる方法に、判別分析がある。判別分析を実施するには、集めた標本がどの母集団に属しているのかをあらかじめ区分けしておく必要がある。区分けする方法に、線形判別式を使用する方法と、マハラノビスの距離を用いる方法がある。

３．１　線形判別式を使用する方法

　多変量データｘ₁･ｘ₂…ｘ_n があるとする。この説明変量ｘ₁･ｘ₂…ｘ_n はいずれも量的データであり、この変量に適当な重みａ₁･ａ₂…ａ_n をつけ目的変量Ｚを得る。

Ｚ＝ａ₁･ｘ₁＋ａ₂･ｘ₂＋…＋ａ_n･ｘ_n＋ａ₀

この時得られる目的変量Ｚが区分わけを示す質的データであるとき、この式を線形判別式という。重回帰式では、説明変量も目的変量も量的データを扱ったが、判別分析においては、説明変量は量的データであるが、得られる目的変量はどの母集団に属するのか示す質的データを扱う。

　いま、Ａ中学校の８人の生徒の英語（ｘ₁）と数学（ｘ₂）の評価があり、この８人の生徒がＢ高校を受験してその合否結果（Ｚ）が分かっているとする。すると、ここに２つの母集団、合格群と不合格群があることになる。

説明変量

英語(ｘ₁)　　数学(ｘ₂)

目的変量（Ｚ）

合　否

１

２

３

４

５

６

７

８

５　　　８

５　　　５

７４

８５

７２

４３

８７

４６

合

否

合

否

合

否

平均

６５

合格した群（１･３･４･７）と不合格の群（２･５･６･８）を区分わけする直線を１本考える。

この直線が、線形判別式となる。この線形判別式が判明すれば、どの母集団に付属するのか不明のサンプルデータの所属を得ることができる。

3.1.1　線形判別式を求める。

　説明変量が２つあるのでこれをｘ₁・ｘ₂ とすると、この判別式を

　　　　Ｚ＝ａ₁･ｘ₁＋ａ₂_･ｘ₂＋ａ₀ とする。

　合格した群をＡ群、不合格の群をＢ群とすると、この判別式Ｚは、２群（Ａ群とＢ群）から最も遠い位置に引かれる必要がある。２群から最も遠い位置に引かれることにより、この判別式は、２群Ａ・Ｂを区分けする最も良い基準線となる。

（１）判別得点を求める

　　　判別得点は、各標本データ点から判別式までの距離で表される。

　　　もとの標本を合格した群と不合格の群に分けて整理すると

NO	説明変量英語(ｘ₁) 数学(ｘ₂)	目的変量（Ｚ）合　否
１３４７	５８７４８５８７	合合合合	A 群
平均	７６
２５６８	５５７２４３４６	否否否否	B 群
平均	５４
全平均	６５

説明変量ｘ₁･ｘ₂は量的データであり、目的変量Ｚは区分を示す質的データである。

通常量的データ間の関係を表すものとしては相関係数があるが、量的データと質的データの　　関係を表すものとして相関比（η）がある。相関比（η）は

η²＝級間変動÷全変動で与えられる。

ｔ＝1.381,－1　で相関比η2は最大値または最小値を持つ。このｔの値を相関比η²に代入するとｔ＝－1の時 η²＝０　となり最小となる。ｔ＝1.381の時 η²＝0.71556　となり最大となる。つまり相関比η²は、ａ₁÷ａ₂＝－1の時最小となり、ａ₁÷ａ₂＝1.381の時最大となる。いま求めようとしているのは、相関比η²を最大とするａ₁･ａ₂であるから、1.381を採用する。

判別式は、Ｚ＝ａ₁･ｘ₁＋ａ₂･ｘ₂＋ａ₀であるからこれを変形して

　　　Z = x₁＋ x₂ ＋＝1.381であるから、Ｚ＝1.381ｘ₁＋ｘ₂＋

　　定数項のがまだ不明である

数 10 線形判別式

学

8 ・

・合格ｸﾞﾙ-ﾌﾟの中心(7,6)

6 ・。

・・

4 。・

・不合格ｸﾞﾙｰﾌﾟの中心(5,4)

2 ・

　 0 2 4 6 8 10 英語

これより求める線形判別式は、Ｚ＝1.381ｘ₁＋ｘ₂－13.286 となる。この線形判別式を使用することにより、データを２群に分けることができる。

実際に判別得点を求めて表にしてみると

NO	ｘ₁ 英　語	ｘ₂ 数　学	判別得点	群
１３４７	５７８８	８４５７	1.619 0.381 2.762 4.762	合格
平均	７	６	2.381
２５６８	５７４４	５２３６	－1.381 －1.619 －4.762 －1.762	不合格
平均	５	４	－2.381
全平均	６	５	0

判別得点を見ると、合格群は＋　不合格群は－に群分けされていることが分かる。

　　　以上から、グラフを描いてみると

　判別直線を境にして、右側に合格群、左側に不合格群があることが分かる。

また全平均（６、５）を通り判別直線に直行する直線を１本引き、その直線上に各点から降ろした点を見ると、全平均（６、５）を新たな原点と考えると上側（＋側）に合格群、下側（－側）に不合格群がありその距離が判別得点となっていることが分かる。

3.1.2　分散・共分散行列を用いて判別式を求める。（不偏分散を使用する）

（１）説明変数が２個の時

判別式Ｚ＝ａ₁･ｘ₁＋ａ₂･ｘ₂＋ａ₀ を求めるのに分散共分散行列を利用して求める方法がある。いま説明変量がｘ₁･ｘ₂と２つあり、Ａ群･Ｂ群の２群に分かれている。

群

標本NO

ｘ₁

ｘ₂

Ａ

群

１

２

…

ｎ₁

ｘ_11A

ｘ_12A

…

ｘ₁_･_n1A

ｘ_21A

ｘ_22A

…

ｘ₂_･_n1A

平均

分散

Ｓ_11A

Ｓ_22A

共分散

Ｓ_12A

Ｂ

群

１

２

…

ｎ₂

ｘ_11B

ｘ_12B

…

ｘ₁_･_n2B

ｘ_21B

ｘ_22B

…

ｘ₂_･_n2B

平均

分散

Ｓ_11B

Ｓ_22B

共分散

Ｓ_12B

いまＡ群・Ｂ群が上の様になっているとき

（２）説明変量がｐ個ある時に２Ａ群・Ｂに分けるとき

群	標本NO	ｘ₁ ｘ₂ … ｘ_p
Ａ群	１２ … ｎ₁	ｘ_11A ｘ_21A … ｘ_p1A ｘ_12A ｘ_22A … ｘ_p2A 　　　　… ｘ₁_･_n1A ｘ₂_･_n1A … ｘ_p_･_n1A
	平均	…
Ｂ群	１２ … ｎ₂	ｘ_11B ｘ_21B 　… ｘ_p1B ｘ_12B ｘ_22B … ｘ_p2B 　　　　… ｘ₁_･_n2B ｘ₂_･_n2B … ｘ_p_･_n2B
	平均	…

この時、Ａ群の分散共分散行列をＳ_A、Ｂ群の分散共分散行列をＳ_B　

　　プール後の分散共分散行列をＳとすると

３．２　ボックスＭ検定

　線形判別式を使用して２群を区分わけできるのは、母分散共分散行列が等しい時に限られ　　る。２群の母分散が等しい時には、その判別式は直線になるが、等しくない時には判別式は曲線となる。母分散共分散行列が等しくない時には、マハラノビスの距離による判別を行う必要がある。母分散共分散行列が等しいかどうかの検定に「ボックスＭ検定」がある。

「ボックスＭ検定」

Ａ群・Ｂ群のそれぞれの分散共分散行列をＳ_A・Ｓ_Bとする。またＳ_A・Ｓ_Bのプール後の分散　　共分散行列をＳとすると

p：説明変量の個数　ｎ_A：Ａ群の標本数ｎ_B：Ｂ群の標本数

自由度　ｐ（ｐ＋１）／２のχ² 分布に漸近的に従う。これを利用して検定を行う。

(1)仮説をたてる

　帰無仮説　Ｈ₀ ：２群の母分散共分散行列は等しい

　対立仮説　Ｈ₁ ：２群の母分散共分散行列は等しくない

(2)検定統計量χ2は自由度ｐ（ｐ＋１）／２のχ² 分布に従う。

(3)有為水準をαとすると

χ² ＞ χ²_p(p+1)/2（α）であれば仮説を棄却する。つまり、２群の母分散共分散行列は等しくない。よってマハラノビスの距離による判別処理をする方が望ましい。

３．３　マハラノビスの距離による判別

3.3.1　マハラノビスの距離

（１）１変量時のマハラノビスの距離

１変量のデータＡ群とＢ群が上の様に分布しているとする。Ａ群のデータは分散の大きいデ　　ータ群、Ｂ群のデータは分散の小さいデータ群である。この時所属不明のデータｘ_pがある時、この所属不明のデータｘ_pがＡ群、Ｂ群のどちらに所属するデータであるか調べる

　単純にｘ_pからそれぞれの群の中心までの距離を見ると、明らかにこのｘ_pはＢ群の中心に　　近い。となっていので、このｘ_pはＢ群のデータであるように思える。しかしＡ群は分散の大きいデータ群であり、Ｂ群は分散の小さいデータ群である。この分散を考慮しないで、単純に距離だけでどちらの群に所属するのかを判断することはできない。この分散を考慮した距離に「マハラノビスの距離」がある。

１変量時のマハラノビスの距離をＤ²とすると、

（

Ａ群は分散の小さいデータ群、Ｂ群は分散の大きいデータ群とする。この時所属不明のデータｘ_p（ｘ₁,ｘ₂）がある時、このデータｘ_pはＡ群・Ｂ群のどちらに所属するデータであるか調べる。

３．４　多変量における２群の母平均の差に関する検定

3.4.1　２群間の母平均に差があるかどうか検定を行う。

いま２群がそれぞれＮ（μ₁，σ²）・Ｎ（μ₂，σ²）に従うとき、ここからｎ₁個・ｎ₂個の標本を得たとする。この時２群の母平均μ₁＝μ₂であるかどうか検定は

　検定統計量をＦとすると

ただしｐ：説明変量の個数　Ｄ²：２群の中心間のマハラノビスの汎距離

　は自由度ｐ，ｎ₁＋ｎ₂－ｐ－１のＦ分布に従う。これを利用してｐ変量の２群の母平均の　　　差の検定を行う

(1)仮説をたてる

　帰無仮説Ｈ₀：μ₁＝μ₂ （２群の母平均は等しい）

　対立仮説Ｈ₁：μ₁≠μ₂ （２群の母平均は等しくない）

(2)検定統計量Ｆは自由度ｐ，ｎ1＋ｎ2－ｐ－１のＦ分布に従う

(3)有為水準αで検定をおこなう

Ｆ＞Ｆp,n1＋n2－p－1（α）であれば仮説Ｈ0を棄却する。つまり２群の母平均に差がある　　　　とする。

3.4.2　ウィルクスのΛ（ラムダ）統計量

多変量時の群間の変動を示す量として、ウィルクスのΛ統計量がある。

　　２群の多変量データが下の表のようにあるとすると

群

変量

標本

Ｘ₁ 　Ｘ₂ 　 …　　Ｘ_p

Ａ

群

１

２

…

ｎ₁

Ｘ_11A Ｘ_21A …　Ｘ_p1A

Ｘ_12A Ｘ_22A …　Ｘ_p2A

…

Ｘ₁_･n_1A Ｘ₂_･n_1A …　Ｘ_p_･_n1A

Ｂ

群

１

２

…

ｎ₂

Ｘ_11B Ｘ_21B …　Ｘ_p1B

Ｘ_12B Ｘ_22B …　Ｘ_p2B

…

Ｘ₁_･n_2B Ｘ₂_･_n2B … Ｘ_p_･_n2B

Λ統計量は、０≦Λ≦１の値をとり、Λが０に近いほど２群間の差が大きく、Λが１に近づくほど２群間の差が小さくなる。

このΛ統計量を使用して、２群間の母平均の差の検定をすることができる。

２群ｐ変量の母平均をそれぞれμ_iA・μ_iBとすると、μ_iA＝μ_iBの仮定下で

検定統計量をＦとすると、

上記検定統計量Ｆを使用して、有為水準αで仮説Ｈ0：μ_iA＝μ_iB i=1,2…p を検定し、もしＦ≧Ｆp,n－p－1（α）であれば仮説を棄却し、２群の母平均に差があるとする。

３．５　判別分析の的中率

　判別分析を実施して所属する群を判別したとき、その標本が本当に所属している母集団と正しく判定されたかどうかの精度を計るものに判別的中率がある。

判別的中率＝（正しく判別された標本÷全標本の数）×１００である。

３．６　誤判別の確率

　母集団が２つある時、ある標本を間違った母集団からの標本であると判定する誤りの確　　　率を誤判別の確率という

標本が２Ａ群・Ｂに分かれており、その説明変量がｐ個ある時、Ａ群の説明変量の平均を　　　ｘ_1A・ｘ_2A…ｘ_pA、またＢ群の説明変量の平均をｘ_1B・ｘ_2B…ｘ_pB とする。この時、Ａ群の中心からＢ群への中心へのマハラノビスの距離Ｄ₀² は

いまＰ₁をＡ群の標本であるにもかかわらず、Ｂ群の標本であると判定する間違いの確率。　　またＰ₂をＢ群の標本であるにもかかわらず、Ａ群の標本であると判定する間違いの確率とすると誤判別の確率は、Ｐ₁＝Ｐ₂＝標準正規分布の）値の上側確率である。

・・・・・・・・・・・・・・・・・・・・・

　　　　　　　　　　　　　　　　　　　　　　↑

３．７　説明変量の寄与

　線形判別式を、Ｚ＝ａ₁ｘ₁＋ａ₂ｘ₂＋…＋ａ_nｘ_n＋ａ0とする。この時係数ａiが、判別式に寄与しているかどうか調べる。もし寄与していないのであれば、その説明変量はなくても判別結果に影響を与えていないので、線形判別式から落としてもよい係数である。

２Ａ群・Ｂで説明変量がｐ個ある時、下の表のようであるとする。

群

標本NO

ｘ₁ 　ｘ₂ … ｘ_p

Ａ

群

１

２

…

ｎ₁

ｘ_11A ｘ_21A … ｘ_p1A

ｘ_12A ｘ_22A … ｘ_p2A

…

ｘ₁_･_n1A ｘ₂_･_n1A … ｘ_p_･_n1A

Ｂ

群

１

２

…

ｎ₂

ｘ_11B ｘ_21B 　… ｘ_p1B

ｘ_12B ｘ_22B … ｘ_p2B

…

ｘ₁_･_n2B ｘ₂_･_n2B … ｘ_p_･_n2B

Ｄ²_P：Ｐ個の変量を使用した２群の中心間のマハラノビスの距離。Ｄ²_P-1：Ｐ個の変量からある特定の変量を１つ落としたときの２群の中心間のマハラノビスの距離とすると

検定を行う

(1)仮説をたてる

　　帰無仮説　Ｈ₀：ａ_i＝０　（係数ａiは役にたたない）

対立仮説Ｈ₁：ａ_i≠０

(2)検定統計量Ｆは自由度１，ｎ₁＋ｎ₂－ｐ－１のＦ分布に従う。

(3)有為水準αで検定を行う

Ｆ＞Ｆ1,n1＋n2－p－1(α)であれば、仮説Ｈ₀を棄却する。つまり係数ａiは判別式に寄与しているといえる。

判別式に寄与していない係数は、使用しなくても結果に影響を与えていないので不必要な変量であるといえるので、その係数は削除しても構わない。

　この係数の寄与についてのＦ値を使用することにより、重回帰式と同様に変数選択の前進選択法・後退減少法ならびに変数増減法などの変数選択を実行することができる。

３．８　よい判別式を作成する。

　判別式では、いくつかの量的データである説明変量から区分わけを示す質的データである目的変量を得る。この時重回帰式と同様に説明変量をむやみに多くしても無駄なことが多い。よい判別式は、少ない説明変量で精度の高い区分わけができるような式である。このために説明変量を調べ、判別式に必要な変量であるかどうか検討する必要がある。

3.8.1　説明変量選択の基準

（１）目的変量に与える影響の大きい説明変量を選ぶ。

　重回帰分析では、説明変量・目的変量ともに量的データであるので、その関係は相関係数で調べることができたが、判別分析では説明変量は量的データで目的変量は質的データである。このように量的データと質的データ間の関係を調べるには相関比（η）を使用する。

なお、相関比（η）は、０≦η≦１の値をとり、１に近いほど級間変動が大きく２変量間の関係が強いといえる。

　いま説明変量がいくつかあり、その中の１つの変量ｘが２Ａ群・Ｂに分かれているとする。この時の相関比を求める。

各変量について相関比を求め、相関比の大きい変量ほど目的変量に与える影響が大きいとい　　えるので積極的に判別式に採用する。

［相関比に関する検定］

変量ｘ₁…ｘ_pがお互いに独立であり、ともに正規分布に従うものとする。

(1)仮説をたてる

　　　帰無仮説Ｈ₀：η₀＝０（母相関比＝０）

　　　対立仮説Ｈ₁：η₀≠０（母相関比≠０）

(2)検定統計量をＦとする

Ｆ＝は自由度ｐ－１，ｎ－ｐのＦ分布に従う

ｎ：標本数　ｐ：変量数

(3)有為水準αで検定する

Ｆ≧Ｆp－1,n－p（α）であれば、仮説を棄却する。つまり母相関比≠０とする。

（２）説明変量間でお互いに高い相関がある時には、どちらかの変量を落とす。説明変量間の相関については、単相関係数を用いて調べる。これは重回帰式と同様に説明変量間でお互いに高い相関があるときには、多重共線性を示すからである。お互い高い相関がある変量は、同じことを説明しているので、どちらか一方の変量を落としても目的変量に与える影響は小さく、判別結果に差異はないといえる。

多重共線性を調べるには、係数ａiの符号と２群の平均の差（－）の符号が不一致のときに多重共線性があるのですぐに調べることができる。

「係数ａiの符号」と「２群の平均の差の符号」を見れば、多重共線性が分かる。

3.8.2　判別式における変数選択法

　重回帰式の時と同様に、判別式においても説明変量選択の方法がある。　　

　説明変量の選択の方法には、重回帰式同様「変数増加法」「変数減少法」「変数増減法」「変数減増法」などがあり、これらの方法を重回帰式の時と同じように行う。

変量採否の基準としては、説明変量の寄与での係数ａiのＦ値を検討しながら行う。

４．　判別分析例題

　ある会社を訪問してきた他社の社員（Ａ業界社員とＢ業界社員）について、その印象について、１０点評価をつけたのが下の表である。Ａ業界社員とＢ業界社員間で印象に違いがあるかどうか調べる。

ＮＯ

Ｘ₁

礼儀

Ｘ₂

積極性

Ｘ₃

強調性

Ｘ₄

業界区分

１

２

３

４

５

６

７

８

３

８

６

８

７

４

６

７

８

２

７

６

３

７

３

５

４

６

４

５

３

６

８

Ａ

Ｂ

Ａ

Ｂ

Ａ

Ｂ

※各点は、１０(良)～０(悪)　の１０点評価値。業界区分はＡ業界とＢ業界の２社

　上の表をもとにして、判別分析を実施してＡ業界とＢ業界の社員間で印象が違うかどうか調　べる。Ａ業界を「１」・Ｂ　業界を「２」と質的区分データに置き換える。文字データから質的数値データに置き換えたデータを使用して判別分析を実行する。

ＮＯ

Ｘ₁

礼儀

Ｘ₂

積極性

Ｘ₃

強調性

Ｘ₄

業界区分

１

２

３

４

５

６

７

８

３

８

６

８

７

４

６

７

８

２

７

６

３

７

３

５

４

６

４

５

３

６

８

１

２

１

２

１

２

　判別分析を実施するには、まず分析するデータを入力して。１ケースあたりの変数はＸ₁～Ｘ₄であり、ＮＯ１～ＮＯ８　までの８ケース分のデータがある。分析用データ入力後、判別分析を実施する。

４．１　判別分析の実施

　ボックスＭ検定を実施し、線形判別式で区分するか、マハラノビスの距離を用いて判別するかを決定する。

　ボックスＭ検定は、群分けした時の２群の母分散共分散が等しいかどうかの検定である。　　　ボックスＭ検定の結果２群の母分散共分散が等しければ、２群は線形判別式で区分するこ　　　とができる。２群の母分散共分散が等しくなければマハラノビスの距離による判別分析を実施する。

4.1.1　群1（A業界）・群2（B業界）それぞれの分散・共分散を求める

4.1.2 検定統計量をχ² として、この検定統計量を求める。

群１（Ａ業界社員）の分散共分散行列をＳ₁、標本数をｎ₁、群２（Ｂ業界社員）の分散共分散行列をＳ₂、標本数をｎ₂、またプールした分散共分散行列をＳ、変量数をｐとすると

行列式の値は、＝MDETERM(範囲）で求める。ただし正方行列に限る

以上関数を使用して求めた値を整理すると

4.1.3　検定を実施

帰無仮説：Ｈ₀ ：２群の母分散共分散は等しい

対立仮説：Ｈ₁ ：２群の母分散共分散は等しくない

↑

χ²=4.1945

χ² ＜ χ²₆ (0.05) であり、棄却域に入らない。よって仮説Ｈ₀：（２群の母分散共分散は等しい）を棄却できない。２群の母分散共分散行列は等しくないとはいえない。よって２群を、線計判別式で分ける。

４．２　線形判別式を求める。

4.2.1　分散共分散行列を求める。

群１・群２の分散共分散行列をそれぞれＳ₁・Ｓ₂、プールした分散共分散行列をＳは

4.2.2　群１と群２の各変量の平均値の差をとる

プール後の分散共分散行列Sと、平均の差の行列を入力する。

分散共分散行列の逆行列を求める。

　先頭の値を＝MINVERSE(行列範囲)で求める。

先頭の値が求まったら、そこから逆行列を求める範囲をドラッグし、次に数式バーをクリックした後、CTRLキー＋SHIFTキー＋ENTERキーを押して、配列式を完成する。

求まったSの逆行列（S^-1)と平均の差の行列の積を求める。

先頭の値を＝MMULT(行列1範囲，行列2範囲)で求める。

行列積を求める範囲をドラッグした後、数式バーをクリックし、CTRLキー＋SHIFTキー＋ENTERキーを押して配列式を完成する。

これより a₁=4.605　a₂=11.36　a₃ =－7.08

よって線形判別式は、Ｙ＝4.605･Ｘ₁＋11.36･Ｘ₂－7.08･Ｘ₃－49.25

４．３　判別分析における2群の母平均の差の検定を実施

4.3.1　群１の中心から群２の中心までのマハラノビスの距離を求める。

群１の中心から群２の中心までのマハラノビスの距離Ｄ₀²は

4.3.2　２群の母平均に差があるかどうか検定を実施する。

帰無仮説：Ｈ₀：μ₁＝μ₂ （２群の母平均は等しい）

対立仮説：Ｈ₁：μ₁≠μ₂ （２群の母平均は等しくない）

Ｆ＞Ｆ3,4(0.05) であり、棄却域に入る。よって２群の母平均は等しいという仮説を棄却す　　る。２群の母平均に差がある。

４．４　ウィルクスのΛ（ラムダ）統計量を使用して、２群間の母平均の差の実施。

　群１（Ａ業界）の３変量の平方和・積和行列をＳ₁、群２（Ｂ業界）の３変量の平方和・積和行列をＳ₂、群内の積和・平方和行列Ｓ_Wとする。

以上をまとめると

｜Ｓ_W｜＝321.75

全体の平方和・積和行列(Ｓ_T)

｜Ｓ_T｜＝5545.12

以上からΛ統計量は、Λ＝｜Ｓ_W｜÷｜Ｓ_T｜ Λ＝321.75÷5545.12＝0.05802

Λ統計量から求めた検定統計量と、マハラノビスの距離から求めた検定統計量は一致する。

４．５　誤判別の確率

標準正規分布に関する関数

　　Ｚ値から確率を求める　…　=normsdist(Z値)

　　確率からZ値を求める　…　=normsinv(確率)

今観測されたZ値=3.4893である。この時の確率値は　=normsdist(3.4893)=0.999758

となる。これは下図の灰色部分の値（－∞から3.4893）までの確率値であり、検定に使用する上側確率値は、1－　0.999758=0.000242の値を使用する。正規分布は偶関数であるから、下側2.5%のZ値(－3.4893)を使用すれば、同じ値を得ることができる。=normsdist(3.4893)=0.000242

誤判別の確率は0.024%であることが分かる。

４．６　判別得点を求める

判別得点は、判別式　Ｙ＝4.605･Ｘ₁＋11.36･Ｘ₂－7.08･Ｘ₃－49.25 で求める。

番号

判別得点

判別得点を見ると、Ａ業界の社員（群１）は＋値に、Ｂ業界の社員（群２）は－値になっていることが分かる。

1

27.12

－32.17

15.42

27.43

－18.335

27.45

－30.02

－16.85

４．７　よい判別式を作成する。

よい判別式は、少ない変量で最良の判別結果を得られる判別関数を求めることである。変数増加法で最良の判別式を求める。

変数増加法では、使用する変数を徐々に増やしていく方法である。

４.7.1　最初に3変量のうち、判別式で最も寄与している変量を採用する。最も寄与している変量は検定統計量F値の最も大きな値を与える変量である。

変量を１つずつ使用した時のマハラノビスの汎距離を求める。

「変量X₁のみ使用した時のマハラノビスの汎距離」

A群・B群の各不偏分散を関数で求める。不偏分散を求める関数は　＝VAR(範囲)である。

A群・B群の標本数はともに４である。これからプ－ル後の分散を求める。

このX₁の係数に2群の平均の差をかければマラハノビスの汎距離が求められる。

D₀²= (－0.62687)×(－1.75)=－1.097015

　同様にして、X₂変量のみを使用した時、X₃変量のみ使用した時のそれぞれのマハラノビスの汎距離を求める。式を作成しておけば、X₂の変量をコピーすればすぐに再計算されて、X₂を使用した時のマハラノビスの汎距離が求められる。

「変量X₂のみ使用した時のマハラノビスの汎距離」

「変量X₃のみ使用した時のマハラノビスの汎距離」

以上から各変量を１つ使用時のマハラノビスの汎距離は

　　　X₁変量使用時のマハラノビスの汎距離：1.097

　　　X₂変量使用時のマハラノビスの汎距離：12.5

　　　X₃変量使用時のマハラノビスの汎距離：2.526

各変量１つ使用した時の係数が役に立つかの検定統計量Fは

　　 X₁変量使用時のF値：2.194

　　 X₂変量使用時のF値：25

　　 X₃変量使用時のF値：5.053

それぞれの各変量を１つ使用して得られた線形判別式のＦ値で最大のＦ値を与えるのは、　　　変量Ｘ₂を使用した時であるので、まず変量Ｘ₂を採用する。

よって、線形判別式は、Ｙ＝3.333･Ｘ₂－17.0833と求められる。

この時の２群の中心間のマハラノビスの距離は12.5であるので、これから変量Ｘ₂だけを　　　使用した時の線形判別式で判別したとき、その係数が役に立つかどうか検定する。

検定統計量をＦとするとＦ＝25.0 自由度は、1,4＋4－1－1=6 である。

　　　　　　　　　　　　　　　　　　　　　↑

Ｆ＝25.0

有為水準α=0.05でＦ=25.0 ＞Ｆ_1,6(0.05)=5.978 であるから、係数ａ₂≠０である。

4.7.2　２群の相関比を求めて、相関比の検定を行う。

いま合格群・不合格群に群分けすると以下のような表になる。

ＮＯ

Ｘ₁

Ｘ₂

Ｘ₃

合

各

群

１

３

４

６

３

６

８

４

８

７

６

７

４

６

４

３

不

合

各

群

２

５

７

８

７

６

７

２

３

５

６

５

６

８

変量Ｘ₁について合格群・不合格群に分けると

ＮＯ

Ｘ₁

合

各

群

１

３

４

６

３

６

８

４

不

合

各

群

２

５

７

８

７

６

７

全変動をＳ_T、２群間の級間変動をＳ_Bとすると

Ｓ_T＝22.875 Ｓ_B＝ 4×(5.25－6.125)²＋ 4×(7－6.125)²= 6.125 よってη²＝Ｓ_B÷Ｓ_T＝0.26776

F=2.194の時の確率値は、＝FDIST(F値、自由度1、自由度2)から求める。

いま自由度1：1　　自由度2：6であるから

F値	F値関数	確率
2.194	=FDIST(E2,1,6)	0.189054
25	=FDIST(E3,1,6)	0.002452
5.053	=FDIST(E4,1,6)	0.065631

同様に変量Ｘ₂について合格群・不合格群に分け、全変動・級間変動からη²＝0.80645であるからＦ＝25。変量Ｘ₃について合格群・不合格群に分け、全変動・級間変動からη²＝0.457143

　Ｆ＝5.053　と求められる。

４.7.3 変量Ｘ₂を採用したので、次に変量を１つ増やしてＦ値を検討する。

　変量を増加させた時、その変量を採用するかどうかの目安として、F値を求め、その値が2以上であれば採用するようにする。

(１)変量Ｘ₂に変量Ｘ₃を増加させた時

線形判別式は、Ｙ=5.1685･Ｘ2－3.30337･Ｘ3－9.14607

この時の２群の中心間のマハラノビス距離は、25.989である。

この線形判別式の変量Ｘ₃の係数ａ₃が判別に役立つかどうか検定を実施する。

ａ₃＝０（変量Ｘ₃の係数ａ₃は役にたたない）という仮説のもとで

検定統計量をＦとすると

変量Ｘ₂を使用した線形判別式で、２群に判別したときの２群の中心間のマハラノビスの距離　はＤ² ＝12.5。変量Ｘ₂とＸ₃を使用した線形判別式で、２群に判別したときの２群の中心間のマハラノビスの距離はＤ² ＝25.989

F値:4.351であるので、X₂に変量X₃を増加させた式は採用する。

(２)変量Ｘ₂に変量Ｘ₁を増加させた時

線形判別式は、Ｙ=0.832117･Ｘ₁＋4.07299･Ｘ₂－0.259708

この時の２群の中心間のマハラノビス距離は、13.818である。

この線形判別式の変量Ｘ₁の係数ａ₁が判別に役立つかどうか検定を実施する。

ａ₁＝０（変量Ｘ₁の係数ａ₁は役にたたない）という仮説のもとで

検定統計量をＦとすると

変量Ｘ₂を使用した線形判別式で、２群に判別したときの２群の中心間のマハラノビスの距離　はＤ²＝12.5。変量Ｘ₂とＸ₁を使用した線形判別式で、２群に判別したときの２群の中心間のマハラノビスの距離はＤ²＝13.818

F値:0.425であるので、X₂にX₁の変量を増加させた式は採用しない。

以上の変数増加法により最良の線形判別式は、Ｙ=5.1685･Ｘ₂－3.30337･Ｘ₃－9.14607である。

４．８　求めた線形判別式を使用し、判別を予測する。

　　いまＡ業界・Ｂ業界の業界区分不明の人が訪れてきたが、その人の印象が、

Ｘ₁（礼儀）＝６　Ｘ₂（積極性）＝５　Ｘ₃（強調性）＝６であったとするとこの人はＡ業界・Ｂ業界のどちらの人であると判別できるだろうか？

３変量を使用した時の線形判別式を使用すると

　線形判別式は、Ｙ＝4.6049･Ｘ₁＋11.3601･Ｘ₂－7.08042･Ｘ₃－49.2635

　　Ｙ＝4.6046×6＋11.3601×5－7.08042×6－49.2535 = －7.30792

よって、Ｂ業界の社員と考えられる。

変数選択法で求めた、最良の線形判別式を使用すると

線形判別式は、Ｙ=5.1685･Ｘ₂－3.30337･Ｘ₃－9.14607 であるから、

Ｙ＝5.1685×5－3.30337×6－9.14607= －3.12379

よって、Ｂ業界の社員と考えられる。

EXCEL多変量分析ホームページへ戻る