EXCEL多変量分析ホームページへ戻る

10. 数量化U類

 説明変数が質的データで与えられ、この質的データから、質的データである外的基準を求める方法。説明変数が量的データで与えられているときには、判別分析があるが、説明変数が質的データで与えられるときに、いくつかの群に判別する方法が数量化U類である。

 6人の生徒について、英語と数学(アイテム)の好き・嫌い(カテゴリ)のアンケートをとり、そのアンケートの結果と入学試験に合格したか不合格であったかの結果が下の表のようになったとする。

 

標本No

英語

数学

合否

好き

嫌い

好き

嫌い

 

 

 

 

 

 

 

 

10.1 判別式を求める。

 数量化T類同様に、各アイテムの各カテゴリについて、該当有りは1、該当無しは0の 数量を与える。

    ダミー変数として

                             1…該当有り

            i(jk)

                             0…該当なし

 

 標本No

アイテム1

英語

アイテム2

数学

合否

(外的基準)

11

12

21

22

 

 説明変数は、数量化により質的データに量的データを与える。結果の合否は、質的データ(区分データ)である。量的データと質的データの関係を表すものとして相関比(η)がある。相関比(η)は、級間変動÷全変動で与えられる。

 いま、各カテゴリをx11・x12・x21・x22とし、これらのカテゴリから求められる合成変量(以下判別得点と呼ぶことにする)をYとすると、Y=a11・x11+a12・x12+a21・x21+a22・x22

 この式を使用して、実際に各標本の判別得点を求めると次のような表になる。

 

 

 

 

 

数量化T類と同様にダミー変数間に、i(11)+xi(21)=xi(21)+xi(22)=1の関係があるので、このままではaij を求めることができない。このために数量化U類では、通常ai1=0とする。(a11=a21=0)

 判別得点から相関比を求め、相関比が最大になるようなaij を求める。相関比が最大になれば、2群が最もよく区分されているといえる。相関比(η)は、全変動をST、級間変動をSB とすると  η2 =ST÷SB で与えられる。

@全変動を求める。

  全変動は、各データが全平均からどれくらいバラついているかである。

   

   A級間変動を求める。

 級間変動は、1群の平均が全平均からどれくらいバラついているかと、2群の平均が全平均からどれくらいバラついているかの合計である。

  

 

 

 

 

B相関比を求める。

   

 

 

相関比をtで偏微分し、0とおいて相関比を最大にするtを求める。

この判別式から判別得点を求めると、下の表のようになる。

 

標本No

アイテム1

アイテム2

判別得点

平 均

英語

数学

11

12

21

22

0

0

0.707

0.2356

1.414

1.414

0.707

1.178

 

0.707

  この時相関比は

   

10.2 行列を使用して判別式を求める。

      相関比をηとすると

    

 

 

 

 

 

 

  例題のような2群の判別の時を考える

  1群の計を(0,1)=、2群の計を(2,3)=、総計を(2,4)=とすると

  1群の判別得点の合計は、1   2群の判別得点の合計は、2 

 判別得点の総計は、0   全分散ST、級間分散をSB

 

  

 

    行列はともに対称行列

  

     |2B・a−2η2T・a|=0      2|−η2|・=0  −η2|=0

     1−η2|=0    これより、相関比を得る。

  例題について、説明変数を行列で表すと

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 


                                                    

 

 

 

 

 

 

 

 

 

 

 

 

 

        0.333120.333220.66612

        0.333120.333220.66622

        122+a222 = 1

 

 

 

 

10.3 カテゴリ数量の基準化    

   数量化U類では、判別式を得るにあたり、第1カテゴリに対応する数量をai1=0(i=1,2…)として求めているので、この結果a11=0、a21=0 となるので、各アイテム内のカテゴリ数量の平均が0になるように基準化を行う。

  最初に求めた判別式は、Y=0.707・x120.707・x22 であるから、これを基準化する。

 

 

 

 

 

 

 

 

 

この基準化した判別式を用いて、それぞれの標本の判別得点を求めて表にすると

 

標本No

アイテム1(英語)

アイテム2(数学)

判別得点

平均

11

12

21

22

0.2357

0.2357

0.2357

0

0

0

0.4713

0.4713

0

0

0

0.2357

0.707

0.707

0

0.471

0

0

0.2357

0.4713

0.4713

0

0

0

0

0.2357

0.2357

0.2357

0.707

0.707

0

0.471

 

合計

0.943

0.943

0.943

0.943

 

合計

平均

 

 

10.4 外的基準に与えるアイテムの影響力について

 どのアイテムが一番外的基準に影響を与えているかを調べるには、レンジ(範囲)・単相関係数・偏相関係数をみるようにする。外的基準に与える影響力の大きいアイテムほど重要なアイテムであるといえる。

(1)レンジ(範囲)を調べる。

 数量化T類と同様に、各アイテム内の基準化されたカテゴリ数量の「最大値−最小値」をレンジ(範囲)という。レンジの大きいアイテムほど外的基準に与える影響が大きいといえる。

 

標本No

アイテム1(英語)

アイテム2(数学)

0.2357

0.2357

0.2357

0.4713

0.4713

0.2357

0.4713

0.4713

0.2357

0.2357

0.2357

0.2357

レンジ

0.707

0.707

 

 

   レンジを求めると

 

     アイテム1… 0.4713(0.2357)=0.707

            アイテム2… 0.2357(0.4713)=0.707

 

   アイテム1・アイテム2ともにレンジは 0.707 であり、アイテム1・アイテム2ともにレンジからみると外的基準に与える影響力差はないといえる。

 

 

 

 

(2)各アイテムと外的基準との間の単相関係数を調べる。

 外的基準は、「合格」「不合格」といった質的データであるから、この外的基準に対して数量を与える。外的基準が2群であれば、よく2群を区別できるように「合格」に対して「−1」を与え、また「不合格」に対して「1」を与えると次のような表となる。

 

標本No

アイテム1(英語)

1

アイテム2(数学)

2

外的基準

0.2357

0.2357

0.2357

0.4713

0.4713

0.2357

0.4713

0.4713

0.2357

0.2357

0.2357

0.2357

−1(合格)

−1(合格)

−1(合格)

(不合)

(不合)

(不合)

 

  アイテム1をx1、アイテム2をx2、外的基準をy、またアイテム1と外的基準との単相関係数をr1y、アイテム2と外的基準との単相関係数をr2yとすると、それぞれの単相関係数は

       

 それぞれの説明変量と外的基準との単相関係数についても、アイテム1とアイテム2は同じであり、同等の影響を与えている。

 なお、説明変量間でお互いに高い相関が認められるときには、多重共線性を示すので、その時にはどちらか一方の説明変量を落として判別式を求めるようにする必要がある。

 いまアイテム1とアイテム2の間の相関係数を求めると、r120.5であり、それほど高い相関はないと認められるので、多重共線性はないといえる。

(3)各アイテムと外的基準との偏相関係数を調べる。

   数量化T類と同様にして、各説明変量と外的基準との偏相関係数を求める。

   

 

 

偏相関係数についても、外的基準に与える2つのアイテムの影響力は同じであるといえる。

 

 

 

 

 

 

 

 

 

数量化2類例題

 判別分析の例題は、説明変量が量的データであり、目的変量が質的データであった。この表を元にして、説明変量において、6点以上を該当あり、5点以下を該当無しとして新しい表を作成する。この新しく作成された表はすべて質的データであるから、数量化2類の分析を実施する。

 判別分析で使用した表

NO

1

礼儀

2

積極性

3

強調性

4

業界区分

 

1. 数量化2類分析用に質的データの表にする。

6点以上を該当有り:「1」 5点以下を該当無し:「0」 A業界:「1」 B業界:「2」とする。

 

NO

1

礼儀

2

積極性

3

強調性

Y

業界区分

 

有り

無し

有り

無し

有り

無し

 

 新しく作成した表を見ると、説明変量X2と目的変量Y11で対応状態となっている。このままでは変量X2さえあれば、他の変量はいらないということになるので、X2の変量を削除する。説明変量X1X3と目的変量Yの表

 

 

礼儀:

X1

協調性:

X3

業界区分

 

有り

無し

有り

無し

 

標本

X11

X12

X31

X32

Y

1

0

1

0

1

1

2

1

0

1

0

2

3

1

0

1

0

1

4

1

0

0

1

1

5

1

0

0

1

2

6

0

1

0

1

1

7

1

0

1

0

2

8

1

0

1

0

2

 

 

 

 

 

 

 

上の表のデータを元にして数量化2類の分析を実施する。

X11X31の成分を取り除き、業界区分をキーとして昇順にソートし、2群に分ける。

さらに各群の小計と2群の合計を求めると以下の様な表になる。

 

 

 

 

 

 

 

 

 

 

 

 

 


2. 上の表を元に線形判別式を求める。

 

 

 

 

 

 

 

 

 

 


とすると

  (0.25−η2 )(0.125−η2)0.25×0.125=0

  η2= 00.375

分散比(η2)は0で最小となり、0.375で最大となる。

 

 

     0.25a12025 a320.375a12

     0.125 a120.125 a320.375a32

     a122a322=1

 

以上から  a12  0.894     a32 = 0.447

線形判別式は、Y 0.894X12 + 0.447X32

この式を基準化すると、Y 0.2235X110.6705X120.2235X310.2235X32

この判別式を使用して予測値(Y')を求める。さらに求めた予測値の標準偏差を求め、各予測値を割って標準化(平均:0 標準偏差:1)する。さらに標準化された予測値の各群の平均値を求める。

 

 

礼儀

 

協調性

 

業界区分

 

 

 

 

有り

無し

有り

無し

 

予測値

標準化

 

標本

X11

X12

X31

X32

Y

Y'

Y'

各群平均

1

0

1

0

1

1

0.894

1.52753

 

3

1

0

1

0

1

-0.447

-0.7638

 

4

1

0

0

1

1

0

0

 

6

0

1

0

1

1

0.894

1.52753

0.5728

2

1

0

1

0

2

-0.447

-0.7638

 

5

1

0

0

1

2

0

0

 

7

1

0

1

0

2

-0.447

-0.7638

 

8

1

0

1

0

2

-0.447

-0.7638

-0.573

 

 

 

 

 

平均

0

0

 

 

 

 

 

 

標準偏差

0.58526

1

 

以上から1群(A社)の重心:0.573 2群(B社)の重心:−0.573 である。

 

3.レンジ(範囲)を調べる。

各アイテムの各カテゴリを基準化して、最大値−最小値からレンジを求める。

 

礼儀

 

協調性

 

業界区分

 

有り

無し

有り

無し

 

標本

X11

X12

X31

X32

Y

1

0

0.6705

0

0.2235

1

3

-0.2235

0

-0.2235

0

1

4

-0.2235

0

0

0.2235

1

6

0

0.6705

0

0.2235

1

2

-0.2235

0

-0.2235

0

2

5

-0.2235

0

0

0.2235

2

7

-0.2235

0

-0.2235

0

2

8

-0.2235

0

-0.2235

0

2

合計

-1.341

1.341

-0.894

0.894

 

 

 

 

    アイテム10.6705(0.2235)0.894

    アイテム2:0.2235(0.2235)0.447

 

 

アイテム1(礼儀)の方がレンジが大きい。よってアイテム1の方が外的基準に与える影響は大きい。

4.各アイテムと外的基準間の単相関係数を調べる。

 

 

 

 

 

 

 

 

 

 


B業界区分に数量−1を与える。

X1(礼儀)Yの単相関係数:0.57735 X2Yの単相関係数:0.5

X1の単相関係数が大きい。X1(礼儀)の方が外的基準に与える影響は大きい。

またX1-X3の単相関係数:0.57735であり、X1-X3間の多重共線性はないと考えられる。

 

5.偏相関係数を調べる。

 相関係数行列を作成し、その逆行列を求める。

 

 

 

 

 

 

 

 

 


 

各アイテムと外的基準との偏相関係数も、X1Yの方が大きい。X1(礼儀)の外的基準に与える影響の方が大きい。

EXCEL多変量分析ホームページへ戻る