【３】主成分分析

５．　主成分分析

　主成分分析は、相関関係にあるいくつかの要因を合成（圧縮）して、いくつかの成分にし、　　　その総合力や特性を求める方法である。主成分分析では、重回帰分析や判別分析のように目的変量は与えられていない。説明変量を圧縮してその特性を調べるものである。

　例えば、何人かの生徒の英語・数学・理科・社会の４つの成績データから、この４つの要因を圧縮し１成分のデータにすることにより、その生徒の総合力を調べたり、また文系能力・理系能力を調べるなどのようにある特性を求めたりする方法である。

５．１　主成分を求める

　８人の生徒の英語と数学の評価が下表のようであったとする。この個々の成績から総合　　　力は誰が一番あるのか、また文系能力・理系能力のどちらがあるのかを調べる。

標本

英語

ｘ₁

数学

ｘ₂

合計

順位

１

２

３

４

５

６

７

８

Ａ

Ｂ

Ｃ

Ｄ

Ｅ

Ｆ

Ｇ

Ｈ

５

７

８

７

４

８

４

８

５

４

５

２

３

７

６

１３

１０

１１

１３

９

７

１５

１０

２

５

４

２

７

８

１

５

平　均

６

５

単純に英語と数学の合計から順位をつけると、上の表のようになる。しかしこの順位が総合力を示しているかどうかは不明である。そこで英語（ｘ₁）と数学（ｘ₂）のデータを圧縮して１成分に合成し、尺度を１つにしてから総合力を求めることを考える。

２情報をできるだけその情報を失わないようにして、１つの情報に合成してからその総合力を調べてみる。２変量を合成したものをＺとすると、２変量を合成するので、適当な重みａiをつけて、Ｚ＝ａ₁･x₁＋ａ₂･x₂　とする。

通常、主成分を求めるには、標本データの重心を通る直線を１本引く。この直線は適当な重み　ａiをつけＺ＝ａ₁･x₁＋ａ₂･x₂＋…＋ａ_n･x_n なる直線を考える。そしてこの直線は、各点からの直線への距離が最小になるように引く必要がある。このようにするには、ａ₁²＋ａ₂²＋…＋ａ_n²＝１の条件下で合成変数Ｚの分散が最大になるようにする。また、得られる合成変数Ｚのうち分散が最大のものを第１主成分、その次に分散が大きく第１主成分とは無相関のものを２主成分という。一般には変量がｎ個あれば、ｎ個の主成分まで求めることができる。

　前の例において、重心（ｘ₁，ｘ₂）を通る直線をＺ＝ａ₁･x₁＋ａ₂･x₂とする。この直線は、各標本データからのこの直線上への距離が最小になるように引く。

　いま、図の１点Ｄからこの直線Ｚ上に降ろした点をＱとすると

ＰＤ²＝ＰＱ²＋ＤＱ² であり、ＰＤ²は実際の情報量であるから一定である。いま点Ｄからこの直線上への距離を最小にする（合成することにより失われる情報量を最小にする）ことを考えるのでＤＱ²をできるだけ小さくしたい、するとＰＱ² を最大にする（合成して求める情報量を最大にする）ことを考えればよい。

　なお、重心Ｐ（ｘ₁，ｘ₂）から点Ｑまでの距離を主成分得点という。この主成分得点が２変量を合成した値である。第一主成分をＺ₁＝ａ₁･x₁＋ａ₂･x₂とすると、主成分得点の分散Ｑは

ａ₁²＋ａ₂²＝１の条件下で、この主成分得点の分散Ｑを最大にするようなａ₁･ａ₂を求める。

　ラグランジュの未定乗数法を用いて

　　Ｇ＝Ｑ－λ（ａ₁²＋ａ₂²－１）とおいて、Ｇをａ₁･ａ2で偏微分し０とおくことにより分散　　Ｑを最大にするａ₁･ａ₂ を求める。

第１主成分としては、大きい方のλ値を採用する。

5.1.1　分散共分散行列から主成分を求める。

主成分得点の分散Ｑを最大にするａ₁･ａ₂を求めるには、分散共分散行列を使用して行うことができる。

（１）説明変量２個の時、分散共分散行列から出発して主成分を求める。

ＡＸ＝λＸ（λ：実数）を満たす時、λをＡの固有値、Ｘをλに属する固有ベクトルという。固有値λは主成分得点の分散に一致する。

この固有方程式から固有値λを求める。

よって

この時ＡＸ＝λＸ（λ：実数）の固有方程式を解いて固有値λを得る。固有値λをλ₁≧λ₂≧…≧λ_p≧０とすると、固有値の大きい方法から順に、第１主成分・第２主成分…第ｐ主成分となるので、各λに属する固有ベクトルを求めると、各主成分の係数を得ることができる。

から固有値λiを得る。

最大の固有値λ₁から、第１主成分が得られるので、λ₁に属する固有ベクトルａiを求め　　　て第１主成分の式が求められる。

第１主成の式… Ｚ₁＝ａ₁･ｘ₁＋ａ₂･ｘ₂＋…ａ_p･ｘ_p＋ａ₀

同様にして、２番目に大きい固有値λ2から第２主成分の式を得ることができる。λ₂に属する固有ベクトルａjを求めて第２主成分の式が求められる。

第２主成の式… Ｚ₂＝ａ₁･ｘ₁＋ａ₂･ｘ₂＋…ａ_p･ｘp＋ａ₀

以下、同様にして第ｐ主成分まで求めることができる。

5.1.2　相関行列から主成分を求める。

　説明変量の単位が異なるときには、単位の影響を受けてうまく主成分を求めることができない。このようなとき、単位の影響を取り除くには、データの標準化をすればよい。

データの標準化は

で変換したデータについて主成分を求めればよい。データの標準化を行うと、平均＝０分散＝１となる。分散共分散行列はデータの標準化を行うと、相関行列となる。

（１）変量が２個の時、相関行列から出発して主成分を求める。

（２）変量が２個の時、相関行列から出発して主成分を求める。

説明変量がｐ個ある時の相関行列をＡとすると

分散共分散行列から出発したときと同様にＡＸ＝λＸ　（λ：実数）の固有方程式を解いて固有値λを得る。固有値λをλ₁≧λ₂≧…≧λ_p≧０とすると、固有値の大きい方法から順に、第１主成分・第２主成分…第ｐ主成分が得られ、各λに属する固有ベクトルを求めて、各主成分の係数を得る。

から固有値λiを得る。

最大の固有値λ₁から、第１主成分が得られるので、λ₁に属する固有ベクトルａiを求め　　　て第１主成分の式が求められる。

第１主成の式… Ｚ₁＝ａ₁･ｘ₁'＋ａ₂･ｘ₂'＋…ａ_p･ｘ_p'＋ａ₀

ただし、ｘi'は標準化した値である。

同様にして、２番目に大きい固有値λ₂から第２主成分の式を得ることができる。λ₂に属　　　する固有ベクトルａjを求めて第２主成分の式が求められる。

第２主成の式… Ｚ₂＝ａ₁･ｘ₁'＋ａ₂･ｘ₂'＋…ａ_p･ｘ_p'＋ａ₀

以下、同様にして第ｐ主成分まで求めることができる。

なお新しく求められた主成分は、説明変量を合成して得られるものであるから、新たに自分でその主成分が何を意味する変量であるか命名する必要がある。

５．２　例題について

5.2.1　主成分を求める

標本

英語（ｘ₁）

数学（ｘ₂）

１

２

３

４

５

６

７

８

Ａ

Ｂ

Ｃ

Ｄ

Ｅ

Ｆ

Ｇ

Ｈ

５

７

８

７

４

８

４

８

５

４

５

２

３

７

６

平　均

６

５

(2.5－λ)･(3.5－λ) － 0.125²=0 λ=3.515 , 2.484

主成分得点の分散を大きくするのでλ = 3.515を第１主成分として採用する。

第１主成分 λ₁ = 3.515 の時の固有ベクトルを求めると

　　　　　　ａ₁ = －0.122 ａ₂ = 0.9925

よって Z₁ ＝－0.1222･(x₁－6)＋0.9925･(x₂－ 5) =－0.1222･x₁＋0.9925･x₂－4.229

第２主成分 λ₂ = 2.484 から

　　　　Z₂ ＝ 0.9925･x₁ ＋ 0.1222･x₂ － 6.566 となる。

5.2.2　主成分得点を求める

第１主成分得点は、Z₁＝－0.1222･x₁＋0.9925･x₂－4.229 から求めると下表のようになる。

No	標本	英語ｘ₁	数学ｘ₂	第１主成分得点	順位
１２３４５６７８	ＡＢＣＤＥＦＧＨ	５５７８７４８４	８５４５２３７６	3.0997 0.1222 －1.1147 －0.2444 －3.0997 －1.7406 1.7406 1.2369	１４６５８７２３
平均		６	５
分散					3.515

第１主成分の式を見るとｘ₁（英語）の係数が（－）でｘ₂（数学）の係数が（＋）となっている。これから、第１主成分は理系能力を示すと考えられる。主成分得点からその点数の大きい順に順位をつけると、その順位が理系能力の順位であるといえる。

これをグラフに描いてみると

第２主成分得点は、Z₁＝0.9925･x₁＋0.1222･x₂－6.566 から求めると下表のようになる。

No	標本	英語ｘ₁	数学ｘ₂	第２主成分得点	順位
１２３４５６７８	ＡＢＣＤＥＦＧＨ	５５７８７４８４	８５４５２３７６	－0.6259 －0.9925 0.8703 1.985 0.6259 －2.2294 2.2294 －1.8628	５６３２４８１７
平均		６	５	2.484
分散

第２主成分の式を見るとｘ₁（英語）の係数とｘ₂（数学）の係数がともに（＋）となっている。これから、第２主成分は総合力を示すと考えられる。主成分得点からその点数の大きい順に順位をつけると、その順位が総合力の順位であるといえる。

これをグラフに描くと

第１主成分得点の分散＝3.515　第２主成分得点の分散＝2.484であり。この値は固有値に一　　致していることが分かる。また第１主成分と第２主成分とは無相関であるから、お互いの直線は直交行する。係数同志掛け合わせると０となる。

　　　(－0.1222)×0.9925＋0.1222×0.9925 = 0

５．３　寄与率

ｐ個の変量があると、主成分もｐ個求めることができる。しかし、主成分分析は、ｐ個の変量データを圧縮して分析する方法であるから、主成分をｐ個求める必要はない。

そこで、第１主成分から順に第２主成分…第ｐ出成分とそれぞれの主成分がもとのデータをどれ位説明しているのかを示す尺度として、寄与率がある。

固有値の大きいほど、主成分得点の分散が大きく、もとのデータを説明する力が大きい（情報量が多い）ので重要であるといえる。

いま、下のように第ｐ主成分まであり、その固有値をそれぞれλiとすると

寄与率は、それぞれの固有値を固有値の合計で割ったものである。

主成分

固有値

寄与率

第１主成分

第２主成分

…

第ｐ主成分

λ₁

λ₂

…

λ_p

λ₁／λ_T

λ₂／λ_T

…

λ_p／λ_T

合　計

∑λi＝λ_T

寄与率を第１主成分から順に累積していったものを、累積寄与率と呼ぶが、一般に累積寄与率が６０％以上になるまでの主成分を採用する。また相関行列から主成分を求めるときには、固有値が１以上のものを採用する。

相関行列から主成分を求めたときの寄与率は

５．４　主成分負荷量

　もとのデータと主成分で求めたデータ間にどれくらい関係があるか見るためのものとして、　　　主成分負荷量がある。主成分負荷量は、構造係数とも呼ばれている。

　主成分負荷量＝もとのデータと主成分得点との相関係数

主成分負荷量と固有値との関係

　分散共分散行列から主成分を求めた時

相関行列から主成分を求めた時

２変量時の主成分負荷量と主成分の係数ａ₁･ａ₂との関係を調べてみる。

５．５　採用する主成分の数について

　一般に、説明変量がｐ個あれば主成分も第ｐ主成分まで求めることができる。しかし主成分分析の目標自体が説明変量の圧縮であり、第ｐ主成分まで使用なくても十分にもとの情報を説明できる場合が少なくない。それでは、主成分をいくつまで取り上げればよいかということになる。主成分は、第１主成分が一番分散が大きく情報量も多いといえる。次に第２主成分というように徐々に情報量が小さくなるので、第１主成分から第ｎ主成分までの幾つの主成分を取り上げたらよいかを検討する。

5.5.1 幾つまでの主成分を取り上げたらよいかの目安

(1)累積寄与率が６０％以上のものまで主成分を取り上げる。

累積寄与率が何％以上になるまで取り上げるべきかについては、特に基準はないが、最低でも６０％以上になるまでの主成分を取り上げたほうがよい。

(2)相関行列から出発したときには、固有値が１以上のものを取り上げる。

６．　主成分分析例題

　新聞１０紙について、記事の内容をニュース・ビジネス・スポーツについてその充実度を１０点評価で調査した。その結果が下の表である。

ＮＯ

ニュース

ビジネス

スポーツ

Ｘ₁

Ｘ₂

Ｘ₃

１

２

３

４

５

６

７

８

９

１０

８

２

８

３

７

４

３

６

５

６

９

５

４

３

６

８

４

７

４

７

６

４

９

４

８

２

５

６

大変充実している…１０　　充実していない…０

以上の１０紙について、その紙面の充実度を評価するために主成分分析を実施する。

分析に先立って上のデータを入力しておく。

６．１　相関係数行列を用いて分析を実施する。

6.1 主成分を求める。

6.1.1　固有値・主成分負荷量を求める

相関係数行列を求める

2変量間の相関係数を求める関数は、＝CORREL(範囲1、範囲2)である。

この関数を使用して変量X₁－X₂、X₁－X₃、X₂－X₃間の相関係数を求める。

相関係数行列は、

これより固有ベクトルは　ａ₁＝0.531　ａ₂＝0.673　ａ₃＝－0.514

　　固有値　λ₂＝0.903 のとき

　　固有ベクトルは　ａ₁＝0.689 ａ₂＝0.0095 ａ₃＝0.724　　　　

主成分負荷量は　 0.655 0.009 0.688

固有値　λ₃＝0.527 のとき

　　固有ベクトルは　ａ₁＝－0.492 ａ₂＝0.738 ａ3＝0.459 　　　　

主成分負荷量は　－0.357 　 0.536 0.333

以上をまとめると

固有値

第１主成分

1.571

第２主成分

0.903

第３主成分

0.527

固有ベクトル

0.531 0.673 -0.514

0.689 0.0095 0.724

－0.492 0.738 0.459

主成分負荷量

0.665 0.844 -0.644

0.655 0.009 0.688

－0.357 0.536 0.333

６．２　べき乗法から固有値・固有ベクトルを求める。

　相関係数行列から、次式を満足するような固有値ならびに固有ベクトルを求めることは、大変である。そこで、べき乗法を用いて固有値と固有ベクトルを求める。

べき乗法とは、相関係数行列をＡとするとき、成分がすべて１のＸ行列を考える。

続けて、Ａ･Ｘ1を計算する。

続けて、同様にしてＡ･Ｘ2を計算する。

この作業を繰り返し実施し、求められた行列の成分で、最大の値のものが1つ前に比べ10^-5程度までの差となったら、終了する。この時最大の成分が1番目の固有値となる、またその時のＸ成分を標準化すると、1番目の固有値に属する固有ベクトルが求められる。

求められた行列で最大の成分の値は、上の表では分からないが、実施計算していくと、1.57056－1.157055＝0.00001　となり、A･X13で収束しそうである。

この時の最大の成分は1.57056であり、これが1番目の固有値である。

2番目以降の固有値を求めるには、A1＝A－λ_１a1a1’

として再度最初からべき乗法を繰り返す。

A1＝A－λ_１a1a1’により新しいA1を求める。

この新しいA1を使用して再度べき乗法を実施し2番目の固有値・固有ベクトルを求める。

3番目の固有値・固有ベクトルも同様にして求める。

６．３　主成分負荷量のプロットを見る。

横軸に第１主成分、縦軸に第２主成分をとり、主成分負荷量をグラフに描いてみる。

　主成分負荷量は、主成分と各変量の間の相関係数に一致し、主成分負荷量が１に近いほどその変量と主成分の関係が深いことを示しているので、各変量の主成分負荷量をみていく。

　第１主成分の主成分負荷量は、ニュース：0.665 ビジネス：0.844 と同程度に大きく、スポーツは負（－）となっている。このことから、第１主成分はニュースとビジネス関係を中心に主成分負荷量が大きく、スポーツ関係の負荷量は低いので、専門紙志向度を計る尺度と考え専門誌志向度と名付ける。第２主成分の主成分負荷量は、ニュース：0.655 スポーツ：0.688 と同程度に大きいが、ビジネス：0.009 となっている。このことから第２主成分は大衆紙志向度を計る尺度と考え大衆紙志向度と名付ける。

　また、第１主成分・第２主成分・第３主成分のそれぞれの固有値・累積寄与率（％）をみると、

固有値が１以上または累積寄与率が６０％以上のものを採用するとすると、第２主成分まで採用するようにする。

６．４　主成分得点を求める。

6.4.1　第1主成分得点を求める。

この式を用いて、第１主成分得点を求める。

X₁～X₃の説明変量に標準化した値を用いて主成分得点を求める。この時主成分得点の有値が一致していることが分かる。求めた主成分得点をさらに標準化した値を求める。

6.4.2　第2主成分得点を求める。

この式を用いて、第２主成分得点を求める。

NO	主成分得点	標準化
1 2 3 4 5 6 7 8 9 10	0.424 －0.545 1.123 －1.286 1.859 －0.959 0.158 1.957 －0.256 0.458	0.447 －0.573 1.182 －1.354 －0.976 －1.010 0.167 －1.028 －0.269 0.482
平均	0.000	0.000
分散	0.903	1.000
STD	0.950	1.000

第３主成分についても、第３主成分の固有ベクトルを用いて、同様に計算して求める。

第１主成分得点・第２主成分得点・第３主成分得点のそれぞれお互いの相関係数を求めると、いずれも０となり無相関であることがわかる。お互いに独立であることがわかる。

第１主成分の固有値：1.571 第２主成分の固有値：0.903 第３主成分の固有値：0.527　これは、第１主成分得点の分散、第２主成分得点の分散、第３主成分得点の分散に一致していることがわかる。分散の大きいデータ群ほど説明力が大きいのでより重要なデータである。固有値の大きいほど重要なデータであるといえる。

　第１主成分得点から、専門誌志向度が一番高いのはＮＯ１紙であり次にＮＯ８紙であり、一番小さいのはＮＯ２紙であることがわかる。次に第２主成分得点から大衆紙志向度が一番大きいのはＮＯ５紙であり、一番小さいのはＮＯ４紙であることがわかる。

６．５　分散・共分散行列を用いる方法

6.5.1 主成分を求める。

（１）分散･共分散を求める

　分散を求める関数は、＝VARPA(範囲)である。また共分散を求める関数は、＝COVAR(範囲1、範囲2)である。この2つの関数を使用して分散・共分散を求める。

（２）固有値・主成分負荷量を求める

分散・共分散行列は

これより固有ベクトルは　ａ₁＝0.598　ａ₂＝0.582　ａ₃＝－0.548

以下同様にして

　　固有値λ₂＝3.7023のときの固有ベクトル　ａ₁＝ 0.683 ａ₂＝－0.0148 ａ₃＝0.7305

固有値λ₃＝1.8746のときの固有ベクトル　ａ₁＝－0.419 ａ₂＝ 0.812 ａ₃＝0.408

以上をまとめると

固有値

第１主成分

5.8731

第２主成分

3.7023

第３主成分

1.8746

固有ベクトル

0.5986 0.5843 －0.548

0.683 －0.0148 0.7303

－0.4185 0.8114 0.4079

6.5.2　主成分得点を求める。

（１）第１主成分得点を求める式は、

この式を用いて、第１主成分得点を求める。

求められた主成分得点をさらに標準化し、平均：０　分散：１　とする。

（２）第２主成分得点を求める。

この式を用いて、第２主成分得点を求る。

第３主成分を求める式は

この式を用いて、第３主成分得点を求める。

　第１主成分得点から、専門紙志向度が一番高いのはＮＯ１紙で次にＮＯ８紙であり、一番小さいのはＮＯ２紙であることがわかる。次に第２主成分得点から大衆紙志向度が一番大きいのは、ＮＯ５紙であり、一番小さいのはＮＯ４紙であることがわかる。

　主成分得点を求めるのに、相関係数行列から出発し求める方法と、分散共分散行列から出発して求める方法と２通り実行したが、相関係数行列から出発して求めた主成分得点と分散共分散行列から出発して求めた主成分得点の順位は必ずしも一致しない。今回の例では、３変量の単位が同じであるので、通常分散共分散行列から主成分得点を求める。

EXCEL多変量分析ホームページへ戻る