最新 心理学事典「因子分析」の解説
いんしぶんせき
因子分析
factor analysis
【因子分析の歴史と目的】 因子分析は,20世紀の初めにスピアマンSpearman,C.により,知能の構造を説明するための方法として提案された。スピアマンは6科目のテスト得点の相関係数行列を分析し,知能は一般因子と特殊因子の2種類の因子からなるとする知能の2因子説を唱えた。一般因子がすべての科目に共通な要因であるのに対して,特殊因子は個々の科目に固有な要因であり,統計モデルにおける誤差項に相当するものである。スピアマンの2因子モデルは,今日の用語では,すべての観測変数に共通な要因である共通因子が一つであるとする1因子モデルということになる。しかし,容易に想像されるように,テストの数が多い場合などには1因子モデルでは観測変数間の相関関係を十分に説明できない。そこでバートBurt,C.らは,知能は一般因子のほかに主要なものから微細なものに至るまで,いくつかのテストにのみ影響する群因子からなる階層的な構造をもつと考えた。これに対してサーストンThurstone,L.L.は,こうした階層性を仮定せず,共通因子の数が複数個あるとする多因子モデルmultiple factor modelを提案した。多因子モデルの場合には,データからモデルを一意に推定することができないために,後述する因子の回転の問題が生じた。サーストンは,知能を構成する因子として空間,知覚,数,言語,記憶,語の流ちょうさ,推理の7因子を得た。
コンピュータの登場とその発達により,因子分析で必要とされる大量の計算が容易になったことから,心理学のさまざまな領域で因子分析が適用され,新たな知見が得られるようになった。たとえば,性格の因子分析による研究では,性格は五つの因子で説明できるとされ,それらはビッグ・ファイブBig Five(性格の5大因子)とよばれている。一方,コンピュータの高速な計算能力は,計算量の制約にとらわれない自由な発想をも可能にし,因子分析の理論面の研究にも影響を与えた。数理統計学者の貢献もあり,観測変数が多変量正規分布に従うという仮定のもとで,母数の最尤推定や仮説検定などの統計的推測の理論が整備されていった。また,さまざまな因子の回転の方法が開発された。その誕生以来,因子分析はもっぱら仮説の探索のための方法であったが,1970年代の初めに,ヨレスコフJöreskog,K.G.により仮説の検証の方法としての利用に道が開かれた。
統計モデルとして見た場合,因子分析モデルは観測変数を従属変数とし,共通因子を独立変数とする線形回帰モデルであり,一組の観測変数の値が少数個の共通因子と各観測変数に付随する誤差の値により定まる,というものである。その特徴は,独立変数である共通因子が観測不能な潜在変数であることである。共通因子はその名のとおりにすべての観測変数に共通な変動要因である。これに対して誤差は独自因子unique factorとよばれ,個々の観測変数に固有な変動を表わしている。観測変数の数をpとし,共通因子の数をmとする。因子分析モデルでは,p個の観測変数の値を説明するために,p+m個の潜在変数を導入していることになる。
潜在変数である共通因子の平均と分散ならびに相異なる共通因子間の相関係数は任意である。このことから,共通因子は平均が0で分散が1に標準化されているものとするのが一般的である。したがって,共通因子の母共分散行列と母相関係数行列が一致する。相異なる共通因子が互いに無相関であると仮定する場合を直交モデルorthogonal modelとよび,相関を認める場合を斜交モデルoblique modelとよぶ。直交モデルと斜交モデルは相互に変換が可能である。
因子分析では,観測変数の共通因子に対する回帰係数を因子負荷量factor loadingとよび,独自因子の分散を独自分散unique varianceとよぶ。因子負荷量を要素とする行列のことを因子パターンfactor patternとよび,観測変数と共通因子との共分散を要素とする行列を因子構造factor structureとよぶことがある。因子の解釈には,因子パターンを用いるのが一般的である。直交モデルの場合には,因子パターンと因子構造が一致する。しかし斜交モデルの場合には,因子パターンと因子構造の対応する要素の値や正負の符号が一致するとは限らないので,区別する必要がある。共通因子と独自因子は無相関であること,ならびに相異なる独自因子は互いに無相関であることが仮定される。因子分析モデルでは,共通因子と独自因子が無相関であることから,各観測変数の分散は共通因子によって説明される部分と独自因子によって説明される部分,すなわち独自分散との和に分解される。各観測変数の分散のうち,共通因子によって説明される部分の割合を共通性communalityとよび,独自分散の割合を独自性uniquenessとよぶ。共通性と独自性の和は1である。各観測変数の共通性は,その観測変数とm個の共通因子との重相関係数の2乗,すなわち決定係数にほかならない。
観測変数の分散の総和から独自分散の総和を引いたものが,すべての因子による寄与である。観測変数の分散の総和のうち,ある因子によって説明される部分を,その因子の寄与とよぶ。直交モデルの場合には,すべての因子による寄与は各因子の寄与の和に一意に分解される。しかし斜交モデルの場合には,分解にいくつかの方法がある。因子の寄与率については,観測変数の分散の総和に対する比率で定義する場合と,すべての因子による寄与に対する比率で定義する場合とがある。
観測変数は,尺度の水準では比尺度(比率尺度)または間隔尺度である。観測変数が間隔尺度の場合には,その原点は意味をもたない。また,比尺度であっても,さまざまな単位の観測変数が混在しているデータの場合には,散布度をそろえた方が便利である。各観測変数の平均を0に,分散を1に標準化した因子負荷量を,標準化した因子負荷量standardized factor loadingという。
標準化した因子負荷量行列の場合には,ある行の要素を比べることによって,その行に対応する観測変数がどの因子から最も強く影響を受けているかがわかる。また,ある列の要素を比べることによって,その列に対応する共通因子がどの観測変数に最も強く影響しているかがわかる。
観測変数が標準化されている場合,因子構造は観測変数と共通因子の相関係数行列に一致する。したがって,因子構造の要素の値は-1から1までの範囲に収まる。しかし,標準化した因子負荷量の値はその範囲に収まるとは限らない。
因子分析モデルのもとで,観測変数の母共分散行列は,母数である因子負荷量,独自分散,共通因子の共分散の関数であり,階数mの非負定値行列と独自分散を対角要素とする正定値対角行列の和に分解される,という構造をもつ。しかし,観測変数の母共分散行列と独自分散を要素とする対角行列が与えられても,因子負荷量と共通因子の共分散を一意に定めることはできない。事前の情報により,いくつかの因子負荷量の値が指定されることなどによってこの一意性の欠如が解消している場合を確認的因子分析,あるいは検証的因子分析confirmatory factor analysisといい,そうでない場合を探索的因子分析exploratory factor analysisという。探索的因子分析の場合には,解釈の容易な因子負荷量行列を得るために,後述する因子の回転とよばれる操作が行なわれる。
直交モデルの場合には,因子負荷量行列の(i,k)要素の2乗は,i番目の観測変数の分散のうち,k番目の共通因子によって説明される部分である。したがって,因子負荷量行列の列の要素の2乗和が,その列に対応する共通因子の寄与となり,行の要素の2乗和が,その行に対応する観測変数の分散のうち,m個の共通因子によって説明される部分となる。直交モデルの場合,標準化された因子負荷量行列の行の要素の2乗和は,その行に対応する観測変数の共通性となる。なお,一般に標準化された因子負荷量行列から計算された寄与率は,標準化されない因子負荷量行列から計算された寄与率と一致しない。
因子分析に類似した方法として主成分分析principal component analysisがある。しかし,因子分析が共分散(相関)志向であるのに対して,主成分分析は分散志向であり,両者は考え方のうえではかなり異なるものである。因子は観測変数間の相関関係を説明するために因子分析モデルに導入された潜在変数であり,因子の効果が線形であることは,因子分析モデルにおける仮定の一つである。また,モデルの母数が既知の場合でも,あるデータから因子の値は一意に定められないという因子得点の不定性factor score indeterminacyがある。これに対して主成分は,観測変数の線形結合として定義され,観測変数の分散の総和をできる限り多く説明するという基準で導出された合成変数である。したがって,主成分は共通因子と同じ意味での潜在変数ではなく,不定性もない。
主成分の計算の過程には,共分散行列あるいは相関係数行列のスペクトル分解による固有値・固有ベクトルの計算が含まれている。これは因子分析におけるある推定方法と類似している。
【推定方法】 探索的因子分析の場合にはモデルに不定性があり,データからの情報だけでは母数の推定値を一意に定めることができない。そこで,第一段階として直交モデルのもとで母数の推定値を求める。ただし,直交モデルの場合でも直交回転の不定性がある。そこで,推定方法に応じて適当な制約条件のもとで因子負荷量行列の推定値を求める。これを初期解initial solutionとよぶことがある。因子分析における母数の推定は,しばしば因子の抽出factor extractionとよばれる。因子分析モデルのもとでは,観測される変数の母共分散行列は,母数である因子負荷量と独自分散から構成される。したがって,因子分析モデルに基づく共分散行列の推定値は,因子負荷量と独自分散の推定値から構成される。これに対して,データから計算される標本共分散行列は,こうした構造をもたない。
母数の推定方法としては,因子分析モデルに基づく共分散行列の推定値と標本共分散行列との不一致の程度を測る不一致度関数discrepancy functionの値を最小化する方法が用いられる。なお,母数の推定に際しては,標本共分散行列ではなく標本相関係数行列を用い,標準化した因子負荷量の推定値を求めることが多い。
最小2乗法least squares methodは,モデルに基づく共分散行列の推定値と標本共分散行列の対応する要素との差(残差)の2乗和を最小化するという基準に基づく方法である。これに対して一般化最小2乗法generalized least squares methodは,残差間の相関をも考慮した基準に基づく方法である。また,観測変数の分布が多変量正規分布に従うという仮定のもとでは,最尤法maximum likelihood methodが利用できる。最尤法の場合,不一致度関数の最小化は,尤度関数の最大化と同値である。これらの推定方法の違いは不一致度関数の違いに対応し,推定量の性質は不一致度関数によって決まる。不一致度関数の1階微分や2階微分を利用した最適化のアルゴリズムを用いて不一致関数の値を数値的に最小化し,モデルの当てはめを行なうことにより推定値が計算される。実際には,適当な初期値から出発する反復法によって最適化を行なう。
しかし,こうした反復法によって不一致度関数の最小値が得られるという保証があるわけではない。反復法があらかじめ決められた回数内で停止基準を満たさない非収束が生じることがある。また,停止基準を満たしても,その点における独自分散の値が負になる不適解improper solutionが得られることがある。シミュレーションによる研究などにより,不適解や非収束は過大な因子数や標本の大きさの不足など,モデルやデータに問題がある場合に発生しやすいことが知られている。また,最尤法は最小2乗法に比べると不適解や非収束が生じやすいことが経験的に知られている。実際の分析において,不適解や非収束が生じた場合の対処法は難しい。
母数の推定方法として,不一致度関数の最小化によらない方法もある。今,なんらかの方法により,共通性あるいは独自性の推定値が得られているものとすると,それらと標本相関係数行列から構成される行列をスペクトル分解し,得られた固有値と固有ベクトルを用いることにより,標準化した因子負荷量の推定値を求める一連の方法がある。こうした方法としては,主因子法principal factor method,正準因子分析canonical factor analysis,アルファ因子分析alpha factor analysisなどがある。主成分分析と主因子法の計算手順の違いは,スペクトル分解の対象となる行列が相関係数行列かそれともその対角要素を共通性の推定値で置き換えた行列であるかの違いである。
これらの方法では,最初に用いた共通性の推定値と,得られた標準化因子負荷量の推定値から計算された共通性の推定値が一般に一致しない。そこで共通性の推定値の計算と,その結果を用いた標準化因子負荷量の計算を交互に繰り返す場合がある。このような共通性の反復推定を行なう方法は,反復主因子法などとよばれる。共通性の反復推定を行ない,反復計算停止の条件を満たした場合には,それが局所解でない限り主因子法は最小2乗法と,正準因子分析は最尤法と同一の推定値を与える。ただし,こうした反復法は,不一致度関数の最小化による方法に比べると収束が遅い。
【因子数の決め方】 探索的因子分析の場合には,一般に因子数は未知であるから,なんらかの方法によって適切な因子数を決めなければならない。因子分析モデルのもとでは,観測変数の共分散行列や相関係数行列の要素は,より少数個の母数で表わされる。因子分析モデルを仮定した場合とそうでない場合との自由な母数の数の差は,直交モデルと斜交モデルのいずれの場合にもd={(p-m)2-(p+m)}/2であり,これは観測変数が標準化されているか否かにも無関係である。因子分析モデルの母数は,標本共分散行列あるいは標本相関係数行列に基づいて推定されるから,このdが非負でなければならない。ここでd≧0という条件からm≦{2p+1-(8p+1)1/2}という不等式が導かれ,これが因子数の上限ということになる。一方,因子数の最小値は0である。これは,各観測変数が互いに無相関であるというモデルに対応する。
因子数の基準として,標本相関係数行列の固有値を用いるものがある。その一つは,標本相関係数行列の1より大きい固有値の数を因子数とするカイザー-ガットマン基準Kaiser-Guttman criterionである。この基準は,因子分析モデルのもとで,母相関係数行列の1より大きい固有値の数が因子数の下限であるという性質に基づいている。母相関係数行列を,その推定値である標本相関係数行列で置き換え,因子数の基準とするものである。
標本相関係数行列の固有値の大きさを縦軸に,大きさの順位を横軸に取ったスクリープロットscree plotとよばれる折れ線グラフを作成すると,多くの場合に,ある順位までは固有値の大きさが急激に減少し,そこから先は減少の仕方が緩やかになる。視覚による総合的な判断により,大きさが急速に減少する順位までを因子の数とする方法は,スクリー法scree methodあるいはスクリー・テストscree testとよばれる。カイザー-ガットマン基準やスクリー法は,因子分析モデルの母数の推定値を計算することなく利用できる。
最尤法の場合には,尤度比検定の理論により,因子分析モデルを帰無仮説とする適合度の検定が利用できる。帰無仮説のもとで,尤度比検定統計量は自由度がdのカイ2乗分布に従う。有意水準をαとすると,計算された尤度比検定統計量の値が,自由度dのカイ2乗分布の上側100α%点より大きい場合には帰無仮説を棄却する。ある因子数で帰無仮説が棄却されたならば,因子数を一つ増やしてモデルの当てはめを行ない,尤度比検定統計量を計算する。そうして帰無仮説が棄却されない最小の因子数を採用する。
そのほかの方法としては,赤池情報量規準Akaike's information criterion(AIC)やシュバルツSchwarz,G.のベイズ情報量規準Bayesian information criterion(BIC)などの情報量規準により,これらの値が最小になる因子数を採用する方法もある。また,構造方程式モデリングにおけるモデル評価のために開発されたGFI,AGFI,RMSEAなど各種の適合度指標goodness of fit indexも利用可能である。
また,主成分分析における主成分の数の選択方法を利用し,寄与の大きさが一定の値以上となる因子の数を採用する方法がある。相関係数行列の因子分析の場合には,観測される変数の分散が1であるから,因子の寄与が観測される変数の分散よりも大きくなるという要請から,寄与が1以上となる因子の数を採用することが多い。あるいは,因子の寄与の総和と観測変数の分散の総和の比率を取り,それが一定の値(たとえば90%など)となることを基準とする方法もある。ただし,因子分析は観測される変数間の相関関係を説明するための方法であり,主成分分析のように観測変数の分散を説明することを目的とした方法ではないことに注意する必要がある。いずれにしても,因子数を決める際には上記の基準により機械的に決めるのではなく,理論的考察とデータからの知見の双方を考慮する必要がある。
【因子の回転factor rotation】 因子の回転とは,解釈の容易な因子負荷量行列を得るために,現在の因子を変換して新しい因子を得る操作を指す。通常は,因子の回転後の新しい因子の分散も1となるように変換する。回転とは,幾何学的には観測変数ベクトルの主要部分を記述する空間の座標軸を回転することであり,数式的には回転前の因子負荷量行列の右側から正則な行列をかけることにより,回転後の因子負荷量行列が得られる。因子の回転は,回転後の因子が互いに無相関である直交回転orthogonal rotationと,回転後の因子に相関を認める斜交回転oblique rotationに大別される。
各観測変数が少数,できれば一つの因子のみに高い負荷を示し,他の因子に対する負荷ができる限り0に近いなど,観測変数と因子との関係が単純化されていると因子の解釈が容易である。サーストンは,回転後の因子負荷量行列が満たすべき条件を単純構造simple structureとよんで整理した。各行に0でない要素が一つしかなく,完全な単純構造をもつ因子負荷量行列を完全クラスター解complete cluster solution,あるいは独立クラスター解independent cluster solutionとよぶ。斜交回転は直交回転と異なり,回転後の因子が互いに無相関であるという制約がないことから,より単純構造に近づけやすい。単純構造の指標となる関数を最適化(最小化または最大化)する回転の方法は,解析的回転analytic rotationとよばれて広く用いられている。
解析的な直交回転の方法としては,コーティマックス回転quartimax rotationやカイザーKaiser,H.F.によるバリマックス回転varimax rotationがよく知られている。コーティマックス回転は,因子負荷量行列のある行の要素を2乗したものの分散をすべての行について加えたものを最大化する方法である。これに対してバリマックス回転は,因子負荷量行列のある列の要素を2乗したものの分散をすべての列について加えたものを最大化する方法である。すなわち,これらの方法では,因子負荷量を2乗したものの分散が大きいほど,その行あるいは列が単純化されている。
コーティマックス回転は,行(観測変数)についての単純さの指標の和の最大化であり,列(共通因子)についての単純化が考慮されていない。このため,コーティマックス回転の結果は,回転後の因子負荷量行列のある列に絶対値の大きい因子負荷量が集まりやすいことが知られている。これに対して,バリマックス回転は,多くの場合に良好な結果を与える,とされている。バリマックス回転は,最も大きな成功を収めた解析的回転の方法といえる。
バリマックス回転やコーティマックス回転を含む方法は,オーソマックス回転orthomax rotationと総称されている。オーソマックス回転には,エカマックスequamax,パーシマックスparsimax,因子パーシモニーfactor parsimonyなどの方法が含まれる。また,コーティマックス回転とバリマックス回転の中間的な性格をもつバイコーティマックス回転biquartimax rotationも含まれる。
解析的な斜交回転の方法としては,コーティミン回転quartimin rotationやコバリミン回転covarimin rotationがよく知られている。因子負荷量行列が単純構造に近い場合にその相異なる2列に着目すると,絶対値の大きい要素のある行は異なり,その2列は互いに似ていないと考えられる。因子負荷量の2乗を要素とする行列を考えた場合,コーティミン回転は,その相異なる2列の内積の和を,コバリミン回転は共分散の和を最小化する方法である。すなわち,因子負荷量の2乗を要素とする行列の相異なる2列の似ている程度をコーティミン回転では内積で,コバリミン回転では共分散で測り,相異なる2列の似ている程度の和を最小化するのである。コーティミン回転の結果は,因子間の相関係数の値が大きくなる傾向があることが知られている。これに対して,コバリミン回転の結果は,因子間の相関係数の値が小さくなり,直交回転の結果とあまり変わらないことが知られている。コーティミン回転やコバリミン回転を含む方法はオブリミン回転oblimin rotationと総称される。オブリミン回転には,コーティミン回転とコバリミン回転の中間的な性格のバイコーティミン回転biquartimin rotationも含まれる。
解析的回転後の因子負荷量は,単純構造の指標となる関数を最大化あるいは最小化するものであるから,その関数の停留点の条件を満たす。このことと,制約付き最尤推定量の漸近分散の計算方法を組み合わせることにより,解析的回転後の因子負荷量の最尤推定量の標準誤差を数値的に計算できる。解析的回転では,直交と斜交のいずれの場合にも,回転前の因子負荷量行列の行の長さが回転の結果に影響を及ぼす。そこで,その影響を回避するために行の長さによる調整を行なうことがある。この操作を規準化normalizationという。
解析的回転以外の方法としては,仮説に基づいて構成された目標行列target matrixに最小2乗法的な意味でできる限り近づけるプロクラステス回転Procrustes rotationがある。プロクラステス回転にも直交回転と斜交回転がある。斜交回転の方法としてよく利用されるプロマックス回転promax rotationは,バリマックス回転により得られた因子負荷量行列を3乗して単純構造を強調した目標行列を構成し,それに近づけるように斜交プロクラステス回転を行なう方法である。
因子の回転後もすべての因子による寄与や各独自分散や各観測変数の共通性は変化しない。また,モデルのデータへの適合度も変化しない。直交回転の場合には,回転の前後で各因子の寄与は変化するが,回転後もすべての因子による寄与を各因子の寄与の和に一意に分解できる。しかし斜交回転後は,すべての因子による寄与を各因子の寄与の和に分解する方法が一通りではない。
【因子得点の推定】 因子分析の結果に基づき,分析に用いたn個の個体のそれぞれについて因子の値,すなわち因子得点を推定したい場合がある。因子得点の推定方法としては,因子の観測変数への線形回帰による回帰法regression methodや,推定量が条件付き不偏になるバートレットの方法Bartlett's methodがある。これらの方法では,n個の個体についての因子得点の推定値から計算された分散は,回帰法の場合には1より小さくなるのに対して,バートレットの方法の場合には1より大きくなる。また,直交モデルの場合でも,因子得点の推定値から計算された相異なる因子間の相関係数がゼロにならないなど,一般に,因子間の相関係数行列の推定値と因子得点の推定値から計算された相関係数行列が一致しない。アンダーソン-ルービンの方法Anderson-Rubin's methodの場合には,因子間の相関係数行列の推定値と,n個の個体についての因子得点の推定値から計算された相関係数行列が一致する。
【その他の技法】 因子分析は,さまざまなデータに適用されてきた。そうした中で,データの性質に応じてさまざまな利用方法が工夫されてきた。通常,因子分析の対象となるデータは,各行が個体に,各列が観測変数に対応する行列として表わされる。因子分析は,データ行列の分解と次元の縮小のための記述的な方法として位置づけることもできる。このことから,各個体についての多数の変数の値からなるデータがあり,それに基づいて個体の類型化を行ないたい場合には,データ行列の行と列を入れ替えて因子分析を行なうことがある。こうした方法をQ技法Q techniqueとよび,これに対して通常の方法をR技法R technique とよんで区別する場合がある。
斜交回転により,互いに無相関ではない因子が得られた場合,因子間の相関係数行列に対して因子分析を適用することがある。これが高次因子分析higher order factor analysisとよばれるものである。観測される変数間の相関関係を説明する因子を1次因子,1次因子の相関関係を説明する因子を2次因子とよぶ。2次因子の相関関係を説明する3次因子というように,より高次の因子を想定することができる。 →構造方程式モデル →主成分分析 →性格検査 →相関係数 →多変量解析 →テスト
〔市川 雅教〕
出典 最新 心理学事典最新 心理学事典について 情報