最新 心理学事典「回帰分析」の解説
かいきぶんせき
回帰分析
regression analysis
【線形回帰モデルlinear regression model】 線形回帰モデルとは,従属変数yを,p個の説明変数x1,…,xpによって予測・説明するために,回帰係数regression coefficient bj(j=1,…,p)を乗じた説明変数の和に切片cを加えた予測式

を考え,これと従属変数との誤差e=y-y^の大きさを最小にするb1,…,bp,cを求める統計解析法を指す。
【単回帰分析と重回帰分析】 p=1つまりy^=bx+cと表わせる分析とp≧2の分析を区別したいときは,前者を単回帰分析simple regression analysis,後者を重回帰分析multiple regression analysisとよぶ。個体を表わす添え字i(=1,…,n)を各変数につけると,予測式は

と表わせ,これを,従属変数を予測式と誤差の和とする式yi=y^i+eiの右辺に代入した

が回帰分析のモデル(回帰モデル)となる。
【切片と係数の最小2乗解】 誤差の2乗和

を最小にするb1,…,bp,cが最小2乗解となる。従属変数・説明変数の平均を

と表わすと,切片cの解は

と表わせ,これを回帰モデルのcに代入すると

となり,平均偏差得点ỹi=yi-ȳ,x̃ij=xij-x̄jを用いてモデルを整理すると,

が得られる。この式から,平均偏差得点の回帰分析は,切片cが0になって消える以外は,素データの分析と同等であることがわかる。
n個体すべての平均偏差得点,係数,誤差を

のようにベクトルと行列で表わせば,回帰モデルはy=Xb+eと書け,係数ベクトルbの解は

で与えられる。ここで,RXXは説明変数同士の相関係数からなるp×pの行列,rXyはp個の説明変数と従属変数の相関係数からなるp×1のベクトル,DXは各説明変数の標準偏差を対角に配する対角行列,syは従属変数の標準偏差である。全変数を平均0,分散1,つまりsy=1かつDXが単位行列となる標準得点に変換したデータに回帰分析を適用すると,前段のb^からsyD-1Xが消えたR-1XXrXyがbの解となって,切片が0となる以外は,素データを分析した場合と同じ結果が得られる。この解をとくに標準解standardized solutionとよぶ。単回帰分析の回帰係数の標準解は,従属変数と説明変数の相関係数に一致する。
【分散説明率と重相関係数】 解b^=[b^1,…,b^p]′,c^と説明変数の値を予測式に代入して得られる予測値

従属変数yi,および残差e^i=yi-y^iは,次の性質をもつ。⑴残差e^iの平均ēは0となり,平方和

に基づく残差分散s2eを,総体的な残差の大きさとみなせる。⑵予測値y^iの平均は,従属変数の平均ȳに等しい。⑶yiとy^iの共分散syŷは,y^iの分散s2ŷに等しい。⑷従属変数の平方和は,

のように分割され,これを平方和の分割decomposition of sum of squaresとよぶ。
この分割より従属変数yiの分散s2yについて,

が導かれ,この両辺をs2yで割ると

が得られ,従属変数の分散に対する予測値の分散の比率

が,0以上1以下の値を取って,残差の小ささを表わすことがわかる。この比率s2ŷ/s2yは,決定係数coefficient of determinationまたは分散説明率proportion of variance accounted forとよばれ,従属変数の分散のうち,p個の説明変数の分散によって説明される成分の割合と解される。さらに,前段⑶の性質s2ŷ=syŷを分散説明率s2ŷ/s2yに代入すると

となり,予測値と従属変数の相関係数ryŷ=syŷ/sysŷの2乗が分散説明率に等しいことがわかる。p≧2のときのryŷは,説明変数と従属変数の重相関係数multiple correlation coefficientとよばれ,複数変数と一つの変数との相関の指標となる。正規分布を仮定する場合,「母集団では分散説明率と重相関係数は0である」という仮説を,分散分析によって検定できる。
【偏回帰係数partial regression coefficient】 p≧2のときに説明変数xjにかかる回帰係数bjを,とくに偏回帰係数とよぶ。これによって,xj以外の説明変数の影響を除いたxjの効果を把握できるのが,重回帰分析の利点である。たとえば,商品の質x1だけから商品の売上yを予測する単回帰分析では,「質x1が高いと値段x2も高いので,売上yは下がるため,質x1にかかる係数が負になる」というように,分析に投入されない変数x2の効果が結果に混入する。これに対し,商品の質x1と値段x2の両者から売上yを予測する重回帰分析では,値段x2の影響を除いたときに質x1が売上yへ及ぼす効果を,偏回帰係数b1によって把握できる。仮説「偏回帰係数=0」の検定と係数の区間推定には,t分布が用いられる。分散の異なる説明変数の間で従属変数への効果の大小を比較するときは,標準解の偏回帰係数である標準偏回帰係数standardized partial regression coefficientを参照しなければならない。
【変数選択variable selection】 説明変数x1,…,xpすべてを分析に投入するのではなく,回帰モデルの適合度が高い説明変数の部分集合を求めることを変数選択とよぶ。たとえば,p=3であれば,計7通りの部分集合{x1},{x2},{x3},{x1,x2},{x1,x3},{x2,x3},{x1,x2,x3}のそれぞれからyを予測する回帰分析を行ない,適合度が最大となる集合による分析結果を採択すればよい。適合度指標の一つに自由度調整済み重相関係数multiple correlation coefficient adjusted for the degrees of freedomがあり,これは説明変数が多いほど値が高くなる重相関係数の短所を補正した統計量である。説明変数が多いときは変数集合を網羅的に考慮できないので,適当な初期変数集合から始めて,適合度を高める説明変数の投入,あるいは適合度を下げる変数の除去,あるいは変数の取捨選択を繰り返して,望ましい変数集合にたどり着く方法が使われ,取捨選択を繰り返す方法はステップワイズ法stepwise methodとよばれる。
【多重共線性multicollinearity】 b^=syD-1XR-1XXrXyのように偏回帰係数の解は相関行列RXXの逆行列の関数であるため,説明変数同士の相関が非常に高い場合に,たとえば偏回帰係数の信頼区間が負から正にわたるなど,解が不安定になる現象を多重共線性とよぶ。各説明変数が多重共線性の原因になっているか否かを診断するために,その変数と他のp-1個の説明変数の重相関係数を利用できる。
【他の回帰分析】 従属変数が複数(q個)であり,それぞれの平均偏差得点と偏回帰係数を行列

にまとめ,Eを誤差行列とすれば,モデルがY=XB+Eと表わせる分析を多変量回帰分析multivariate regression analysisという。ただし,Bの解は(X′X)-1X′Yで与えられ,その第j列は,Yの第j列を従属変数とした重回帰分析の解と同じになる。列数がpとqより少ない行列Wを用いて,p×qのBが行列の積WVに等しいと制約した多変量回帰分析は縮小ランク回帰reduced rank regressionとよばれる。
【非線形回帰モデルnon-linear regression model】 非線形回帰モデルは,従属変数を説明変数の線形式に限らず,一般的な関数によって説明するものである。たとえば,従属変数yiが正答⑴と誤答(0)のように2値,説明変数xijは連続変数のときに,その確率

を予測式とする分析をロジスティック回帰分析logistic regression analysisとよぶ。なお,非線形回帰モデルにおいて,従属変数の分布の系統的成分が,未知パラメータの線形式で表現されるとき,一般化線形モデルgeneralized linear modelとよばれる。 →因果分析 →構造方程式モデル →相関係数 →多変量解析
〔足立 浩平〕
出典 最新 心理学事典最新 心理学事典について 情報