最新 心理学事典 「信頼性」の解説
しんらいせい
信頼性
reliability
【信頼性の推定】 信頼性の推定のために,真の得点が同じで誤差の部分は真の得点と独立であり,その分散の大きさは被験者を通して等しい二つのテストの相関係数が信頼性係数に等しいという事実を利用する。真の得点が同じで,誤差の分散が等しいような二つのテストを平行テストparallel testという。信頼性係数を推定する方法の基本は,二つの平行テストの間の相関係数を得る方法であるといってもよいが,そのための具体的方法にはいくつかの種類がある。すなわち,
⑴平行テスト法parallel test estimation method 二つのテストを平行テストになるように開発し,適切なサンプルに実施して相関係数を得る。この方法は,テストを作るための労力が大きく,しばしば実現が困難である。以下の方法は,平行テストを二つ作る方法より簡便である。
⑵再テスト法test-retest estimation method 同じテストを2回実施して,その二つの結果の相関係数を得る。これは,わかりやすい方法であるが,1回目のテストの結果が2回目のテストに影響を与えないことが前提である。たとえば,1回目のテストの答えを記憶していることが有利な影響を与える場合や,1回目の受験によって,テスト内容に関して学習できる場合には,この2回のテストは平行テストであるとはいえない。このような欠点はあるが,再テスト法は,テスト得点が時間の経過によってどの程度の変動を生じるか,すなわち時間的安定性を評価できる利点がある。
⑶折半法split-half estimation method テストを構成する項目を二つの平行テストになるように,二つの等質な群に分け,その間の相関係数を計算する。ただし,この相関係数は,二つに分けられたテストの信頼係数であり,もともとのテストの信頼性係数は,スピアマン-ブラウンの公式によって復元される必要がある。すなわち折半されたテスト間の相関係数をrhとするとき,信頼性係数rは,
r=

となる。とくに,項目の並び方に特段の規則性がない場合に,奇数番目の項目と偶数番目の項目それぞれの合計を別の二つのテストとみなすことがある。折半法は二つの平行テストに分けたが,三つや四つ,あるいはそれ以上の平行テストに分けることも可能である。n個の部分テストに分けた場合に,もともとのテストの信頼性係数は,それぞれの部分テスト間の相関が同じであるとき(rpとおく),
r=

によって得られる。この方法は,先に説明した方法の一般化であり,スピアマン-ブラウン21の方法Spearman-Brown formula 21とよばれる。
テストをいくつかの平行テストに分けることは可能であるが,可能ではあっても現実には難しい。平行テストではなくても,いくつかの条件を満たせば信頼性係数の推定を行なうことができる。平行テストの厳密性を一般化した仮定の代表的なものは,タウ線形とよばれる仮定と,本質的タウ線形と呼ばれる仮定である。タウ線形の仮定は,部分テストjの真の得点(τj)とテストkの真の得点(τk)の間に,

という関係がある場合をいう。
本質的タウ線形の仮定は二つのテストの間の関係をさらに拡張し,

というように,二つの真の得点間に線形関係が成立する場合を指す。部分テストが,本質的タウの仮定を満たす場合に,信頼性係数の推定値を与えるのが,クロンバックのα係数Cronbach's α coefficientである。この係数は,本質的タウの仮定を満たさないときには,信頼性の推定値としては低めの値を与えることが多い。その意味では,クロンバックのα係数は,信頼性係数の評価として保守的で慎重な推定値であるといえる。
本質的タウの仮定よりも平行性の要件をさらに緩め,二つのテストが共通の因子によって説明されるという仮定をおくことがある。これは因子分析モデルにほかならない。この定義に従ってどの程度の信頼性をテストがもつかについては,因子分析の共通性の推定値が指標になる。すなわち共通性が大きいほど,信頼性が高いということになる。α係数も因子分析における共通性も,時間的に安定しているかどうかの意味での信頼性の評価値にはなりえず,テストの等質性の指標である。
【測定の標準誤差standard error for measurement】 テストの信頼性を示す指標として,信頼性係数を中心として説明してきたが,信頼性を示すために,誤差の標準偏差を用いることがある。これを測定の標準誤差という。標準誤差は,推定値や予測値などの統計量の標準偏差を示す用語でもあるので,差異化するためにとくに「測定の標準誤差」という。ただし,単に標準誤差とよばれることもある。測定の標準誤差は,各被験者に対して一定であることを仮定している。言い換えれば,どのような真の値に対応する測定の標準誤差も同じであることを仮定している。
一方,古典的テスト理論に対して,現代的テスト理論とも称される項目反応理論を利用すれば,さまざまな真の得点のそれぞれを所与として測定の標準誤差を推定することができる。
【一般化可能性generalizability】 一般化可能性とは,どの程度の範囲内で安全性を保つかを示す概念である。統計学的には,真の得点のモデルと分散分析モデルは類似したモデルである。すなわち真の得点のモデルは,分散分析の一元配置モデルと同じであり,意味のあるパラメータは,各個人ごとの真の得点である。分散分析モデルの文脈においては,信頼性係数の推定の問題は,単純な測定モデル(一元配置的)の分散の推定の問題である。個人iに対するk回目の繰り返しにおける測定値xは真の得点τと誤差εに分け,次のように書くことができる。

上の式のモデルにおいて,τiとεikの分散を推定してσ2x=σ2τ+σ2εという関係を利用して,r=σ2τ/σ2xを計算する。ところで,分散分析が用いられる実験計画法において,複数の要因が関与する場合があるように,テスト得点のばらつきに影響する要因が個人の真の得点だけではなく,ほかにも複数の要因があるときがある。たとえば,論述試験に対して,複数の評定者がおり,それぞれの評定者によって評価が違うとすると,被験者iを評定者jが採点したk番目の結果xijkは,

〔繁桝 算男〕
出典 最新 心理学事典最新 心理学事典について 情報