クラスター分析(クラスターブンセキ)とは？意味や使い方

デジタル大辞泉「クラスター分析」の意味・読み・例文・類語

クラスター‐ぶんせき【クラスター分析】

統計学で、異なる性質のものが集まっているデータを、互いに似た性質をもつグループに分類する分析手法。多変量解析をはじめ、さまざまな統計学的手法が知られる。クラスター解析。データクラスタリング。クラスタリング。

出典　小学館デジタル大辞泉について　情報 | 凡例

Sponsored by

最新心理学事典「クラスター分析」の解説

クラスターぶんせき
クラスター分析
cluster analysis，clustering

調査対象になっている項目（変数）や個人，組織（個体）などが異質のグループや集団から成立していると考えられるとき，それらを統計的な情報を使って分類する手法を指す。個体を分類する場合には，個体ｉ（＝1，…，ｎ）のｐ変量データｘⁱ＝［ｘⁱ¹，…，ｘ^ip］′，または個体間の類似性データに基づいて，類似する個体同士は同じ群（クラスター）に，類似しない対象同士は異なる群に属するような個体の群分け（分類）を見いだす。以下の記述において，変数群を分類する場合には，個体ｉを変数ｉと読み替えればよい。クラスター分析は，こうした統計手法の総称名で，階層的クラスター分析と非階層的クラスター分析に大別される。

　図は階層的クラスター分析hierarchical clusteringの原理を例示する。そのうちの左の図のように散布するデータｘ¹＝［4，1］′，ｘ²＝［1，5］′，ｘ³＝［5，4］′，ｘ⁴＝［1，3］′，ｘ⁵＝［5，1］′の分析結果である右の樹形図（デンドログラム）は，次の3ステップを通して求められる。⑴散布図の5点間の距離を求め，最短のｘ¹とｘ⁵を一つの群Ｃ¹として併合する。この併合を右の樹形図の交わりＣ¹が示す。⑵群Ｃ¹の代表点を所属個体の点の重心ｃ¹＝0.5（ｘ¹＋ｘ⁵）＝［4.5，1］′として，ｃ¹，ｘ²，ｘ³，ｘ⁴間の距離を求め，最短のｘ²とｘ⁴を群Ｃ²として併合する。これを右のＣ²が示す。⑶Ｃ²の代表点ｃ²＝0.5（ｘ²＋ｘ⁴）とｃ¹とｘ³の距離を求め，ｘ³とｃ¹が最短であるため，ｘ³をＣ¹に併合する。この併合を右のＣ³が示す。

　以上のステップの⑵，⑶における手順の違いによって，階層的分析はいくつかの下位手法に細分される。その中でも上記の図を用いた説明による手法は重心法centroid methodとよばれ，群と個体，および群間の距離の算出に重心を用いるのが特徴である。ほかに群間距離として，異なる群に属する個体同士の距離の2乗の平均を用いる群平均法group average method，最短距離を用いる最近隣法nearest neighbor method，最長距離を用いる最遠隣法furthest neighbor methodや，群Ａと群Ｂを合併した群内の個体間距離から群Ａ内の個体間距離とＢ内の個体間距離を減じた値，つまり群の合併に伴う個体間距離の増分を，ＡとＢの距離とするウォード法Ward's methodなどがある。

　階層的（逐次的）に個体や群を合併していくのではなく，統計学的に理想的な分類を目的関数によって定義して，それを最適化する方法を非階層的クラスター分析nonhierarchical clusteringと総称する。その代表であるＫ平均法Ｋ-means methodでは，

を最小にするｇ^ikが求められる。ここで，ｋ（＝1，…，Ｋ）は群を表わし，ｇⁱ¹，…，ｇ^iKは，それらの中で個体ｉが属する群に対応するものだけが1，ほかはすべて0を取るパラメータ，ｘ̄^kは群ｋに所属する個体のデータの平均（重心），∥ｘⁱ－ｘ̄^k∥はｘⁱとｘ̄^kの距離を表わす。目的関数ｆ（ｇ^ik）を最小にするｇ^ikは，各個体とそれを含むクラスターの平均との平方距離の合計が最小となる分類を表わす。

　Ｋ平均法は，各個体の複数群への所属を認めない方法であるが，それを認める非階層的分析の一つに，計量心理学の分野で開発されたアドクラスADCLUS（additive clustering）がある。これは，ｉとｊの類似性データｓ^ijに基づいて，

を最小にする1か0のｇ^ikと連続量のｗ^k≧0を求める方法であり，そのねらいは，ｉとｊを刺激，群ｋを特徴ｋとよび換えるとわかりやすい。すなわち，ｇ^ikｇ^jk＝1となることは両刺激がウェイトｗ^kの特徴ｋを共有することを表わし，共有特徴のｗ^kの総和によって類似性を記述することをアドクラスはめざしている。　→多変量解析
〔足立浩平〕

出典　最新心理学事典最新心理学事典について　情報

Sponsored by

改訂新版　世界大百科事典「クラスター分析」の意味・わかりやすい解説

クラスター分析 (クラスターぶんせき)
cluster analysis

ある集団について各個体の属性あるいは形質データにもとづき似たものどうしをいくつかの群（クラスター）にまとめて類型を作り出す分類手法で，統計的多変量解析法の一つ。数値分類法や自動分類法などともいわれる。クラスターとはブドウの房とか集落の意。クラスター分析が類型を求めるのに対し，判別分析といわれる多変量解析手法はすでにある類型や群に新たな個体を判別する。生物，鉱物の分類をはじめ，ものの分類整理は科学の基本であり，古くからの課題である。日本では古来本草学といわれるものがあった。従来の生物学などでの分類は比較的簡単に観察できる形質に限定して主観的な系統分類が目的であったが，1960年代でのクラスター分析手法の進歩に伴って，個体の特徴を表すあらゆる属性を用いて先入観のない立場からの分類をしたいという要求が高まり，馬の分類，稲の分類といった旧来の課題から，航空衛星写真による土地利用形態分類や地域分類などさかんに利用されてきている。クラスター分析には多様な手法が提案されているが，大きくは階層的手法と非階層的手法に分けられる。階層的手法は動物の進化を樹形図（デンドログラムdendrogram）に表現するようにクラスターの階層構造を求めるもので，群平均法，ウォード法，重心法，最短距離法，最長距離法など一連の手法がよく用いられる。いずれも似たものどうしを順につなげてゆこうという手法であるから，個体間の似ている程度，すなわち類似度，あるいは逆に非類似度や距離を定義した上で，クラスター間の距離をどう測るかを定義する必要がある。それらの定義によって結果として樹形図が異なってくる。非階層的手法の中ではk-means法がよく用いられる。これは，はじめにクラスターの個数kを指定し，いったん適当なk点（個体）をクラスターの核として選び，各点の割付けを行って初期のクラスターを構成する。そして，〈クラスター内ではできるだけばらつかず，クラスターの平均の点はクラスター間で大きくばらつくように〉といった基準を最適化するように各点を順次再割付けを行う手順を反復する。
執筆者：吉沢正

出典　株式会社平凡社「改訂新版　世界大百科事典」改訂新版　世界大百科事典について　情報

Sponsored by

日本大百科全書(ニッポニカ) 「クラスター分析」の意味・わかりやすい解説

クラスター分析
くらすたーぶんせき
cluster analysis

さまざまな性質が混在するデータを、客観的な数値基準に従っていくつかの集団（クラスターcluster）に分けて、類型化することにより対象の特性を分析する手法の総称。クラスターとはブドウの房や集落の意。科学的に複数集団に分類するため、先入観や慣例による恣意(しい)的な分類を排除できるという特徴がある。広くマーケティングに活用されており、たとえば消費者が商品を選ぶ際にどのような点を重視するかを調査し、「高級志向派」「堅実派」「流行追求派」といった各クラスター（消費者集団）の特徴ごとに商品開発や販売促進策を進めるという手法がとられる。このほか検査値に基づく疾患の分類、市町村の交通圏・文化圏といった地理的分類による市町村合併や選挙区の区割り、マニフェストによる政党・党派の分類、絵画などの芸術作品や手紙・文章の真贋(しんがん)判定、考古学で発掘された人骨や遺物の分類など幅広い分野で活用されている。

　クラスター分析は、グループ分けのための計算手法の違いで、大きく「階層的手法」と「非階層的手法」の二つに分けられる。階層的手法は似たデータどうしをまとめていき、いくつかの集団にわける手法をとる。代表例には、一定の基準に従ってもっとも類似したデータどうしから集めていく「最短距離法」、もっとも遠いデータから集めていく「最長距離法」、クラスター内のデータの平方和を最小にする「ウォード法」などがある。一方、非階層的手法はあらかじめ決めておいたクラスター数にデータを分割していく方法をとり、代表的手法に各クラスターに含まれる各標本点とそのクラスターの重心との近さを計算していく「k平均法（k-means法）」がある。階層的手法は分析結果を樹形図（デンドログラム）に表示できるという特徴があり、樹形図をみながら集団の数を決められるという利点があるが、分類対象が多い場合には計算量が膨大になるという欠点がある。これに対し、非階層的手法は大量のデータ分析に向いているが、クラスター数を任意に設定するため、集団の数によって分析結果が大きく左右されるという欠点がある。

［矢野　武　2016年6月20日］

出典　小学館　日本大百科全書(ニッポニカ)日本大百科全書(ニッポニカ)について　情報 | 凡例

Sponsored by

DBM用語辞典「クラスター分析」の解説

クラスター分析【cluster analysis】

クラスター（Cluster）はもともとはブドウの房の意味。群れ、集団、集落のこと。住んでいる地域、年令・性別・年収などの人口統計学的データ、趣味・ライフスタイルなどの心理的特徴をベースにして似たようなグループにくくった固まりをクラスターと表現している。共通した特性によって人々や物事をグループに分ける統計的分析手法。有効な分類軸がわからないデータを、自動的に切り口を探し出してくれる。顧客の行動や興味の特性から分類し、例えば、ヤッピー（Yuppies）としてクラスター化し、そのクラスターをターゲットにしてプロモーションコピーやデザインを行う。クラスター分析の前にクラスター・サンプル（ClusterSample）の抽出が必要。顧客リストからテストサンプルを選び出す。例えば、10万人から2つの5000サンプルを選び出す場合、まず10万人をランダムに20グループに分ける。つぎに、その20グループから2つのグループを選択する。もし2つのグループが同じような特徴をもつグループであれば、サンプル間のリスポンスの違いは各グループに送ったプロモーションの違いになる。テスト目的に合わせて、多段階でテストサンプルを抽出する方法。

出典　(株)ジェリコ・コンサルティングDBM用語辞典について　情報

Sponsored by

岩石学辞典「クラスター分析」の解説