改訂新版 世界大百科事典 「句構造文法」の意味・わかりやすい解説
句構造文法 (くこうぞうぶんぽう)
phrase structure grammar
われわれが日常使用している自然言語(日本語,英語など)や,コンピューターのプログラムを書くために人工的につくられたプログラム言語などで書かれた文に対して,たとえば構文の解析のような処理を機械で行おうと思うと,これらの言語を記述する数学模型が必要となる。いうまでもなく言語は多様な内容をもつから,そのすべてを数学的に書き表すことは難しい。そこで言語の骨格となる文法に着目して,その模型化をはかることになる。文法とは,文字や単語を定義し,かつ文章が構成される規則を述べたものであり,自然言語では文,節,句,語,文字などの概念が用いられる。句構造文法とは,1956年ころアメリカの言語学者N.チョムスキーが提案した形式言語理論で用いられている数学模型としての文法であって,そこでは前述の諸概念が階層的にとらえられている。すなわち,文から節の並びが導かれ,各節からはいくつかの句が作り出され,各句からは単語の並びが導かれ,最終的に単語ごとに文字の並びがつくられると考える。つまり,文という高位の概念から具体的な文章が〈生成〉されるという見方をする。
句構造文法(以下単に文法ともいう)は次のように書き表される。まずはじめに,有限個の記号からなるアルファベットを定める。これをVとしよう。次に,文章を生成するときの高位概念に対応する記号をVの中から有限個選び,これを非終端記号と呼ぶ。その集合をVnとする。さらにVの要素で,実際に文章をつづるのに用いられる記号を終端記号と呼び,その集合をVtとする。VnとVtとに共通する記号はなく,また,それらの集合和はVに等しい。次に,VTの要素を有限個並べたものを語(あるいは文)という。いまVの有限個の要素からなる四つの記号系列をu,v,x,yとするとき,もしuが他の記号系列に含まれてxuyのように表されていれば,uをvに書き換えてxvyを導く規則をu→vと書いて,書換え規則あるいはプロダクションと呼ぶ。
句構造文法をGとすると,それはG=(Vn,Vt,P,S)という4項組で表される。ここでPはプロダクションの集合である。またSはVnの特別な一要素で,開始記号あるいは文記号といわれ,自然言語の文章という概念に対応する。すなわち,句構造文法ではSに対するプロダクションの適用から始まる記号系列の書換えの結果,最終的に語を導くことが行われる。この過程を〈導出〉という。たとえば,Vn={S},Vt={0,1}として,Pは次のプロダクションからなるものとする。(1)S→ 0 1 S,(2)S→1。まずはじめに,Sに対して(1)を適用すると 0 1 Sが得られ,このSに対していま一度(1)を適用して 0 1 0 1 Sが導かれる。次に(2)を用いると 0 1 0 1 1 という語が得られる。文法Gによって導出される語の全集合を,Gによって生成される言語という。若干の考察から,この例の文法が生成する言語は{(0 1)n1|n≧1},つまり系列 0 1 が1個以上続いて,その後に必ず1が1個だけつく語の無限集合であることが分かる。このように集合が無限になるのは,プロダクションS→ 0 1 Sにおいて,書き換えられるべき記号Sがプロダクションの右辺に再度現れるためである。このことは,有限の規則を用いて無限の言語の生成ができるという意味で重要なことである。
文法の階層
文法は,それが生成する言語に基づいて次のように階層分けされる。
正規文法
A,Bを非終端記号,xを終端記号の系列とするとき,プロダクションの形がA→xB か A→xであるとき,この文法を右線形文法という。前述の文法はその一例である。一方,プロダクションの形がA→BxかA→xであるとき,この文法は左線形文法といわれる。これらの二つの型の文法を合わせて正規文法regular grammar,あるいは3型文法といい,これによって生成される言語を正規言語,あるいは3型言語と呼ぶ。さきの例および定義から明らかなように,右線形文法によると左から右へ向けて,左線形の場合は右から左へ向けて語が生成されていく。その意味で,この文法によって生成される語の構造は最も単純である。自然言語では,単語の水準の記号系列がこの構造をもつ。正規言語は有限オートマトンによって識別される。
文脈自由文法
非終端記号をA,Vの有限個の要素からなる系列をαとするとき,プロダクションがすべてA→αの形をしていれば,文法は文脈自由文法context free grammar,または2型文法といわれる。正規文法は文脈自由文法の特別な場合である。この文法のプロダクションの左辺は,ただ一つの非終端記号に限られている。このことは,もし記号系列の中に記号Aがあれば,その左右の記号系列にはかかわりなくそれをαに書き換えることを意味する。そのため文脈自由という言葉が用いられている。この文法で生成される言語は文脈自由言語,あるいは2型言語といわれる。たとえば,Vn={A,S},Vt={0,1}として,Pはプロダクション(1)S→0A1,(2)A→0A1,(3)A→εよりなるとする。ここにεは空記号である。(1)を1回,つづいて(2)を2回用いたのちに(3)を1回用いると,語 0 0 0 1 1 1 が導出される。このことから,この文法が生成する言語は{0n1n|n≧1},つまり,0と1が同じ個数だけ相続く語の無限集合である。自然言語では,文章や算術式で用いられている括弧がこれと同じ構造をもっている。文脈自由言語は,プッシュダウン・オートマトンによって識別され,その族は正規言語の族を真に含む。
文脈規定文法
Vの有限個の記号系列からなる二つの記号系列をα,βとするとき,プロダクションがα→βの形で,しかもβの長さがつねにαの長さ以上であるとき,この文法を文脈規定文法context sensitive grammar,あるいは1型文法という。この文法ではAB→CDのようなプロダクション,つまり記号の並び方に規定された書換え規則が用いられる。この文法で生成される言語は,文脈規定言語,あるいは1型言語と呼ばれ,線形拘束オートマトンによって識別される。もし,文脈自由文法のプロダクションで記号を消去することを禁止すれば,生成される言語の族は文脈規定文法の族に真に含まれる。
無制限文法
プロダクションに対してどんな制約もおかない文法を無制限文法unrestricted grammar,あるいは句構造文法,または0型文法という。この文法で生成される言語は無制限言語,句構造言語,0型言語などといわれ,チューリング機械によって識別される。この言語の族は,前述のすべての言語の族を真に含む。
与えられた語がある言語に属するかどうかを決定する問題を,語の帰属問題という。正規,文脈自由および文脈規定の各言語に対しては,帰属問題を解くアルゴリズムが存在するが,無制限言語に対しては存在しない。そのほか,言語が集合の和,積の演算,および補集合の演算のもとで,やはり同じ族に属するかどうかなど,種々の決定問題が研究されている。
執筆者:福村 晃夫
出典 株式会社平凡社「改訂新版 世界大百科事典」改訂新版 世界大百科事典について 情報