コンピューターや情報科学の分野では,プログラム言語などの人口言語に対立させて,人間の言語のことを自然言語と呼び,自然言語をコンピューターで取り扱う技術をひろく自然言語処理と称している。自然言語をコンピューターで処理するためには,まず文字をコンピューター端末装置から打ちこんだり,自動文字読取装置を用いたりする。自然言語処理の例としては,コンピューターに入れた文字データから単語を切り出してアイウエオ順にならべなおしたり,文字や単語の出現頻度を計数したりする,いわゆる字づら処理string processingと,さらに高度な処理として文の構造や意味の解析をしたり,他言語へ自動翻訳したりする仕事がある。その結果はブラウン管に表示したり,印字出力したり,音声出力したりする。自然言語処理をコンピューターで行うことは,言語データが大量である場合の整理に必要となるばかりでなく,これからの情報化社会において情報を種々の観点から活用しようとする場合の機能として必要欠くべからざるものとなりつつある。言語の機械翻訳や人間と機械との間で自然な形の対話を行うシステムを考えることは,人間の知的機能の代行として興味あるテーマである。
コンピューターが発明された1940年代中ごろに,すでにコンピューターは数字だけでなく文字が扱え,英語とフランス語との間などで言語の機械翻訳が可能であるということが提唱され,60年代の中ごろまでの間,機械翻訳は活発に研究された。その後一時中断したが,最近または活発に研究されるようになってきた。機械翻訳のように文の構造や意味を扱わねばならない難しい言語処理のほかに,先に述べた字づら処理に関する研究も着実に進展してきた。最近はワードプロセッサーの発達によって,あらゆる言語情報をコンピューターに入れて取り扱う時代となってきており,自然言語処理はこれからの情報化社会の中心的技術となってきている。新聞や本など編集,組版などもコンピューターで行われるようになってきたし,キャプテン・システムなどのマス・メディアにおいても自然言語処理が重要であり,膨大な言語情報の検索システム,各種問合せシステムも使われるようになってきつつある。
大量の言語データ中に現れる異なった単語をすべて取り出し,それらの出現頻度を計数すること,単語をアイウエオ順にならべなおすこと(ソーティング)が字づら処理の基本である。英語の単語についてはジップZipfの法則と呼ばれる経験則がある。これは単語を出現頻度の大きい順に1から順位をつけると,順位×頻度=一定という関係がほぼ成りたつというものである。テキスト中に現れる単語をアルファベット順にならべるとき,その単語の前後の単語列をいっしょに付けて打ち出すKWIC(keyword in context)は,文脈の中で単語をみたいという場合によく用いられる。文の解析は,形態素解析,構文解析,意味解析,文脈処理などの異なったレベルが考えられる。形態素解析は単語の活用語尾や複数形,接頭語,接尾語などを認識し,単語の原形を確定するプロセスである。構文解析は主語,述語,目的語,補語,修飾語など,文の構造を確定することである。意味解析,文脈処理は,単語の意味,文の指す内容などを確定するために必要な処理であるが,この部分はまだよく研究されていない。文の生成は文の解析の逆のプロセスであるとみなせる。
ワードプロセッサーは自然言語処理技術の応用システムとして最も普及したものである。印刷するときのテキストの形式をととのえるテキストエディターのほかに,日本語の場合は,かな鍵盤入力から漢字かなまじり文の列に変換するために,膨大な単語辞書と単語相互間の接続表をもっている。情報検索システム,機械翻訳システム,コンピューターの中に入れて使われる電子辞書などのほかに,人間が情報システムに自然言語の文で話しかけたときに,うまく対話をしながらその人の要求をみたす対話システムなども研究されている。
執筆者:長尾 真
出典 株式会社平凡社「改訂新版 世界大百科事典」改訂新版 世界大百科事典について 情報
コンピュータの出現により、プログラミングのための「言語」がつくられ、利用されるようになった。その文法や意味は人為的に正確に定められているため、これを人工言語とよぶならば、日本人が昔から使っている日本語などは自然発生的にできたものなので、自然言語とよぶことになる。この自然言語をコンピュータに入力し、目的に応じてなんらかの情報処理を施すことを自然言語処理という。
1950年代後半にFORTRAN(フォートラン)など、いわゆる高級プログラム言語が出現してまもなく始められた機械翻訳の試みが、自然言語処理の始まりである。日本では、ローマ字で届いた電文をかな漢字交じり文に変換する研究が早くから始められており、これが現在のかな漢字変換処理につながり、日本語の表記法に革命をもたらした。しかし、人間の行う翻訳などの自然言語処理に比べると、コンピュータの能力はいまだにはるかに非力である。人間と同程度に行うには、正しい意味理解が不可欠である。ここでいう理解とは、入力文を内部モデル(内部に構築した外部世界のモデル)に照応することによって適切な反応を返すことである。この課題は、いまもってコンピュータ技術にとっての難問である。たとえば、イギリスの数学者チューリングが人工知能の実現度判定問題としたように、詩の音韻やニュアンスについて、コンピュータが人間と同じように自然言語で議論できるプログラムが実現できるかどうか。少なくともチューリングが予言した2000年までの実現は達成されていない。
[田村浩一郎]
『岡田直之著『自然言語処理入門』(1991・共立出版)』▽『田中穂積監修『自然言語処理――基礎と応用』(1999・コロナ社)』
出典 図書館情報学用語辞典 第4版図書館情報学用語辞典 第5版について 情報
出典 ブリタニカ国際大百科事典 小項目事典ブリタニカ国際大百科事典 小項目事典について 情報
出典 株式会社平凡社百科事典マイペディアについて 情報
出典 ASCII.jpデジタル用語辞典ASCII.jpデジタル用語辞典について 情報
日本製鉄は2023年12月、約141億ドル(約2兆2千億円)で米鉄鋼大手USスチールを完全子会社化する計画を発表した。国内の鉄鋼市場が先細る中、先進国最大の米国市場で、高級鋼材需要を取り込み、競争力...
12/17 日本大百科全書(ニッポニカ)を更新
11/21 日本大百科全書(ニッポニカ)を更新
10/29 小学館の図鑑NEO[新版]動物を追加
10/22 デジタル大辞泉を更新
10/22 デジタル大辞泉プラスを更新