コーパス言語学(こーぱすげんごがく)とは？意味や使い方

日本大百科全書(ニッポニカ) 「コーパス言語学」の意味・わかりやすい解説

コーパス言語学
こーぱすげんごがく
corpus linguistics

実際に使用された言語の産出データを特定の目的および方法をもって収集・電子化し、それを用いて言語研究を行う言語学の一分野またはその方法論の総称。

［投野由紀夫］

由来

「コーパス」は英語ではcorpus（複数形 corpora）と書き、ラテン語corpus（体）からきている。corpse（死体）、corps（兵隊）と同語源。コーパスcorpusということば自体は、文学のある領域や作家の「集成、全集」などをさす語として20世紀前半から用いられていたが、「言語分析のための言語資料体」という言語学的用法としてはOED（Oxford English Dictionary：オックスフォード英語辞典）では1956年を初出としている。コーパス言語学corpus linguisticsという術語そのものはヤン・アーツJan Aartsとウィレム・メイスWillem Meijsが編集した“Corpus Linguistics”（1984）の出版以降、広く使われ始めたといわれている。

［投野由紀夫］

沿革

コーパス言語学は、電子化以前と以後とに分けられる。電子化以前にもコーパスを用いた研究が言語学とその周辺領域では行われていた。たとえば、19世紀の幼児の言語習得研究は母親と子供の発話データを資料として収集・分析していたし、同じく19世紀末のケーディングJ. W. Kaedingは、裁判所での速記の研究のため1100万語規模のドイツ語テキストの頻度分析を行っている。また20世紀前半のアメリカにおける教育測定運動とソーンダイクらの教育語彙(ごい)選定に、1800万語の規模の言語資料を用いた分析は有名である。

　最初の本格的な設計による電子化コーパスは、アメリカのブラウン大学で1960年代前半に構築された100万語の米語均衡コーパス、ブラウン・コーパスBrown Corpusであった。その後、アメリカではチョムスキーによる生成文法理論が言語学の主流となり、研究方法も内省introspection重視となったため、言語使用データを丹念に調査することへの興味が薄れていく。一方、ヨーロッパでは経験主義的な言語学の潮流がイギリス、北欧を中心に生き続け、ブラウン・コーパスとほぼ同時期にロンドン大学で作成された英語語法調査Survey of English Usageのために作成されたコーパス（ただし電子化は話しことばデータ以外はされなかった）があり、その後設計基準などを統一した100万語のイギリス英語コーパス、LOBコーパス（LOB Corpus）が1970年代に構築され、以後しばらく100万語規模のブラウン・ファミリーといわれる均衡コーパスがさまざまな英語変種テキストを用いて構築された。

　1980年代後半になると、新しい潮流としてより大規模な英語コーパスが産学協同で構築された。その代表的なものがイギリスのバーミンガム大学とコリンズ社が共同構築したバーミンガム・コーパス（後のBank of English）で、これは最初のコーパス準拠corpus-basedの英語辞典『コウビルド英語辞典』Collins COBUILD English Dictionaryの基礎資料として用いられ、これを機にコーパス構築は大規模な辞典編纂(へんさん)と並行して発展するメガ・コーパス時代となった。1990年代前半にはイギリス英語の1億語の均衡コーパス、通称BNC（British National Corpus）が構築され、1995年には『ロングマン英語辞典』Longman Dictionary of Contemporary English（LDOCE）、『オックスフォード学習英語辞典』（OALDCE）など、主要な英英学習辞典が相次いでコーパスを用いて改訂され、英国辞典出版社は各社とも自社内で数億語規模のコーパスを保有するようになり、コーパス辞書編纂の黄金時代を迎えたのだった。

　BNCの完成を受けて、英語以外の言語コーパス構築も盛んになった。国語コーパス構築プロジェクトとしては、韓国、台湾、ポーランド、チェコ、フランス、スペイン、ドイツなどが着手。また21世紀に入ると、コンピュータおよびインターネット環境が飛躍的に発展し、コーパス構築はインターネット上の爆発的なテキストの増加を取り込むような形で発展していく。2000年に入り、インターネット上のテキストをもとにコーパスを自動生成する技術や、さまざまな知識ベースとコーパスを組み合わせて、より意味や状況を加味したインテリジェントなコーパス検索をするような技術も開発されつつある（たとえばスケッチ・エンジンSketch Engineのサイトなど）。

　コーパス言語学は「～言語学」という分野名称を用いるが、他の理論言語学、社会言語学などとは性格を異にし、内容的には「コーパスを用いた言語研究の方法論を提供する分野」とする見方が広く受け入れられている（Tony McEnery, Richard Xiao, and Yukio Tono“Corpus-Based Language Studies”2006）。一方で、バーミンガム学派または新ファース学派といわれる一派は、実際に使われた言語資料（テキスト）の範囲内でのみ言語研究をすべきだ、として、コーパス言語学を既成概念にとらわれないテキストと意味の関係を研究する新しい理論構築の分野である、と位置づけている。ただし、後者の考え方はあまり広く受け入れられていない。

［投野由紀夫］

概論

コーパス言語学は大別すると、〔1〕コーパス構築の原理、〔2〕コーパス検索の方法論、〔3〕コーパスを利用した言語研究、に分かれる。それぞれを簡単に紹介する。

［投野由紀夫］

〔1〕コーパス構築の原理

コーパスの構築に際しては、目的に応じて適切な設計基準を設けなければならない。設計基準の基本概念は以下のとおりである。

（a）標本抽出（sampling）
言語研究の目的に応じて対象となる母集団の言語テキストをどう設定するかが第一に問題となる。その際には、通時的か共時的かといった言語変異の時間軸、アメリカ英語かイギリス英語かといった変種variety、話しことばか書きことばかといったモードmode、新聞・雑誌・小説などといった媒体medium、政治・経済・社会などのテキストの示す内容領域domainによる定義を行う。たとえば、2000年以降（時間軸）の現代アメリカ英語（変種）の書きことば（モード）コーパスで、新聞（媒体）に見る政治（内容領域）関連のコーパスをつくる、といった具合である。これらの標本抽出が特殊分野におけるものに限定されれば、それは特殊コーパスspecialized corpusといわれ、標本抽出を各分野バランスよく行って一般的な言語特徴をとらえようとするものを汎用コーパスgeneral corpusとよぶ。

　さらに、これらの標本抽出に関して、コーパスの総語数を決めて行うものを標本コーパスsample corpus、大枠を決めずにできるだけたくさんの資料を時間を追って際限なく収集する場合をモニター・コーパスmonitor corpusとよぶ。

（b）代表性（representativeness）
テキストを採取する際には、（a）の設計基準に照らして、そのテキストが母集団の言語特徴の分布の代表性が確保できるように標本を選定していく必要がある。そのような特徴を「代表性を有する」という。代表性は明確な定義がむずかしいが、現在のコーパス言語学では、各々のコーパス構築の際に設計基準と標本抽出の方法をできるだけ明示的に文書化しておくことで、これらの代表性を客観的に評価できるようにする、ということが望ましいとされている。客観的な標本抽出方法を用いて各分野バランスがきちんととれているコーパスを均衡コーパスbalanced corpusとよぶ。

（c）コーパスの規模（corpus size）
標本抽出や代表性はコーパスの規模を無限に大きくしていけば、あまり問題にならなくなる、とする議論がある。たしかにインターネット上のテキストを利用するなどしてコーパスの規模を無限に大きくすれば、母集団をそのまま全数調査しているのに近い状況も想定できよう。しかし、その際にもっとも大きな問題は、その母集団の前記のような変種や媒体、領域に関する明確な情報を得ることがきわめてむずかしいということである。さらに文学作品など一部の著作権のあるテキストはWeb上にはないので、インターネット資源を用いたサンプリングには本質的な偏りがある、という問題もある。よって、ただコーパス規模を大きくすればよい、というのは短絡的で、現在のwebコーパスは汎用コーパス的な利用法は可能であるが、モードやジャンル別分析などの言語研究には、web上の大量テキストを自動収集しただけでは不十分である、とする考えがいまだ根強い。

　逆に、一定規模のテキストからでも安定して出現する言語特徴と、テキスト規模が大きくないと不安定になる言語特徴とがある。大まかな品詞使用の割合や高頻度の機能語の統計量などは数千語規模のテキストからでも比較的安定して得られることが知られており、このような目的別にテキスト規模を考慮することも重要である。

［投野由紀夫］

〔2〕コーパス検索の方法論

コーパス検索には大別すると、(1)テキストにどのような情報を付与するか、といった情報付与の分野と、(2)テキスト情報をどのように取り出すか、といったテキスト処理方法の分野がある。

［投野由紀夫］

（1）情報付与の方法

この方法には大別すると、（a）メタ・テキスト情報付与と、（b）言語情報付与がある。

（a）メタ・テキスト情報付与
これはテキストの書誌情報およびテキスト構造の情報を主としてXMLなどの構造化文書の表現形式を利用して、コーパス情報に付与する、という分野である。これを用いることにより、コーパスを設計した意図を反映した多用な検索条件で抽出を行う設計が可能になる。これらはコーパス言語学では情報付与mark-upと総称し、（b）の注釈付与annotationとは区別することが多い。

　現在は、これらのメタ・データの情報付与は標準規格化が進んでおり、テキスト構造情報の付与はほとんどがXMLを用いている。コーパス言語学の分野では、Text Encoding Initiative（TEI）、Corpus Encoding Standard（CES）などの基準がもっとも影響力が強い。

（b）言語情報付与（linguistic annotation）
言語情報付与は、研究者が当該テキストに加える何らかの言語的な解釈である。よって、これらの情報は研究者の判断によって値が異なってくることが考えられる。一方、前述のメタ・テキスト情報に関しては、一般的に研究者による解釈の余地はないような情報が主となる。

　言語情報付与は以下が代表的なものである。

（i）品詞情報付与（part of speech annotation）
単語に品詞情報を付与すること。英語の場合は単語に分割がすでになされているので、単語に品詞を付与するだけであるが、日本語などの場合はまず形態素解析（文を形態素単位に分割すること）を行って分かち書きをし、それに品詞同定をすることをさす。現在、これらの処理は自動で行うことができ、精度も95～97％とかなりの確率で正確に付与することが可能。英語の自動タグ付与プログラムではCLAWS、TreeTagger、日本語では「茶筅(ちゃせん)」などの形態素解析プログラムが有名。

（ii）見出し語化（lemmatization）
単語の活用形や屈折形をもとの基本形（または辞書の見出し語形）に戻す作業。この見出し語ラベルを付与することで、語彙リストを作成する際に見出し語リストを作成できる。これらは通例、（i）の品詞情報付与のプログラムの一部として行われることが多い。

（iii）構文解析（syntactic parsing）
単語に品詞をあてるだけでなく、それらをより上位の構成素にまとめあげて、名詞句、前置詞句、動詞句、文、といった構文解析を行ってそれらの情報を付与すること。英語ではチャルニアクCharniakのparser（ユージン・チャルニアクEugene Charniakによって開発）がもっとも精度が高いといわれる。日本語では奈良先端科学技術大学院大学松本研究室の自動係り受け解析器「南瓜(かぼちゃ)」が有名。品詞情報付与よりは精度は低く、現在精度は80～90％程度といわれている。

（iv）意味情報付与（semantic annotation）
単語に意味情報を付与するもの。方法的には、意味領域semantic fieldのカテゴリー分類タグをふるようなものと、他の同義語、反意語などの意味関係の単語をネットワークのように結び付けるような種類のもの、とがある。前者はランカスター大学の自動意味タグ付与プログラムUSAS taggerが、後者ではWordNetというプロジェクトが有名。

（v）共参照情報付与（coreference annotation）
代名詞などがどの名詞をさしているか、といった共参照の情報を付与するもの。前方参照anaphoraなどに関して研究が盛んで、自動化するプログラムもいろいろ試みられているが、精度はまだあまり高くない。ほとんどのコーパスが人手で付与されているのが現状。

（vi）談話情報付与（discourse annotation）
文脈の流れをつくる談話辞マーカーdiscourse markerにタグを付与するもの。Hylandのリストなどが有名。一部自動化されているが、語彙的な指定ができるもの以外は、人手によらなければつけられない。

（vii）エラー情報付与（error annotation）
学習者の発話・作文などのコーパスに含まれる誤り情報にタグを付与したもの。エラー情報の付与は現在はほとんどが人手であるが、一部自動タグ付与の研究もされている。

（viii）語用論情報付与（pragmatic annotation）
場面や話者間の関係などをもとに語用論的な情報を付与するもの。ノッティンガム大学とケンブリッジ大学出版局が共同で開発しているCANCODE（Cambridge and Nottingham Corpus of Discourse in English）というコーパスには、話者間の人間関係（親子、先生と生徒、友人同士など）のタグがついており、これらの関係をもとに言語表現の検索が可能。またpoliteness theory（ポライトネス理論。社会的・対人的に相手の顔をたてるような談話行為の研究分野）などの視点を盛り込んで丁寧表現の場面別タグ付与なども試みられている。

［投野由紀夫］

（2）テキスト処理方法

情報付与されたコーパスからのデータ抽出の方法にはさまざまな技術が開発されている。大別すると、テキストの先頭から文字列を一つ一つ検索していくgrep検索と、テキストを単語（形態素）ごとにアルファベット順に並び変えてしまい、それぞれの元テキストの位置情報を数値化して持たせるインデックス処理indexingとがある。またメタ・データに関しては、コーパス・ファイルの先頭にヘッダとして格納して、それを参照しながら検索するものと、メタ・テキスト情報とテキスト内情報すべてをリレーショナル・データベース形式（1件のデータに複数の項目をフィールドとして付与し、集合としてデータの統合・抽出を容易にするデータ形式）にして参照させるものとがある。

　具体的な抽出されるテキスト情報の種類としては以下のようなものが一般的である。

（a）単一の検索対象
　（i）単語
　（ii）品詞
　（iii）見出し語
（b）連鎖情報（n-gram, sequence）
　（i）単語連鎖
　（ii）品詞連鎖
　（iii）コロケーション
　（iv）コリゲーション（語彙＋品詞の連鎖）
（c）コーパス全体の集合的な情報
　（i）頻度語彙表
　（ii）アルファベット順語彙表
　（iii）テキスト統計（総語数・異なり語数、文数、文平均語数、TTRなど）
　（a）の場合には、通常検索結果として、その単語や品詞で抽出したコーパスからの例文が与えられる。その検索語を画面の中央に配列するとKWIC（Key Word In Context）という表示形式になる。さらに、検索語を中心に、左右の共起語（検索語の前後の文脈でいっしょに用いられる語）で並べ替えsortすることによって、共起パターンが視覚的に見やすくなる。

　（b）の場合には、検索結果として連鎖情報が一括した統計表として与えられることが多い。とくに単語・品詞連鎖はn-gram統計といい、それぞれの連鎖の頻度表が与えられる。またコロケーションcollocationは、単語と単語の連結パターンの情報、コリゲーションcolligationはある単語と結び付きやすい文法構造のパターン情報をいうが、これらも検索語ともっとも共起統計が強いものから順番に一覧表になって検索結果が表示される。その際に用いる共起統計量にもさまざまなものが提案されているが、主として単純頻度以外に、z-score、t-score、MI-score、対数尤度(ゆうど)比log-likelihood、ダイス係数Dice coefficientなどが知られている。

　（c）はコーパス全体の集合的な情報で、コーパスまたはサブコーパス単位の頻度（またはアルファベット）順の単語リストの出力、個別のテキストに関するさまざまなテキスト統計などが出力できる。

　これらをサポートするソフトウェアを、コーパス検索プログラムcorpus query program、または慣用的に「コンコーダンサーconcordancer」という。多言語対応のフリーのコンコーダンサーでは前記松本研究室が作成している「茶器」という検索ツールが多機能である。またアントコンクAntConc（ローレンス・アントニーLaurence Anthonyが作成）というフリーのコンコーダンサーも多言語対応で簡便にコーパス検索ができる。その他、さまざまな商用コンコーダンサーが利用可能。

　また、大量のコーパス・データの検索を高速に行うために、web上でリレーショナル・データベース形式や、高速な全文検索システムを駆使した検索プログラム（たとえば、小学館コーパス・ネットワークのSAKURA、シュツットガルト大学のXkwic、ブリガム・ヤング大学のVIEWなど）も利用できる時代になった。さらに、webから自動でテキストを収集してきて、形態素解析を行い、コンコーダンサーと単語の文法関係のチャートを作成するSketch Engineなども、新しい多言語コーパス検索サイトとして注目を集めてきている。

［投野由紀夫］

〔3〕コーパスを利用した言語研究

コーパスを利用した言語研究の分野はきわめて多岐にわたるが、ここではその具体例として、とくに英語に関する研究成果を中心に述べる。

（a）コーパスと文法・語法研究
コーパスを用いた文法・語法研究はもっとも進んでいる分野の一つである。コーパス準拠の英文法書としては、1990年代に“Collins COBUILD Grammar Patterns”というシリーズで動詞編（1996）と名詞・形容詞編（1998）が出版されている。その後、アメリカのコーパス言語学者ダグラス・バイバーDouglas Biberらの“Longman Grammar of Spoken and Written English”（1999）、ロナルド・カーターRonald Carter、マイケル・マッカーシーMichael McCarthyの“Cambridge Grammar of English”（2006）などの大型の文法書が出版され、従来の文法に比べてコーパス（とくに話しことばデータ）からの分析結果を大幅に取り入れた記述的な性格を帯びている。

　文法研究では、ジェフリー・リーチGeoffrey Leechらによる年代別のコーパスを用いた語法の時代別変遷の研究や、英語変種やジャンル別の語法研究なども盛んに行われている。

（b）コーパスと辞書編纂
コーパスによる辞書編纂は言語教育分野でもっとも応用が盛んな分野である。前述のCOBUILDプロジェクトを皮切りに、英語辞典では現在Big 5（Longman, Oxford, COBUILD, Cambridge, Macmillan）とよばれる五つの出版社からコーパス準拠の学習英英辞典が出版されている。コーパス情報としては、見出し語選定・重要度の頻度表示、コーパスからの用例抽出、コロケーション情報の提供などがおもなものである。またコーパスからの情報抽出から辞書作成までの工程を解説した本（B. T. Sue Atkins and Michael Rundell“The Oxford Guide to Practical Lexicography”2008）なども出版されている。

（c）コーパスとレジスター分析
レジスターregisterとは書きことば、話しことばの違いや場面や状況による言語の使用域を研究する分野である。コーパスは標本抽出の仕方によって、これらレジスター分析にも有用である。とくに書きことばと話しことばの比較分析の分野では、ダグラス・バイバー（前出）の一連の研究が有名で、彼はレジスターを単純に話しことばと書きことばという二分法にすることに疑義を唱え、60程度の言語特徴の頻度の相対的な出現度合いによって書きことば、話しことばという違いを超えた、レジスターを特徴づける新しい分類の観点を提示している（Douglas Biber“Variation across speech and writing”1988）。

（d）コーパスと歴史言語学
歴史言語学では従来から現存する古英語、中英語などのテキストをもとに研究を行ってきた。とくにヘルシンキ・コーパスHelsinki Corpusという時代別コーパスが作成されて以降、コーパスに基づく歴史言語学の研究は非常に盛んになっている。とくに現在注目されているのは、言語の特定の用法の文法化grammaticalizationが時代を経るにつれてどのように起きてくるかといった問題である。

（e）コーパスと意味論
コーパスでは意味の研究はむずかしいと思われてきたが、近年盛んに行われるようになってきた。とくに意味タグを個別の単語に付与して、そのテキストのテーマや内容を自動的に分類するような技法や、共起情報（いっしょに用いられる単語の頻度情報）を手がかりに当該単語の意味を同定すること、さらに自動要約作成などの研究が自然言語処理とのボーダーラインで行われている。またWordNet、FrameNetのような単語の辞書とその関連語との意味関係データバンクも単なる辞書だけでなくコーパスとリンクする方向で開発が進んでいるので、将来的には意味情報を何らかの形で関与させたコーパスの利用が実現するであろう。

（f）コーパスと語用論
語用論pragmaticsは場面や状況に応じたことばの使用に関する研究分野だが、最近はコーパスを利用した研究も増加してきている。有名なものとしては、前述したイギリスのノッティンガム大学とケンブリッジ大学出版局が共同開発しているCANCODEという話しことばコーパスがあり、これには対人関係の情報が付与されている。これにより、発話を家族での対話、仕事場での上司との対話、など対人関係ごとに分類して、丁寧表現や婉曲(えんきょく)表現などの研究を行っている。通例、特定の語や句を抽出する以外に、語用論で関心のある用法分類などの質的分析をテキスト内にコードとして付与して統計分析するという手法が盛んである。

（g）コーパスと社会言語学
社会言語学は実際にある集団や社会階層で用いられる言語の特徴分析を行うので、コーパスとの親和性は非常に高い。多くの社会言語学の研究者は従来からフィールドワークなどを通し、言語資料を用いた研究を行ってきた。近年では、コーパス構築そのものに社会言語学的な観点を組み込んで設計することが可能になってきた。イギリス英語1億語の均衡コーパスBritish National Corpusでは、会話データに関しては人口統計調査に準じたサンプリングを行っており、イギリスの地域分布、およびそれぞれのインフォーマントの年齢、性別、社会階層まで記録されている。これにより、詳細にあることばの用法を話し手の人口統計データに基づいた分析が可能になる。

（h）コーパスと談話分析
コーパスと談話分析も親和性が高い。文レベルではなく談話レベルの分析には一連の発話・文脈情報が備わったテキストを用いるので、コーパスの出現で、さまざまな談話レベルの分析が行われている。談話辞discourse markerをコーパスから抽出して、談話の流れのなかでの機能分析を計量的に行ったり、談話タグを人手で入力して集計する、などの方法がとられている。また批判的談話分析Critical Discourse Analysisという分野では、とくに政治家の政治演説などの分析が盛んで、政治家の発言の修辞的な特徴をコーパスから明らかにしようという試みもある。

（i）コーパスと文体論
文体の特徴をコーパスで分析しようとする試みはさまざまな分野で行われている。代表的なものとしては、ジェフリー・リーチとミック・ショートMick Shortの“Style in Fiction”（1981）に端を発する、文学作品における書き手と登場人物の発話や思考内容の相互関係を計量的に分析するspeech and thought presentation（S＆TP）、100万語規模の均衡コーパス（Brown Corpus や LOB Corpus）のサブコーパス（たとえば情報提供系の文体と創作散文）間の文体比較、近年ではHylandに代表されるようなアカデミックな文体でのさまざまな言語特徴の分析、などが行われている。この分野はまた著者推定authorship detectionという自然言語処理の分野とも近く、そちらでも盛んに研究が行われている。

（j）コーパスと言語教育
この10年間ほどで、コーパスと言語教育における応用例は大変増加している。コーパスの言語教育における使用例としては、古くは本項〔3〕（b）で述べた辞書編纂への応用例があり、バーミンガム大学のCOBUILDプロジェクトで大量の辞書・文法書・会話教材などが作成されている。近年では、このように教材作成に利用する「間接利用」と、コーパスを教室内で直接学習者に使用させる「直接利用」の両方が注目されている。間接利用では、日本においても投野由紀夫(とうのゆきお)が2003～2005年度にNHKで放映した英会話番組『100語でスタート！英会話』において、世界で初めてテレビ語学番組にコーパスを活用している。教員がコーパスを自分でつくったり、大型コーパスと自分の教材のテキストを比較したりということが簡単にできる時代となり、外国語教師の一つの教材作成ツール、または教員研修などでの言語資料としての活用も期待されている。

［投野由紀夫］

『ダグラス・バイバー、スーザン・コンラッド、ランディ・レッペン著、齊藤俊雄他訳『コーパス言語学――言語構造と用法の研究』（2003・南雲堂）』▽『齊藤俊雄・赤野一郎・中村純作編著『英語コーパス言語学――基礎と実践』改訂新版（2005・研究社）』▽『投野由紀夫著『投野由紀夫のコーパス超入門――コーパスでわかる英語学習のコツ』（2006・小学館）』▽『投野由紀夫編著『日本人中高生一万人の英語コーパス――中高生が書く英文の実態とその分析』（2007・小学館）』▽『Geoffrey N. Leech and Mick ShortStyle in Fiction（1981, Longman, London）』▽『Douglas BiberVariation across speech and writing（1988, Cambridge University Press, Cambridge）』▽『Douglas Biber, S.Johansson, G. Leech, S. Conrad, and E. FineganLongman Grammar of Spoken and Written English（1999, Longman, London）』▽『Michael StubbsLanguage Corpora（in Alan Davies and Catherine Elder (eds.) : “The Handbook of Applied Linguistics”, 2005, Blackwell Publishing）』▽『Ronald Carter & Michael McCarthyCambridge Grammar of English（2006, Cambridge University Press, Cambridge）』▽『Tony McEnery, Richard Xiao, and Yukio TonoCorpus-Based Language Studies ; An Advanced Resource Book（2006, Routledge, London）』▽『B. T. Sue Atkins & Michael RundellThe Oxford Guide to Practical Lexicography（2008, Oxford University Press, Oxford）』

[参照項目] | 英語 | XML | 形態素 | 言語学 | 生成文法 | ソーンダイク | チョムスキー

出典　小学館　日本大百科全書(ニッポニカ)日本大百科全書(ニッポニカ)について　情報 | 凡例

コーパス言語学（読み）こーぱすげんごがく（その他表記）corpus linguistics

日本大百科全書(ニッポニカ) 「コーパス言語学」の意味・わかりやすい解説

コーパス言語学
こーぱすげんごがく
corpus linguistics

由来

沿革

概論

〔1〕コーパス構築の原理

〔2〕コーパス検索の方法論

（1）情報付与の方法

（2）テキスト処理方法

〔3〕コーパスを利用した言語研究

関連語をあわせて調べる

日本大百科全書(ニッポニカ) 「コーパス言語学」の意味・わかりやすい解説

コーパス言語学こーぱすげんごがくcorpus linguistics

由来

沿革

概論

〔1〕コーパス構築の原理

〔2〕コーパス検索の方法論

（1）情報付与の方法

（2）テキスト処理方法

〔3〕コーパスを利用した言語研究

関連語をあわせて調べる

コーパス言語学
こーぱすげんごがく
corpus linguistics