テキストマイニング(読み)てきすとまいにんぐ(英語表記)text mining

日本大百科全書(ニッポニカ) 「テキストマイニング」の意味・わかりやすい解説

テキストマイニング
てきすとまいにんぐ
text mining

コンピュータを使い、文章のデータから役にたつ情報や問題点などを抽出し分析する手法。マイニングとは英語で「地下資源採掘」のことで、大量の文書データから有用な情報や必要な知識を発掘することが語源となっている。文章を句読点慣用句品詞などでくぎり、くぎられた一つ一つ要素がもつ、順序、つながり、使用頻度、時間的変化、語意の性質といった特性からデータマイニングの手法で解析することで、目的とする情報や傾向を抽出することができる。

 人工知能の研究の一部として1980年代後半に登場した分析方法で、一般的な言語学や自然言語処理、言語情報学などのさまざまな分野の研究が応用されている。インターネットの普及によって電子化された文章のデータ収集が容易になり、テキストマイニングは幅広い分野で使うことができるようになった。ビジネスのマーケティングや市場調査分野では、ブログやミニブログなどのソーシャルメディアへの書き込みから、特定の商品に対する反応や消費動向を分類して解析を行い、商品の評価や問題点を集計してグラフなどへ可視化する手法が用いられている。

 日本語のテキストマイニングの場合、分析結果信頼性を向上させるためにも、どのように文章をくぎるかという「分かち書き処理」が、当初から重要な課題になっている。分かち書き処理を使った分析では、まず文章を形態素(意味をもつ最小の言語単位)という要素にくぎり、小分けした要素に対し、文法的な属性を特定するための形態素解析を実施する。テキストマイニングではこのような形態素解析の結果を集計し、さらに必要な情報を選別する意味解釈の解析を施すことで、特定の内容を抽出している。

[編集部]

出典 小学館 日本大百科全書(ニッポニカ)日本大百科全書(ニッポニカ)について 情報 | 凡例

今日のキーワード

ぐんまちゃん

群馬県のマスコットキャラクター。人間だと7歳ぐらいのポニーとの設定。1994年の第3回全国知的障害者スポーツ大会(ゆうあいピック群馬大会)で「ゆうまちゃん」として誕生。2008年にぐんまちゃんに改名...

ぐんまちゃんの用語解説を読む

コトバンク for iPhone

コトバンク for Android