コンピュータを使い、文章のデータから役にたつ情報や問題点などを抽出し分析する手法。マイニングとは英語で「地下資源の採掘」のことで、大量の文書データから有用な情報や必要な知識を発掘することが語源となっている。文章を句読点や慣用句、品詞などでくぎり、くぎられた一つ一つの要素がもつ、順序、つながり、使用頻度、時間的変化、語意の性質といった特性からデータマイニングの手法で解析することで、目的とする情報や傾向を抽出することができる。
人工知能の研究の一部として1980年代後半に登場した分析方法で、一般的な言語学や自然言語処理、言語情報学などのさまざまな分野の研究が応用されている。インターネットの普及によって電子化された文章のデータ収集が容易になり、テキストマイニングは幅広い分野で使うことができるようになった。ビジネスのマーケティングや市場調査分野では、ブログやミニブログなどのソーシャルメディアへの書き込みから、特定の商品に対する反応や消費動向を分類して解析を行い、商品の評価や問題点を集計してグラフなどへ可視化する手法が用いられている。
日本語のテキストマイニングの場合、分析結果の信頼性を向上させるためにも、どのように文章をくぎるかという「分かち書き処理」が、当初から重要な課題になっている。分かち書き処理を使った分析では、まず文章を形態素(意味をもつ最小の言語単位)という要素にくぎり、小分けした要素に対し、文法的な属性を特定するための形態素解析を実施する。テキストマイニングではこのような形態素解析の結果を集計し、さらに必要な情報を選別する意味解釈の解析を施すことで、特定の内容を抽出している。
[編集部]
出典 最新 心理学事典最新 心理学事典について 情報
出典 (株)トライベック・ブランド戦略研究所ブランド用語集について 情報
米テスラと低価格EVでシェアを広げる中国大手、比亜迪(BYD)が激しいトップ争いを繰り広げている。英調査会社グローバルデータによると、2023年の世界販売台数は約978万7千台。ガソリン車などを含む...
11/21 日本大百科全書(ニッポニカ)を更新
10/29 小学館の図鑑NEO[新版]動物を追加
10/22 デジタル大辞泉を更新
10/22 デジタル大辞泉プラスを更新
10/1 共同通信ニュース用語解説を追加