Nグラム(読み)えぬぐらむ(英語表記)n-gram; Ngram

図書館情報学用語辞典 第5版 「Nグラム」の解説

Nグラム

任意の文字列文書を連続したn個の文字分割するテキスト分割方法.特に,nが1の場合をユニグラム(uni-gram),2の場合をバイグラム(bi-gram),3の場合をトライグラム(tri-gram)と呼ぶ.最初の分割後は1文字ずつ移動して順次分割を行う.図書館情報学の分野では,検索システムにおける索引の自動抽出においてよく用いられる.例えば,「図書館情報学」をバイグラムで分割すると,「図書」「書館」「館情」「情報」「報学」となる.形態素解析を行って単語境界を識別して分割する方式と比べ,検索漏れが起きにくい,分割が機械的で容易なため多言語への対応が容易などの長所がある.しかし,情報検索や自動分類へ応用する際にはノイズ多くなる,転置ファイルのサイズが大きくなるなどの短所がある.

出典 図書館情報学用語辞典 第4版図書館情報学用語辞典 第5版について 情報

ASCII.jpデジタル用語辞典 「Nグラム」の解説

N-グラム

検索サービスデータベースに登録する文字列をインデックス化する処理に用いられる方式。全文検索した文字列に対し、N文字単位で機械的に文字を切り出す。多くの検索エンジンでは、N-グラムと形態素解析の両方の方式を取り入れている。

出典 ASCII.jpデジタル用語辞典ASCII.jpデジタル用語辞典について 情報

今日のキーワード

ゲリラ豪雨

突発的に発生し、局地的に限られた地域に降る激しい豪雨のこと。長くても1時間程度しか続かず、豪雨の降る範囲は広くても10キロメートル四方くらいと狭い局地的大雨。このため、前線や低気圧、台風などに伴う集中...

ゲリラ豪雨の用語解説を読む

コトバンク for iPhone

コトバンク for Android