InfoBee/MINC
Mega INformation Classifier
テキスト情報を高速かつ高精度に自動分類するエンジン。あらかじめ用意した分類先の箱(カテゴリ)にそれぞれのテキストを割り当てる手法(classification)タイプの分類エンジンで,日本語形態素解析によって得られた単語の種類や数に基づいてテキストを高速かつ高精度に自動分類する。
分類処理は,最近傍決定則(NN法:Nearest Neighbor rule)を基本として,以下の2ステップで行う(図)。
・ STEP1:与えられた分類基準から,各分類先(カテゴリ)の言語的特徴を抽出し学習する。
・ STEP2:分類対象となるテキスト集合を各カテゴリに割り当てる(自動分類)。
◆ 《日本語形態素解析》
日本語の文書を単語ごとに区切って,それぞれの単語の品詞と活用を求める技術。例えば“靴”と“靴下”は異なる単語として扱われるため,文字列マッチングと比較して高精度な検索が可能になる。