確率的形態素解析
形態素解析は入力文を単語に分割し,それぞれの単語の品詞を決定する技術。
日本語には,欧米の言語のように単語と単語の間にスペースを設ける「分かち書き」の習慣がない(中国語やタイ語などアジアの言語に同様のものが多い)。そのため日本語の形態素解析は単語の分割と品詞の決定を同時に行わなければならないという難しい問題があり,この分野の研究は欧米の言語に比べて遅れていた。特に単語分割の問題は,ワープロ・スペルチェッカ・検索エンジン等,欧米の言語用に開発されたソフトウェアを日本語化(多言語化)する際の大きな障害の1つになっている。この問題を解決するために,まず対象領域のテキストのサンプリングを大量に(100万語以上)収集しておく。この収集されたテキストデータベースのことを「コーパス」と呼ぶ。次に,コーパス中の日本語文を人手によって単語に分解し,それぞれの単語に品詞を付与した正解データを作成する。次にこの正解データを統計処理して,日本語ではどのような単語や品詞が結び付きやすいか,また,どの単語や品詞がどれくらいの頻度で現れるかを計算した統計的言語モデルの学習を行う。
解析にあたっては,入力された文字列に対して,この統計的言語モデルを適用し,入力文の考え得るすべての単語分割パタンとそれぞれの確からしさ,分割された単語に付与され得るすべての品詞連続のパタンの確からしさが計算され,確率で表現される。今回開発した手法では,特に連続する3つの単語の品詞の接続確率を利用することにより精度を高めている。
◆ 《文字認識誤り訂正技術》
確率的形態素解析法では,1つの入力文に対して複数出てくる解釈(単語分割パタン×品詞連続パタン)に対して,それぞれ日本語としての適切さの度合いが確率で表されるため,従来の素法では困難であった文法的に誤っていたり,誤字・脱字がある入力文も柔軟に処理する。この特徴をうまく応用したのが,文字認識誤り訂正技術である。
◆ 《文字マトリクス》
文字認識の場合,入力文の各文字に対して,画像的な類似度に基づいて複数の文字認識候補が出力される。この文字認識候補集合を文字マトリクスという。