本研究では、大規模な言語データから強力かつ柔軟な言語生成モデルを機械学習することのできるデータ構造である拡張サフィックス・アレイの提案、および、拡張サフィックス・アレイを作文支援システムに適用することを目的としている。本年度は、20年度、21年度での研究成果を実装した文字列予測システムの開発および評価を行った。 1.拡張サフィックス・アレイに基づく文字列予測システムの研究開発 拡張サフィックス・アレイを用いて、自然言語の文章データから、後続する可能性のある文字列を予測する機能をプログラムとして実装した。また、日本語のように、単語境界の曖昧な言語に対して、辞書等の教師データを用いずに単語境界を判定し、最適な文字列を生成する手法として、隣接文字間の統計情報に基づくエントロピーを利用した手法の実装も行った。 2.文字列予測システムの評価 新聞記事データを用いて、開発した文字列予測システムの評価を行った。評価実験では、新聞記事中の文字列から、予測文字列を上位20個まで出力し、出力文字列の中から言語的に適切だと思われる個数を計測したところ、98%の精度を得た。また、文字列予測システムを作文支援として用いる際に、ユーザの入力をどれだけ軽減できるかという測定実験を行い、作文支援システムの有効性についても調べた。
|