本研究では、大規模な言語データから強力かつ柔軟な言語生成モデルを機械学習することのできる新しいデータ構造の提案、および、この新しいデータ構造を外国語学習等の作文支援システムに適用することを目指している。本年度は、20年度の研究開発により得られた知見、開発した拡張サッフィクス・アレイのプログラムを基に、以下のような精緻化・効率化を行った。 1. 拡張サッフィクス・アレイに基づく言語生成モデルの改良 拡張サフィックスー・アレイに基づき部分的な文字列が与えられたときに、後続する文字列を生成・予測する際に、参照する部分文字列の長さを可変にすることにより、生成・予測する文字列の長さを調整できる機能について検討した。これにより、文字列の生成・予測の範囲を短範囲から長範囲まで扱うことが可能となる。 2. 拡張サフィックス・アレイを用いた最適な生成・予測に関する研究 拡張サフィックス・アレイから生成・予測される言語表現は、文字レベルや単語レベルなど、さまざまなレベルが考えられる。作文支援の観点からは、単語レベルでの生成・予測が適していると考えられるが、日本語や中国語のような言語では、英語と異なり、単語が空白で区切られていないために、最適な生成・予測を行うことが困難である。このため、日本語の字種情報に基づいて生成・予測する文字列に制限を加える方法や隣接文字のエントロピーを用いて生成・予測する文字列に制限を加える方法などについて研究を行った。
|