代表的な統計的言語モデルであるngramモデルに、処理中の文書や文脈の話題・トピックに関する情報を取り込むことによって性能を向上させる手法を提案・評価・応用することを目的として研究を行った。本年度は、昨年度開発を行った階層ベイズモデルを利用した混合ディリクレモデルの頑健なパラメータ推定方法の評価・分析と、音声認識および機械翻訳システムにおけるトピックモデルの応用手法の開発・性能評価を行った。 (1)昨年まで行っていた新聞記事データによる評価ではトピックが固定され比較的単純な評価対象であったため、ブログデータを評価対象に加え、「訓練されていない書き手、口語体、トピックが固定されていない」ようなデータに対する評価を行った。新聞記事とプログのデータに対して、いずれのデータに対しても提案手法が従来法に比べて高い性能を発揮することを確認した。 (2)音声認識への応用システムは、昨年度用いた新聞記事読み上げ音声コーパスに加え、より自発的な発声データを含む「日本語話し言葉コーパス(以下、CSJ)」を用いて評価した。その結果、より自発的な発声データに対しても提案モデルは従来法に比べて高い音声認識率を達成できることを確認した。 (3)機械翻訳システムとしては、フレーズベースの統計的機械翻訳システムを試作し、言語モデルにトピックモデルを組み込む方法を検討・評価した。組み込み方法としては、日英対訳記事を一つの文書と考えトピックモデルを学習し、翻訳時に原言語側の文章のみからトピックを推定し、目的言語側に反映させる手法を用いた。実験の結果より、トピックモデルの有効性を確認できた。
|