本研究では、確率・統計的手法に基づいた対話のモデル化について研究し、このような対話モデルを大規模言語データベースであるコーパスから自動的に生成するための研究を行なった。 まず第一に、学習データを幾つかのクラスタに分割し、各クラスタから確率文脈自由文法のパラメータを推定することにより、対話状況依存性を持つ確率文脈自由文法を構築する研究を行なった。IFT(Illocutionary Force Type;発話行為タイプ)付きの対話コーパスを用いた評価実験を行ない通常の確率文脈自由文法よりも優れていることを示した。 次に、IFT付きのコーパスから、話者の交替や質問・応答・確認といった会話の基本的な構造を確率・統計的にモデル化するための研究として、Ergodic HMMおよびALERIGIAアルゴリズムを用いた対話構造のモデル化について研究を行なった。Ergodic HMMによるモデル化では、質問・応答等の対話の基本構造を抽出することができ、話者ラベルとIFTを併用した場合には、状態遷移が事務局側の発話と質問者側の発話で比較的きれいに分かれたモデルが得られた。また、ALERGIAアルゴリズムにより得られるモデルは、決定性オートマトンであるため、エントロピーの小さなモデルを作成するためには、状態数を非常に大きくする必要があると分かった。
|