Research Abstract |
本研究で対象とする発掘型質問の調査のため,Web上の質問サイトに投稿された質問を調査した。 技術,社会,学問,生活,趣味などの質問カテゴリそれぞれからランダムに質問を調べ,一つの文書に答がそのまま掲載されているのではなく,複数の文書に記述された情報を統合することで答が導きだせるという基準に基づき,質問を選択し分類を行った。その結果,(1)比較・最上級を問う質問,(2)初出を問う質問,(3)経緯、軌跡を問う質問,(4)2つ以上の事項の関連性を問う質問,の4つに分類できることが分かった。次に,これらの質問文を意味表現に構造化し,これらの質問に答えるために必要な要素を特定した。現在,質問文から,ここで表現した意味表現へと変換する意味解析器を構築中である。 一方,実世界質問全般に回答するユニバーサル質問応答への対応のため,従来の質問応答システムの拡張・性能改善も行った。factoid型質問応答の発展型として,従来型の「短い答」ではなく,回答周辺に存在する情報を付加し,かつその回答自身が言語として適切な表現となっているような「詳解」を抽出するシステムの実装を行った。また,質問文とは異なる言語で記述された文書から答を抽出する言語横断質問応答として,統計的機械翻訳に基づくパッセージ検索手法を検討しているが,利用する翻訳モデルの改善を行った。評価実験により単語重要度の利用が有効であることが分かった。ニュース音声・学会講演音声などの音声データを音声認識して得られる音声ドキュメントを対象とする質問応答では,認識誤りに頑健な回答タイプ推定法に加え,認識候補から正解テキストを翻訳モデルで予測して検索を行う,認識誤りに頑健な音声ドキュメント検索手法を開発し,実装を行った。
|