本研究課題では、ユーザの質問が曖昧であったときに、ユーザに対して問い合わせを行うことによって適切な回答を選択する対話型質問応答システムを構築することを目的とする。曖昧な質問とは、ここでは「ワールドカップの優勝国はどこですか」のように、質問だけでは回答が一意に決まらない質問を指す。本研究では、システムからユーザに対して「サッカーのワールドカップですか、それともラグビーですか」といった問い返しを行うことで適切な回答をユーザに提示する。 本年度は質問の曖昧性を検出する手法に焦点を当てて研究を行った。まず、質問に含まれる個々のキーワードに対し、そのキーワードの意味を限定する表現(限定表現)を抽出する。例えば、キーワード「ワールドカップ」の限定表現としては「サッカー」や「ラグビー」などがある。限定表現の抽出は、(1)キーワードの直前・直後に現われる名詞を抽出、(2)キーワードに連体修飾する名詞を抽出、といった抽出パタンを用いて行う。さらに、限定表現を網羅的に抽出するために、キーワードの近傍にありかつ関連度の高い名詞も抽出する。関連度は大量のコーパスから学習された単語の共起情報をもとに計算する。 さらに、同種の限定表現を伴う解答のグループ(解答群)を作成する。同種の限定表現とは、例えば末尾数文字が同じもの、類似した数量表現を持つもの、同じ意味クラスを持つもの、などを指す。本研究課題では、解答群を得ることは問い返し文のwhat to sayを決めることに相当する。解答群は一般に多数得られるが、この中でユーザへの問い返し文として最もふさわしい内容を持つものをヒューリスティクスにより決定する。予備実験の結果、約7割の質問に対して、ユーザへの問い返し文の内容としてふさわしい解答群を得ることができた。しかし、スコア1位の解答群が適切である質問は3割程度であり、この精度を改善することが次年度以降の課題となる。
|