研究課題/領域番号 |
17500062
|
研究種目 |
基盤研究(C)
|
配分区分 | 補助金 |
応募区分 | 一般 |
研究分野 |
メディア情報学・データベース
|
研究機関 | 横浜国立大学 |
研究代表者 |
森 辰則 横浜国立大学, 大学院・環境情報研究院, 教授 (70212264)
|
研究期間 (年度) |
2005 – 2006
|
研究課題ステータス |
完了 (2006年度)
|
配分額 *注記 |
3,500千円 (直接経費: 3,500千円)
2006年度: 1,400千円 (直接経費: 1,400千円)
2005年度: 2,100千円 (直接経費: 2,100千円)
|
キーワード | 質問応答 / リスト型質問応答 / 優先順位型質問応答 / 解のスコア分布 / EMアルゴリズム / 文脈依存型質問応答 / 言語横断情報検索 / 分脈依頼型質問応答 |
研究概要 |
本研究は、当初リスト型質問応答の精度向上を目的とした。質問応答とは、利用者が入力した質問文に対し知識源となる文書データベースの中から直接その答を見つけ出す技術である。他の文書処理技術の中で活用されること想定した場合、精度の良いリスト型質問応答、すなわち、決められた知識源の中から過不足なく与えられた質問の解を見つけ列挙する能力が重要となる。そこで、まず、解のスコア分布が、正解候補群のスコア集合が成す分布と不正解のそれとの混合分布であること、ならびに、その二分布が正規分布であることを仮定し、EMアルゴリズムにより分離する手法を提案した。この二分布の平均値の差等の指標を調べることにより、正解候補群を正しく求められているか否かの判断ができることが分かった。また、解候補のスコアの分布が明確に分離できない場合については、質問文中のキーワードと解候補の知識源内での共起性を改めて調べることにより,尤もらしい解のみを抽出する方法を検討した。しかし、同手法による精度改善は顕著ではなく、さらなる検討を要することが分かった。 そこで、「解候補のスコア分布が明確に分離できるか否かが、質問文に対してシステムが正しく答を見つけることができているかどうかの指標になる」という上記の知見に注目した方法について検討した。まず、「質問の為直し」という処理を一般化した。すなわち、曖昧な質問に対して、複数の可能な解釈を適用して得られる複数の質問文候補を生成し、その中から、適切な質問文候補と解を得ることに対応すると捉えた。このときに、適切な解が求められているという判断について、上記指標を利用することを検討した。具体的には、この考え方を、質問文の曖昧性解消が必須となる、以前の質問や答に関連する一連の質問に答える文脈依存型質問応答システムに適用すると、その精度が向上することが確認された。また、言語横断質問応答においては、翻訳時に使用する資源の違いに応じて、質問文の翻訳候補を複数用意し、それらに対して質問応答処理を個別に行い、後に結果を併合する手法を検討した。同手法によれば、言語横断質問応答処理がある一定の精度で行えることが示された。
|