研究概要 |
多言語の質問応答システムを実現するには,単言語を対象とする質問応答システムと,複数言語を対象とする質問応答システムを組み合わせる必要がある.従来の質問応答システムの多くは,人手によって作成された規則などを多く用いているが,そのような方法では,複数の質問応答システムを効率よく作成することはできない.そのため,本年度は,機械学習の手法を用いて質問応答システムを作る方法を検討した.提案手法により,インドネシア語に対する質問応答システム,および,インドネシア語-英語を対象とする言語横断質問応答システムが作れることを示した.ただし,提案手法によって作成したインドネシア語-日本語を対象とする言語横断質問応答システムは,先行研究と比べて性能が良くなかった. また,言語横断の質問応答システムを作成するには,その言語対に対する大規模対訳辞書が不可欠である.しかし,世界中にはマイナーな言語も多く存在するので,そのような大規模対訳辞書は常に利用可能であるとは限らない.そこで,小規模な対訳辞書を大規模に拡充する手法を提案し,提案手法によって作成された辞書が言語横断情報検索タスクにおいて有効であることを示した. さらに,質問応答タスクを実現するには,そのサブタスクとして固有表現抽出が重要である.固有表現抽出には,教師有り機械学習が有効であることが既に知られている.しかし,現実世界では常に新規な固有表現が生まれ続けているので,常に豊富な学習データが利用できることは期待できない.そこで,少量のラベル付き学習データと大量のラベル無しデータを併用した半教師有り機械学習手法の適用を検討した.
|