本研究では統計情報などのような数値データを対象とした質問応答システムに必要な技術の研究開発を行う.数値データから得られる情報にはデータに格納されている値だけでなく,それらの値を計算することによって得られる情報などもある.そのため,入力された質問文がどのような計算を必要とするかを解析する必要がある. 研究開発のためには数値情報とそれに対応する言語表現が紐付いたデータが必要であるため,気象庁の天気概況と旬毎の気象情報のデータに対してアノテーションを実施した.気象情報は地域と各旬毎の観測値からなる表で構成されている.構築したアノテーションコーパスではこの表のどの部分が天気概況のどの言語表現に対応するかを付与している.また,概況では「昨年並み」や「最多の」などのように表中の複数の数値に対する計算を行って得られる情報などが書かれることがあるため,単なる数値と言語表現の対応だけでなく,言語表現を生成するために必要な計算の種類も同時にアノテーションしている. 検索システムに必要な述語項構造解析器に関しては,引き続き文内,文間ゼロ照応の解析を含めた解析器を構築を試みていた.数値表現が文章中に表れるため,単位の解析も課題であったが,これに対してルールベースの単位表現解析器を構築した.述語鋼構造解析器の精度に関しては,文間ゼロ照応においては既存技術とほぼ同等の精度を達成できたが,有意な改善は見られなかった.
|