研究概要 |
ネットワークと計算機の発達に伴い, 母国語以外の言語で記述された情報に接する機会も増え続けているため, 複数の言語を横断した情報利用支援技術が必要とされている. 例えば, 日本語を母国語とするユーザの情報要求に対して, 適合する回答を英語の文書集合から発見京・提示するような日英言語横断質問応答などが研究されている. しかし, このようなシステムにおいては, 第1に, 適当な回答が文書集合中に含まれていない場合に対する対応が不十分であり, 第2に, 質問文に含まれる単語間の関係に関する配慮が少ないために複雑な質問に対応できない, という2つの欠点がある. この問題を解決するため, 本研究では, 複数言語で記述されている文書集合を参照して回答を提示する多言語横断質問応答システムを研究する. 昨年度(平成20年度)は, そのようなシステムにおいて必要となる対訳辞書の拡張と, 未知語を含む固有表現抽出手法について研究した. 特に, 固有表現出現傾向の経年的変化の調査を行い, ある年の新聞に出現した固有表現の70%から80%が翌年にも出現すること, 言い換えれば, 20%から30%は1年前の新聞には出現していない未知固有表現であることなどを明らかにした. さらに, そのような未知固有表現に対して頑健な固有表現抽出手法を検討した.
|