2006 年度実績報告書

文脈に最適な言い換えをWebから自動獲得する手法に関する研究

研究課題

研究課題/領域番号	17700144
研究機関	北陸先端科学技術大学院大学
研究代表者	風間淳一北陸先端科学技術大学院大学, 情報科学研究科, 助手 (60377439)
キーワード	言い換え / Web / 自動獲得 / 属性 / 木構造カーネル / 固有表現認識 / 大域的素性 / Wikipedia
研究概要	平成18年度の研究実績は以下のとおりである。(1)言い換え獲得における精度低下の原因の一つは、データのスパース性である。今年度も、スパース性を解決する方法の一つである単語クラスタリングの際に有効であると考えられる属性の知識をWebから自動獲得する手法について研究を継続し、これまでの成果を論文誌「自然言語処理」において発表した。(2)言い換えを高精度で獲得するためには、対象文およびWeb上の文の構文木、あるいは、周囲のWeb文書の木構造まで利用することも重要である。そこで、木構造間の類似度を測る木構造カーネルについても研究を継続した。本年度は、前年度に提案したマーク付きの木構造カーネルを発展させ、ノードに付与したマークに重みを持たせることのできる新しい木構造カーネルを提案し、自然言語処理の一つである意味役割付与において効果を確認した。また、このようなタスクにおいて実行時の計算を高速化する方法も同時に開発し、以上の成果を国際学会「CoNLL-X」にて発表した。(3)言い換えの獲得において、共通する固有表現に注目することが有効であることが知られている。しかし、固有表現を高精度で認識すること自体難しい処理である。そこで、固有表現認識についても研究を行い、従来の手法では考慮することのできなかった「大域的素性」を利用することのできる新しいパーセプトロン学習法を提案した。また、Web文書などの多種多様な固有表現の出現する文書に対応するため、近年その量と質から注目を浴びているWikipediaを新しい情報源として用いる方法を提案し、効果を確認した。前者の成果については「言語処理学会年次大会」(査読なし)において発表した。また、両者の成果とも国際学会「EMNLP-CoNLL 2007」に投稿した(受理、発表予定)。