2009 Fiscal Year Annual Research Report
リンク解析に基づく自然言語処理・テキストマイニング技術の開発
Project/Area Number |
21500141
|
Research Institution | Nara Institute of Science and Technology |
Principal Investigator |
新保 仁 Nara Institute of Science and Technology, 情報科学研究科, 助教 (90311589)
|
Keywords | リンク解析 / 自然言語処理 / テキストマイニング |
Research Abstract |
平成21年度は,自然言語文の構文解析タスクの一つである並列句解析のうち,日本語並列句および,ネストした並列句の解析,という、より困難な問題に取り組み,これらの問題におけるアラインメントグラフ上のコスト学習法の実用性を示したことが主な成果である. 具体的には,アラインメントグラフを機械学習法の一種である系列学習パーセプトロンと組み合わせ,日本語文においても並列句同士の類似度が適切に学習できることを実証した.英文の並列句がほぼ間違いなく「and」「or」といった並列句マーカーを伴うのに対し,日本語の並列句は「と」といったマーカーは必ずしも並列句を導くとは限らない.例として,「清水寺と二条城に行った」,「友達と二条城に行った」はいずれも助詞「と」を含むが,前者は並列句を含むが,後者は含まない.このように日本語並列句解析は,「並列句の範囲同定」に加え「並列句が存在するか否かの判定」という処理も必要とされ,問題はより困難である.我々はこのような問題に対しても,グラフ形状を工夫する(バイパスと呼ばれる経路を追加する)ことで対処した. また,並列句はしばしばネストして文中に出現するが,従来のアラインメントグラフを用いる並列句解析法ではこのような文を扱うことが不可能であった.我々は,このような文についても,アラインメントグラフとともに構文規則に基づく制約を併用し,効率良く学習・解析が可能であることを示した.
|