Research Abstract |
本研究の狙いは,文脈を事象の連鎖として扱い,事象フレームによって明確に文脈情報を記述することによって,フレーム内容の推移追跡に重点をおいた意味解析パ-ザを作ることである.具体的には文脈に必要な情報を辞書とコーパスから話題・場面の観点で獲得し,それを実際の文章に適用して有効性を示した.有効性は,文章内での多意義性解消,係り受け先の特定,照応解決によって評価を行なっている. 多義性解消に関しては,形態素処理のみ施した文章に対し,獲得した知識を適用した結果,知識に関係した名詞に対しては9割の正答率で,そして知識に関係しない名詞は1割以下の誤り率でスルーさせることができることがわかった.この知見に基づき,実際の文脈依存解析パ-ザを作成した. 係り先解消に関しては,従来解決の困難であったforという前置詞に絞り,その前後の4語の統計をコーパス上で求めた結果を未知のコーパスに適用した結果,精度の向上が見られた.また,同時に多義性も解消できることがわかった.現在,他の前置詞の係り先を求める情報をコーパスから獲得する研究と,パ-ザの実装を行なっており,研究公開準備中である. 照応解決に関しては,形態素解析と語の位置程度の情報でかなり精度の良いものが作成できる知見が得られた.そして間接照応を解決するためにコーパス上から知識を獲得する研究を現在進めている.その成果の公開は準備中である. 以上の三つの処理は独立に進められ,相互依存はほとんどないため,最後に同じパ-ザ上で容易に統合可能であることがわかった. 応用面として,情報抽出・検索によって手法の有効性を示した.上の方法は言語によらず一般性があり,その一つとして,新聞記事の関連記事を精度よく抽出することが可能となった.語の共起頻度や位置,一般性を反映した重みづけを行ない,記事ごとに重要と思われる語を知識として取り出し,他の記事の検索に用いることに応用した.その結果,二週間の範囲の3000記事から8割以上の正解率で,関連する記事を取り出すことが可能となった.
|