2009 Fiscal Year Annual Research Report
語義に基づく日英関連文書の抽出と続報記事判定への適用
Project/Area Number |
20500128
|
Research Institution | University of Yamanashi |
Principal Investigator |
福本 文代 University of Yamanashi, 大学院・医学工学総合研究部, 教授 (60262648)
|
Keywords | 多義解消 / クラスタリング / 照応解析 / 続報記事抽出 / 多言語コーパス / 教師なし学習 |
Research Abstract |
本研究は、英文報道記事に対し、意味を考慮することでユーザが指定した出来事に関する一連の記事を高精度で抽出・提示することを目的とする。具体的には、日英報道記事に焦点をあて、各記事に対し、1.話題、及び話題の推移を示す名詞と動詞に注目し、それらの品詞単語の多義を解消する、2.照応解析を行った結果、不要な文を削除し、各記事の話題を示す文のみで表す、3.文で表現された日英の記事を比較することで日英関連記事を抽出する、4.3で得られた結果を用いて出来事に関する一連の記事を高精度で抽出し、提示する。本研究の特色・意義は、1.多言語コーパスに対し、意味解析を行うことで関連する記事を抽出する点、2.教師つき学習データに依存しない語義に関するデータを自動的に生成する点、3.意味の粒度を考慮した照応解析を実現する点の3点に集約できる。これまで単語の統計情報に基づき関連記事を抽出する手法、教師つきデータに存在する語義に対して、新たに用例を収集・追加することで多義を解消する手法、意味素性を用いて先行詞を同定する手法は多く提案されているが、本研究における各課題に取り組み成功した例は、申請者に知り得る限り存在しない。上に述べた4つの課題のうち、今年度は、2.を実施し成果を論文にまとめた。さらに3.と4.について、時系列情報を取り入れた手法を提案し、実験により有効性を明らかにした。
|