Research Abstract |
本研究は,英文報道記事に対し,意味を考慮することでユーザが指定した出来事に関する一連の記事を高精度で抽出・提示することを目的とする.具体的には,日英報道記事に焦点をあて,各記事に対し,1.話題、及び話題の推移を示す名詞と動詞に注目し,それらの品詞単語の多義を解消する,2.照応解析を行った結果,不要な文を削除し,各記事の話題を示す文のみで表す,3.文で表現された日英の記事を比較することで日英関連記事を抽出する,4.3で得られた結果を用いて出来事に関する一連の記事を高精度で抽出し,提示する.本研究の特色・意義は,1.多言語コーパスに対し,意味解析を行うことで関連する記事を抽出する点,2.教師つき学習データに依存しない語義に関するデータを自動的に生成する点,3.意味の粒度を考慮した照応解析を実現する点の3点に集約できる.これまで単語の統計情報に基づき関連記事を抽出する手法,教師つきデータに存在する語義に対して,新たに用例を収集・追加することで多義を解消する手法,意味素性を用いて先行詞を同定する手法は多く提案されているが,本研究における各課題に取り組み成功した例は,申請者に知り得る限り存在しない.上に述べた4つの課題のうち,今年度は,3と4を実施した.日英関連文書記事の抽出では,多義解消,及び代名詞の先行詞同定を行った記事集合に対して,統計手法を用いることで類似した文書対を抽出する手法を提案した.さらに手法を有効性を検証するため,多義解消,及び照応解析を行わずに関連文書の抽出を行った結果と比較することで,手法の有効性を確認した.また本研究は22年度が最終年度にあたるため,これまでの成果を論文にまとめ,公表した.
|