研究実績の概要 |
テキストを単純文に変換する手順を,意味的圧縮を展開するステップ(脱文脈化)と,構文的圧縮を展開するステップ(単文化)とに分け,本年度は後者を重点的に行った.特に,等位接続詞により並列される句の範囲をコンピュータで自動同定するのは困難なことが知られているが,その精度を向上させるために,並列構造解析(Hara et al., ACL-IJCNLP 2009)と依存構造解析との融合を試みた.その成果の一部を国際会議IWPTで報告した. 他方,単純文の比較やマージを目的として,単語の類似度計算に使用したデータセットをはじめ,大規模なデータセットには,他の多くのデータと類似度が高いデータ(ハブデータ)が生じることが多い.ハブデータは,データの比較やマージの妨げとなることがあり,データの流動性・再利用性を低下させる.本年度は,ハブデータを情報検索の観点から考察し,結果を国際会議SIGIRで報告した.
|