2015 年度実績報告書

知識の再利用性向上に向けた文書の箇条書き化

研究課題

研究課題/領域番号	24500193
研究機関	国立遺伝学研究所
研究代表者	原一夫国立遺伝学研究所, 生命情報研究センター, 特任研究員 (30467691)
研究期間 (年度)	2012-04-01 – 2016-03-31
キーワード	単純文化 / 脱文脈化 / 構文解析 / 意味解析
研究実績の概要	テキストを単純文に変換する手順を，意味的圧縮を展開するステップ（脱文脈化）と，構文的圧縮を展開するステップ（単文化）とに分け，本年度は後者を重点的に行った．特に，等位接続詞により並列される句の範囲をコンピュータで自動同定するのは困難なことが知られているが，その精度を向上させるために，並列構造解析（Hara et al., ACL-IJCNLP 2009）と依存構造解析との融合を試みた．その成果の一部を国際会議IWPTで報告した．他方，単純文の比較やマージを目的として，単語の類似度計算に使用したデータセットをはじめ，大規模なデータセットには，他の多くのデータと類似度が高いデータ（ハブデータ）が生じることが多い．ハブデータは，データの比較やマージの妨げとなることがあり，データの流動性・再利用性を低下させる．本年度は，ハブデータを情報検索の観点から考察し，結果を国際会議SIGIRで報告した．

(2件)