2015 Fiscal Year Annual Research Report
Project/Area Number |
24500193
|
Research Institution | National Institute of Genetics |
Principal Investigator |
原 一夫 国立遺伝学研究所, 生命情報研究センター, 特任研究員 (30467691)
|
Project Period (FY) |
2012-04-01 – 2016-03-31
|
Keywords | 単純文化 / 脱文脈化 / 構文解析 / 意味解析 |
Outline of Annual Research Achievements |
テキストを単純文に変換する手順を,意味的圧縮を展開するステップ(脱文脈化)と,構文的圧縮を展開するステップ(単文化)とに分け,本年度は後者を重点的に行った.特に,等位接続詞により並列される句の範囲をコンピュータで自動同定するのは困難なことが知られているが,その精度を向上させるために,並列構造解析(Hara et al., ACL-IJCNLP 2009)と依存構造解析との融合を試みた.その成果の一部を国際会議IWPTで報告した. 他方,単純文の比較やマージを目的として,単語の類似度計算に使用したデータセットをはじめ,大規模なデータセットには,他の多くのデータと類似度が高いデータ(ハブデータ)が生じることが多い.ハブデータは,データの比較やマージの妨げとなることがあり,データの流動性・再利用性を低下させる.本年度は,ハブデータを情報検索の観点から考察し,結果を国際会議SIGIRで報告した.
|
Research Products
(2 results)