学術研究でのサーベイ活動等において,急激に増加する学術論文に対する見落としの少ない,つまり,再現率の高い検索技術が求められる.本研究では,複数の指標に基づく学術論文間の類似性を利用し,再現率の高い学術論文検索システムを開発した.
平成29年度は「学術論文検索システムの実装と検証」を行った.検索システムのエンジン部分の開発に注力し,検証を行った.平成28年度までの研究成果により,学術論文間類似度の指標として,従来の指標に加え,学術論文本文に対する統計的解析により得られる語のベクトル表現を用いるべきであるという結論を得た.平成29年度は,これを用いて曖昧なパターン照合を高速に行う手法を開発した.また,この手法を実装し,剽窃検知としての効果の検証を行った.ここで,剽窃は単純なパターンの類似として定式化されているが,学術論文の局所的な類似に一般化できる.この手法は,単純な語の検索に語の出現の順序を加えたパターン検出において,同時に,語のベクトル表現により表現される語の意味を考慮することができる.
本研究の成果として,語の出現に加えて語の意味を考慮した,学術論文間の類似パターンを高速に検出するシステムを得た.この語の意味を表現するベクトル表現は,大量の文書データから機械学習的な解析によって得られ,応用先に応じて作成される.また,副次的な成果として,語のベクトル表現をランダムに決定することによって,単純なパターンの一致の網羅的な検出が,小さな領域によって実行可能であることが分かった.
|