本研究の目的は,大規模な文書データに対する効率的な剽窃検知手法を開発することであった.大量の文書に対して文書間の類似を高速に計算するには,長い計算時間か大きなサイズの検索構造が必要になるという問題点に対し,本研究では画像のフィルタ手法のアイデアを適用することで剽窃検知用データのサイズを削減した.特に,語の近さを表すベクトル表現を用いることによって,字面の単純な一致に基づく剽窃だけでなく,語間の類似を考慮した剽窃の検知について効率化を実現した.具体的に,本研究では語の出現順に加え語間の類似を考慮した剽窃検知についての画像的処理によるデータ削減効果を明らかにした.語の意味を表すベクトル表現によって,文書はベクトルの列として扱うことができる.ここで周波数成分について特定の領域のみを用いることにより,剽窃検知精度,計算時間,および剽窃検知用データのサイズの間の効率的なトレードオフが得られた.本研究の初年度および次年度には,これらの成果を学術論文として発表し,発展的なアイデアについては特許出願を行った.最終年度には,これのアイデアに基づき,具体的なシステムの実装を行った.提案手法によって実現される文書間類似箇所の検知を,岡山大学の機関リポジトリ内の文書や各部署が持つ研究関連書類に適用し,研究者や研究シーズの検索機能として実装した.この検索エンジンを用いた実運用に耐えるシステムは「研究者マッチングシステム」として岡山大学に導入した.
|