研究概要 |
ワードプロセッサの普及により,授業や実験において課されたレポートや小論文が電子的に作成されることが多くなって来ており,他者のレポートの記述の剽窃が大きな問題となっていた.特にレポートがWorld Wide Web(WWW)上のページから剽窃されている場合には,レポート間の模倣度合いの同定に加えて,剽窃の元となったWWWページを如何に見つけ出すかも課題であった.本研究においては, 1)剽窃をチェックする対象であるレポートや小論文からWWWページを検索するためのクエリを生成する手法 2)全文検索サービスにより検索されたページから,剽窃元である可能性の高いページを選択する手法 3)WWWページの特性を考慮した文書間剽窃度合い計算手法 4)代表研究者が既に開発済みのレポート間剽窃検出システムに上記技術を統合した,総合的剽窃検出システムの構成手法 をそれぞれ確立することを目指し,今年度は1〜3に対し手法を考案し,その検出性能を評価した. クエリ生成には,剽窃チェック対象のレポートの主題に関連するキーワードを,語の出現頻度と出現パターンの両面から抽出する手法と,これらキーワードを含む論理式を生成する手法を考案した.生成された全文検索システムの問合せとして入力し,検索結果の上位100位までの文書群を剽窃元文書候補とした.これら文書群と検査対象文書との剽窃度合を計算するために,TF×IDFによる文間類似度とsmith-watermannアルゴリズムによる類似連鎖検出を複合した手法を考案した.実際に文を剽窃した文書を作成し評価したところ,約50%の精度が得られた.精度の向上が今後の課題である.
|