研究概要 |
電子的に作成されたレポートや小論文において,他者のレポートの記述からの剽窃が大きな問題となっている.特にレポートがWorld Wide Web(WWW)上のページから剽窃されている場合には,レポート間の模倣度合いの同定に加えて,剽窃の元となったWWWページを如何に見つけ出すかも課題である.本研究においては,(1)剽窃をチェックする対象であるレポートや小論文からWWWページを検索するためのクエリを生成する手法,(2)全文検索サービスにより検索されたページから,剽窃元である可能性の高いページを選択する手法,(3)WWWページの特性を考慮した文書間剽窃度合の計算手法,(4)代表研究者が既に開発済みのレポート提出システムに統合した総合的剽窃検出システムの実現手法,の確立を目指した.前年度に実施した(1)〜(3)の研究成果に基づき,今年度は(3)の改良手法を考案するとともに,(4)としてUNIX上に(1)〜(3)の手法を実装してその動作を検証した.クエリ生成手法では,語の出現頻度と出現パターンの特徴量に基づいてクエリ語を選択するが,特徴量パラメータを調整することにより若干の性能向上を得た.次に,(1)〜(3)において考案した手法を,UNIX上で動作するプログラムとして実装し,既開発のレポート提出システムと連動して動作するシステムとして構築し,動作することを確認した.ただし,WWWを検索することにより1通のレポートに対する処理時間が長く,一般公開して利用可能とするのは現システムでは困難を伴う.処理時間の削減が今後の課題として残った.
|