2007 Fiscal Year Annual Research Report
レポート・小論文に対するWWWページからの剽窃の自動検出に関する研究
Project/Area Number |
19500790
|
Research Institution | Nagaoka University of Technology |
Principal Investigator |
湯川 高志 Nagaoka University of Technology, 工学部, 准教授 (70345536)
|
Keywords | eラーニング / 模倣検出 / 模倣レポート / 模倣小論文 / 文章剽窃 / テキスト処理 / 教育工学 / 人工知能 |
Research Abstract |
ワードプロセッサの普及により,授業や実験において課されたレポートや小論文が電子的に作成されることが多くなって来ており,他者のレポートの記述の剽窃が大きな問題となっていた.特にレポートがWorld Wide Web(WWW)上のページから剽窃されている場合には,レポート間の模倣度合いの同定に加えて,剽窃の元となったWWWページを如何に見つけ出すかも課題であった.本研究においては, 1)剽窃をチェックする対象であるレポートや小論文からWWWページを検索するためのクエリを生成する手法 2)全文検索サービスにより検索されたページから,剽窃元である可能性の高いページを選択する手法 3)WWWページの特性を考慮した文書間剽窃度合い計算手法 4)代表研究者が既に開発済みのレポート間剽窃検出システムに上記技術を統合した,総合的剽窃検出システムの構成手法 をそれぞれ確立することを目指し,今年度は1〜3に対し手法を考案し,その検出性能を評価した. クエリ生成には,剽窃チェック対象のレポートの主題に関連するキーワードを,語の出現頻度と出現パターンの両面から抽出する手法と,これらキーワードを含む論理式を生成する手法を考案した.生成された全文検索システムの問合せとして入力し,検索結果の上位100位までの文書群を剽窃元文書候補とした.これら文書群と検査対象文書との剽窃度合を計算するために,TF×IDFによる文間類似度とsmith-watermannアルゴリズムによる類似連鎖検出を複合した手法を考案した.実際に文を剽窃した文書を作成し評価したところ,約50%の精度が得られた.精度の向上が今後の課題である.
|
Research Products
(3 results)