2007 年度実績報告書

レポート・小論文に対するWWWページからの剽窃の自動検出に関する研究

研究課題

研究課題/領域番号	19500790
研究機関	長岡技術科学大学
研究代表者	湯川高志長岡技術科学大学, 工学部, 准教授 (70345536)
キーワード	eラーニング / 模倣検出 / 模倣レポート / 模倣小論文 / 文章剽窃 / テキスト処理 / 教育工学 / 人工知能
研究概要	ワードプロセッサの普及により,授業や実験において課されたレポートや小論文が電子的に作成されることが多くなって来ており,他者のレポートの記述の剽窃が大きな問題となっていた.特にレポートがWorld Wide Web(WWW)上のページから剽窃されている場合には,レポート間の模倣度合いの同定に加えて,剽窃の元となったWWWページを如何に見つけ出すかも課題であった.本研究においては, 1)剽窃をチェックする対象であるレポートや小論文からWWWページを検索するためのクエリを生成する手法 2)全文検索サービスにより検索されたページから,剽窃元である可能性の高いページを選択する手法 3)WWWページの特性を考慮した文書間剽窃度合い計算手法 4)代表研究者が既に開発済みのレポート間剽窃検出システムに上記技術を統合した,総合的剽窃検出システムの構成手法をそれぞれ確立することを目指し,今年度は1〜3に対し手法を考案し,その検出性能を評価した. クエリ生成には,剽窃チェック対象のレポートの主題に関連するキーワードを,語の出現頻度と出現パターンの両面から抽出する手法と,これらキーワードを含む論理式を生成する手法を考案した.生成された全文検索システムの問合せとして入力し,検索結果の上位100位までの文書群を剽窃元文書候補とした.これら文書群と検査対象文書との剽窃度合を計算するために,TF×IDFによる文間類似度とsmith-watermannアルゴリズムによる類似連鎖検出を複合した手法を考案した.実際に文を剽窃した文書を作成し評価したところ,約50%の精度が得られた.精度の向上が今後の課題である.

研究成果
(3件)

すべて 2008 2007

すべて雑誌論文 (2件) (うち査読あり 2件) 学会発表 (1件)

[雑誌論文] eラーニングシステムにおけるリスクマネジメント総合教育に向けたインテリジェント掲示板システム2008
- 著者名/発表者名
  湯川高志
- 雑誌名
  
  電子情報通信学会論文誌 Vol.J91-D No2
  
  ページ: 178-187
- 査読あり
[雑誌論文] e-Learningにおける「つながり感」の導入2008
- 著者名/発表者名
  湯川高志
- 雑誌名
  
  日本教育工学会論文志 31(Suppl.)
  
  ページ: 61-64
- 査読あり
[学会発表] 改変に対して頑健な模倣文検出手法とその評価2007
- 著者名/発表者名
  徐敏
- 学会等名
  電子情報通信学会信越支部大会
- 発表場所
  長野工業高等専門学校
- 年月日
  2007-09-29