2018 Fiscal Year Annual Research Report
An Application of Deep Learning to detect Plagiarisms in Assigned Reports based on the Style Model
Project/Area Number |
16K00476
|
Research Institution | Kobe University |
Principal Investigator |
村尾 元 神戸大学, 国際文化学研究科, 教授 (70273761)
|
Project Period (FY) |
2016-04-01 – 2019-03-31
|
Keywords | 盗用発見 / 自然言語処理 / 深層学習 / 表面的特徴 |
Outline of Annual Research Achievements |
本研究の目的は,授業のレポート課題に適した盗用発見システムの構築である。このために,内容ではなく,句読点や空白,改行の使用法や,助詞や助動詞の選び方などの「表面上の特徴」を比較することで盗用の発見を試みる。本研究では「表面上の特徴」からその作者を推定するために深層学習を利用する。前年度までに,アップロードされたテキストファイルから「表面上の特徴」を抽出し,さらに,深層学習を用いて、抽出された「表面上の特徴」から作者を推定するWebシステムのプロトタイプを作成した。 本年度は,これを用いて,授業で提出されたレポートを用いて著者推定の実験を行った。 実験のために,小規模な授業において,著者が明らかなレポートを収集した。授業は参加者7名のセミナー形式の授業で,期間中に4回のレポート課題を課した。未提出者がいたため,合計25部のレポートが収集できた。いずれも1,000字から2,000字程度のレポートであった。レポートの数の少なさを補うために,各レポートを1文ごとに分割し,著者ラベルと合わせて学習データとすることで,1著者あたり500件程度の学習データを準備した。これをWebシステムにアップロードすると,Webシステムは文から「表面上の特徴」を抽出し,これを深層学習に入力,推定された著者ラベルを出力すると同時に,学習データに含まれる著者ラベルを教師として学習する。 実験の結果,まずは,作成したWebシステムが期待通りに動作することを確認した。その際,収集したレポート,すなわち学習済みの文に対して60%弱の正答率が得られ,未学習の入力については40%弱の正答率しか得られなかった。全体としては実用的な精度が得られたとは言えないが,学習データの増加に対して,精度が単調に増加する様子が見られ,より多くのレポートを用いて学習させることで実用的な精度まで上げられると期待できる。
|
Research Products
(1 results)