2016 年度実施状況報告書

記述特徴に基づいた授業レポート用の盗用発見への深層学習の適用

研究課題

研究課題/領域番号	16K00476
研究機関	神戸大学
研究代表者	村尾元神戸大学, 国際文化学研究科, 教授 (70273761)
研究期間 (年度)	2016-04-01 – 2019-03-31
キーワード	盗用発見 / 深層学習 / 教育支援
研究実績の概要	本研究の目的は，授業のレポート課題に適した盗用発見システムの構築である。本研究における中心的な課題は，単一もしくは限定されたテーマに基づいて書かれた比較的短い自然言語の文章から盗用の可能性を推定する手法の開発である。このために，句読点や空白，改行との使用法や，さらには助詞や助動詞の選び方など，内容ではなく，「表面上の特徴」を抽出，これを比較することで盗用の発見を試みる。本研究では，「表面上の特徴」の抽出のために，深層学習を利用する。この際，抽出可能な特徴と密接に関係があるため，深層学習の構造決定は非常に重要である。そこで，本年度は，Wikipediaやインターネット上の著名な解説サイトから収集した文章や，これまでの研究でも利用してきた課題レポートを対象とした実験を行い，深層学習の構造について検討を行った。具体的には，作者が明らかなこれらの文章から，句読点や空白，改行，助詞，助動詞といった「表面上の特徴」以外の形態素を，対応する品詞名で置き換える。これを入力データとし，作者を教師データとして深層学習を行う。すなわち，入力された文章に対して，その文章の作者を出力するようなニューラルネットワークを得る。様々なニューラルネットワークの構造に対して，同様の実験を繰り返し行い，本研究の目的に利用できるようなニューラルネットワークの構造を決定した。実験では，入力層におけるWord2Vecネットワークは固定として，LSTMネットワークの層の数とそれに接続する順方向ネットワークの層の数と中間層ニューロンの数を変更した。実験の結果，一層のWord2Vecネットワークに二層のLSTMネットワーク，三層の順方向ネットワークを結合したネットワークを採用することとした。このとき，実験に用いた文章に対する，作者判別の精度は78%であった。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由本年度の目標は，「表面上の特徴」を用いて盗用発見を行うために，(1)基本的な文章の処理方法および(2)深層学習ニューラルネットワークの構造について検討することであった。いずれも検討を進めており，研究そのものは順調に進捗していると言える。ただし，研究成果の発表については，現在準備中ではあるものの，年度内に行うことができなかった。
今後の研究の推進方策	インターネット上の文章や従来の研究で収集したレポート課題を用いた実験では，作者の判別精度は78%であった。この精度は，盗用の可能性を示すことはできるが，盗用発見を目的として単体で利用するには，十分とは言えない。従って，深層学習ニューラルネットワークの構造の更なる調整や，HMM（隠れマルコフモデル）などこれまでの研究成果の利用なども検討する。また，内容や構造に基づく盗用発見手法と組み合わせることでさらに精度を上げることが可能と考えられる。その後，構成した深層学習ニューラルネットワークを中心に，盗用発見システムのプロトタイプ構築を行う。これを用いて，より実際的な実験を行い，手法や運用法の検討を行う。

研究成果
(1件)

すべて雑誌論文 (1件) (うち査読あり 1件)

[雑誌論文] Brain-computer interface (bci) based learning support system providing the feedback on learner's emotions and its effect2016
- 著者名/発表者名
  Fan Zhang and Hajime Murao
- 雑誌名
  
  ICIC Express Letters
  
  巻: 10(2) ページ: 331-338
- 査読あり