• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

Word文書のXML解析と機械学習を用いた授業課題レポート作成者の識別

研究課題

研究課題/領域番号 23K02723
研究種目

基盤研究(C)

配分区分基金
応募区分一般
審査区分 小区分09070:教育工学関連
研究機関大阪産業大学

研究代表者

大野 麻子  大阪産業大学, 工学部, 准教授 (90550369)

研究期間 (年度) 2023-04-01 – 2026-03-31
研究課題ステータス 交付 (2023年度)
配分額 *注記
4,680千円 (直接経費: 3,600千円、間接経費: 1,080千円)
2025年度: 910千円 (直接経費: 700千円、間接経費: 210千円)
2024年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円)
2023年度: 2,600千円 (直接経費: 2,000千円、間接経費: 600千円)
キーワードWord書式情報 / 盗用発見 / 機械学習 / 授業課題レポート / 作成者認証 / 作成者特徴 / 内容に依らない類似性検出 / 知的学習システム / 作成者識別 / 教育工学
研究開始時の研究の概要

授業課題レポート文書は内容が類似しやすく、既存手法では偶然の一致を盗用と誤検出しやすい。このため、教員は盗用発見ツールで「盗用」と判定されたレポートを目視で確認する必要がある。本研究では、Word文書をXML解析して得た文書構造や装飾に関する表面的な情報を作成者の特徴として機械学習モデルに学習させ、可視化することで教員の確認作業を支援し「誤検出リスクの低減」及び「教員の負担の軽減」を目指す。

研究実績の概要

レポート文書における盗用発見は一般に文書間の内容の類似度に基づき行われる.しかしレポート文書はその性質上内容が類似しやすいため偶然の一致による誤判定リスクが危惧される.
本研究では,レポート文書の内容に依存しない,レイアウトや装飾に関わる表記上の特徴を「作成者特徴」として抽出し,作成者認証を行うことで,「本人が書いたレポートか否か」という情報を教員に定量的に示し,レポート盗用発見における偶然の一致による誤判定を減らすことを目指している.

1年目である本年度はWord .docx文書をXML解析することで得られた書式情報(レイアウトや装飾に関わる設定情報)から29次元の特徴ベクトルを生成し,機械学習を用いて作成者特徴に基づく類似性検出を行う手法を提案した.対象データは実際の授業において13名の学生が6つのテーマに対し作成した78個のレポート文書である.まず,決定木モデルを用いて,78個のレポート文書群から同じ作成者が作成した内容の異なる6つのレポート文書を検出するルールを定量表現した.また,Random Forestを用いた作成者認証の精度を交差検証により検証し,平均精度92%で同一作成者によるレポートを検出可能であることを確認した.さらに,PCA (Principal Component Analysis)やt-SNE (t-distributed Stochastic Neighbor Embedding)を用いた次元削減と可視化の試みを行い,t-SNEによって共通の作成者をもつ異テーマのレポートが2次元マップ上の近い位置にプロットされている例を確認した.
本年度は国際会議にて2件の口頭発表を行い,うち1件について,会議中に得られたフィードバックを元に内容を発展させた論文を学術雑誌に投稿し,採録された.

現在までの達成度 (区分)
現在までの達成度 (区分)

2: おおむね順調に進展している

理由

所属大学の移籍に伴い,3月中旬に前所属先の研究室を撤収する必要があったため,3月に予定していたレポート採点を行う教員の視線情報の計測を次年度に延期し,採録決定済の国際会議口頭発表1件を辞退した.
一方で,年度内に参加した国際会議や,オンラインで実施した研究会等の機会を活用し,レポート採点時に注視する箇所と盗用発見方法について,精力的に聞き取りと意見交換を行った.また,当初予定していなかった方法で本研究の目的達成に寄与するより良い結果を得る示唆が得られた.すなわち,決定木モデルでは個々の作成者の特徴を表現できるが,どの作成者とどの作成者の特徴が類似しているかについては一つ一つのモデルを確認して比較する必要があった.これについて,t-SNEを用いて個々のレポートの作成者特徴の次元削減を行い,2次元マップ上にプロットすることで,類似した特徴を持つ複数のレポートをグルーピングする試みを行い,一部ではあるものの良好な結果を得た.
これらのことより,現状として本研究は概ね順調に進展しているといえる.

今後の研究の推進方策

当初の研究計画の内容を進めると共に,作成者特徴の次元削減および2次元平面へのマッピングについて,引き続き検討を行う.まずはUMAP (Uniform Manifold Approximation and Projection) を適用し,t-SNEの適用で得られた結果との比較を行う.

報告書

(1件)
  • 2023 実施状況報告書
  • 研究成果

    (3件)

すべて 2024 2023

すべて 雑誌論文 (1件) (うち査読あり 1件、 オープンアクセス 1件) 学会発表 (2件) (うち国際学会 2件)

  • [雑誌論文] Dimensionality Reduction and Visualization of Word Formatting Information as Author’s Writing Feature in Class Assignment Reports2024

    • 著者名/発表者名
      Asako Ohno, Yoshihiro Ohata
    • 雑誌名

      革新的コンピューティング・情報・制御に関する速報 - B:応用

      巻: 15 号: 03 ページ: 245

    • DOI

      10.24507/icicelb.15.03.245

    • ISSN
      2185-2766
    • 関連する報告書
      2023 実施状況報告書
    • 査読あり / オープンアクセス
  • [学会発表] Clustering and Visualization of Authors' Feature Using Word Formatting Information to Support Plagiarism Detection in Class Assignment Reports2023

    • 著者名/発表者名
      Asako Ohno
    • 学会等名
      The 15th annual International Conference on Education and New Learning Technologies
    • 関連する報告書
      2023 実施状況報告書
    • 国際学会
  • [学会発表] Dimensionality Reduction and Visualization of Word Formatting Information as Author's Writing Feature in Class Assignment Reports2023

    • 著者名/発表者名
      Asako Ohno, Yoshihiro Ohata
    • 学会等名
      The 17th International Conference on Innovative Computing, Information and Control
    • 関連する報告書
      2023 実施状況報告書
    • 国際学会

URL: 

公開日: 2023-04-13   更新日: 2024-12-25  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi