Word文書のXML解析と機械学習を用いた授業課題レポート作成者の識別
Project/Area Number |
23K02723
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 09070:Educational technology-related
|
Research Institution | Osaka Sangyo University |
Principal Investigator |
大野 麻子 大阪産業大学, 工学部, 准教授 (90550369)
|
Project Period (FY) |
2023-04-01 – 2026-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥4,680,000 (Direct Cost: ¥3,600,000、Indirect Cost: ¥1,080,000)
Fiscal Year 2025: ¥910,000 (Direct Cost: ¥700,000、Indirect Cost: ¥210,000)
Fiscal Year 2024: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
Fiscal Year 2023: ¥2,600,000 (Direct Cost: ¥2,000,000、Indirect Cost: ¥600,000)
|
Keywords | Word書式情報 / 盗用発見 / 機械学習 / 授業課題レポート / 作成者認証 / 作成者特徴 / 内容に依らない類似性検出 / 知的学習システム / 作成者識別 / 教育工学 |
Outline of Research at the Start |
授業課題レポート文書は内容が類似しやすく、既存手法では偶然の一致を盗用と誤検出しやすい。このため、教員は盗用発見ツールで「盗用」と判定されたレポートを目視で確認する必要がある。本研究では、Word文書をXML解析して得た文書構造や装飾に関する表面的な情報を作成者の特徴として機械学習モデルに学習させ、可視化することで教員の確認作業を支援し「誤検出リスクの低減」及び「教員の負担の軽減」を目指す。
|
Outline of Annual Research Achievements |
レポート文書における盗用発見は一般に文書間の内容の類似度に基づき行われる.しかしレポート文書はその性質上内容が類似しやすいため偶然の一致による誤判定リスクが危惧される. 本研究では,レポート文書の内容に依存しない,レイアウトや装飾に関わる表記上の特徴を「作成者特徴」として抽出し,作成者認証を行うことで,「本人が書いたレポートか否か」という情報を教員に定量的に示し,レポート盗用発見における偶然の一致による誤判定を減らすことを目指している.
1年目である本年度はWord .docx文書をXML解析することで得られた書式情報(レイアウトや装飾に関わる設定情報)から29次元の特徴ベクトルを生成し,機械学習を用いて作成者特徴に基づく類似性検出を行う手法を提案した.対象データは実際の授業において13名の学生が6つのテーマに対し作成した78個のレポート文書である.まず,決定木モデルを用いて,78個のレポート文書群から同じ作成者が作成した内容の異なる6つのレポート文書を検出するルールを定量表現した.また,Random Forestを用いた作成者認証の精度を交差検証により検証し,平均精度92%で同一作成者によるレポートを検出可能であることを確認した.さらに,PCA (Principal Component Analysis)やt-SNE (t-distributed Stochastic Neighbor Embedding)を用いた次元削減と可視化の試みを行い,t-SNEによって共通の作成者をもつ異テーマのレポートが2次元マップ上の近い位置にプロットされている例を確認した. 本年度は国際会議にて2件の口頭発表を行い,うち1件について,会議中に得られたフィードバックを元に内容を発展させた論文を学術雑誌に投稿し,採録された.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
所属大学の移籍に伴い,3月中旬に前所属先の研究室を撤収する必要があったため,3月に予定していたレポート採点を行う教員の視線情報の計測を次年度に延期し,採録決定済の国際会議口頭発表1件を辞退した. 一方で,年度内に参加した国際会議や,オンラインで実施した研究会等の機会を活用し,レポート採点時に注視する箇所と盗用発見方法について,精力的に聞き取りと意見交換を行った.また,当初予定していなかった方法で本研究の目的達成に寄与するより良い結果を得る示唆が得られた.すなわち,決定木モデルでは個々の作成者の特徴を表現できるが,どの作成者とどの作成者の特徴が類似しているかについては一つ一つのモデルを確認して比較する必要があった.これについて,t-SNEを用いて個々のレポートの作成者特徴の次元削減を行い,2次元マップ上にプロットすることで,類似した特徴を持つ複数のレポートをグルーピングする試みを行い,一部ではあるものの良好な結果を得た. これらのことより,現状として本研究は概ね順調に進展しているといえる.
|
Strategy for Future Research Activity |
当初の研究計画の内容を進めると共に,作成者特徴の次元削減および2次元平面へのマッピングについて,引き続き検討を行う.まずはUMAP (Uniform Manifold Approximation and Projection) を適用し,t-SNEの適用で得られた結果との比較を行う.
|
Report
(1 results)
Research Products
(3 results)