2022 Fiscal Year Research-status Report
習熟度推定モデルに基づくデジタル人材育成支援システムの開発
Project/Area Number |
22K12309
|
Research Institution | Ibaraki University |
Principal Investigator |
山本 一幸 茨城大学, 情報戦略機構, 准教授 (60826288)
|
Project Period (FY) |
2022-04-01 – 2025-03-31
|
Keywords | 機械学習 / テキストマイニング / 情報リテラシー / 学習支援システム |
Outline of Annual Research Achievements |
本研究課題は、組織に特化したデータを学習データとした機械学習によるテキストマイニングを行い、特徴量を抽出し情報リテラシーに関する学習の習熟度を推定するモデルを開発することである。本研究課題の特徴として、組織に特化したデータとして、レポートや試験等の直接的なデータではなく、問い合わせ対応のデータ等の間接かつ時系列データから習熟度を推定することである。ここで問題となるのが一般的な機械学習の学習データと比べて組織に特化したデータは、データ量が少ない傾向にある。そのため開発したモデルの精度を高めるためには、学習データのクリーニングを適切に行い習熟度を推定するモデルからノイズを除去する必要があると考えられる。 本研究課題では、メールでの問い合わせデータを主な学習データとすることから挨拶文や署名、引用返信等の情報は、情報リテラシーに関する学習の習熟度推定に直接的に影響しないデータノイズである。またメールデータは、文書の構造が問い合わせフォーム等と異なり質問者に依存しているため簡単にデータノイズをプログラムよる自動処理でクリーニングすることが難しい。 2022年度は、習熟度推定のモデル開発を行うためにデータノイズを除去した学習データを生成する機械学習を用いたクリーニングモデルを開発した。一般に機械学習で使われている学習データでは、メールデータ内の要・不要データを分類することができないため、本モデルに最適化した学習データを作成した。作成した学習データを使ってクリーニングモデルを作成し、情報リテラシー学習の習熟度推定モデル作成のためのデータセットをデータノイズの定義方法の違いにより複数作成した。情報リテラシー習熟度推定モデルを開発する前に、これらのデータセットを使って習熟度推定モデルのモデル空間について評価が必要となる。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
2022年度の当初計画では情報リテラシー学習の習熟度を推定するモデル構築のための複数のデータセットを作成し、作成した各データセットを用いて先行研究で開発した機械学習でメールデータから特徴量を抽出するモデルを作成し、モデル空間を評価することを計画していた。 そこで習熟度推定モデル構築に使用するデータセットを生成するために、主に習熟度推定に不要と思われるデータをデータセットの作成時にクリーニングする手法の開発を行い実装した。開発した手法を用いてデータセットを作成し先行研究で開発した機械学習によるメールデータの特徴量抽出手法によりモデルを作成しデータ精度の検証を行った。その結果、メールデータは問い合わせフォームのデータと異なり送信者に依存したデータ構造となっておりクリーニング精度にデータ構造の影響が想定外に大きいことが判明した。本年度は機械学習の分類モデルを用いて不要データの推定を実施する手法を開発したが、クリーニング精度向上が必要となり現在までに改良が完了していない。 これらの状況からやや遅れていると判断した。
|
Strategy for Future Research Activity |
本研究課題の学習支援システムを構築する上で核となるデータセットを作成するための方法として当初想定していた機械学習の分類モデルを用いた手法だけでは不十分であることが判明した。そのため、機械学習の分類モデルと分類されたデータの特徴量抽出を組み合わせた手法の開発の検討を進めている。 2023年度は改良した手法を用いてデータセットを作成し、データノイズが生成されたモデルに与える影響の評価を実施する。また、改良された手法で作成したデータセットを用いて、当初計画のとおり時系列データのカテゴリ分け手法の開発と評価、各カテゴリの特徴量の抽出手法の開発と評価を進める。
|