Project/Area Number |
22K12309
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 62030:Learning support system-related
|
Research Institution | Ibaraki University |
Principal Investigator |
山本 一幸 茨城大学, 情報戦略機構, 准教授 (60826288)
|
Project Period (FY) |
2022-04-01 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥4,160,000 (Direct Cost: ¥3,200,000、Indirect Cost: ¥960,000)
Fiscal Year 2024: ¥650,000 (Direct Cost: ¥500,000、Indirect Cost: ¥150,000)
Fiscal Year 2023: ¥780,000 (Direct Cost: ¥600,000、Indirect Cost: ¥180,000)
Fiscal Year 2022: ¥2,730,000 (Direct Cost: ¥2,100,000、Indirect Cost: ¥630,000)
|
Keywords | 機械学習 / テキストマイニング / 情報リテラシー / 学習支援システム |
Outline of Research at the Start |
2021年頃から人工知能の実社会での活用が実現しつつあり、ビッグデータを用いたAIやデータサイエンスによる社会的課題の解決が推進されている。しかし、日本ではデータリテラシーを含む基礎的な能力を持つ人材を社会に送り出せていない。本研究では、数理・データサイエンス教育の基盤である情報リテラシーの習熟度を客観的数値で推定するモデルを開発し、習熟度推定モデルに基づくデータ駆動型社会に対応できる人材育成のための人材育成支援システムを構築する。具体的には、システム利用者からの問い合わせ時系列データから機械学習を用いて文書ベクトル、クラスタリング、特徴量抽出等を組み合わせた習熟度推定モデルを開発する。
|
Outline of Annual Research Achievements |
本研究課題は、組織に特化したデータを学習データとした機械学習によるテキストマイニングを行い、特徴量を抽出し情報リテラシーに関する学習の習熟度を推定するモデルを開発することである。本研究課題の特徴として、組織に特化したデータとして、レポートや試験等の直接的なデータではなく、問い合わせ対応のデータ等の間接かつ時系列データから習熟度を推定することである。ここで問題となるのが一般的な機械学習の学習データと比べて組織に特化したデータは、データ量が少ない傾向にある。そのため開発したモデルの精度を高めるためには、学習データのクリーニングを適切に行い、習熟度を推定するモデルからノイズを除去する必要があると考えている。 2023年度は、2022年度で評価できていなかった時系列問い合わせデータによるモデル空間の検討を引き続きおこなった。また、問い合わせデータのカテゴリ分け手法の開発および、カテゴリごとの特徴量の抽出手法を開発した。データのカテゴリ分けには、経験的にメールの文面は、内容ごとにブロックになっていることが多いことが分かっている。ブロックごとに文書ベクトルを作成し、文書ベクトルをクラスタリングするように手法を開発している。特徴量の抽出は、クラスタライズされたデータから各々のブロックデータ内の単語の重要度をTF-IDFにより数値化し特徴量を抽出する仕組みを実装した。今後、開発したモデルについてデータセットごとに評価する必要がある。 また、学習データのデータノイズの除去した学習データを生成するクリーニングモデルについては、前年度に引き続き精度の向上に取り組んでいる。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
2023年度の研究計画では、問い合わせのカテゴリ分け手法の開発し、2022年度に作成したデータセットにより評価すること、およびカテゴリごとの特徴量の抽出手法の開発と2022年度データセットによる評価を計画していた。 2022年度で作成したデータセットを使って、時系列問い合わせデータのモデル空間の生成に取り組んだ。また、並行してモデル空間を使って、データセット内の各問い合わせのカテゴリ分け手法の開発およびカテゴリ分けされた問い合わせデータの特徴量の抽出手法の開発をおこなった。モデル生成では、GPUを使って高速に問い合わせデータの文書ベクトル化を行っているが、このコンピュータが故障したため、モデル生成が遅れている。 そのため、新しく開発したカテゴリ分け手法と特徴量抽出手法の評価ができていない。 これらの状況からやや遅れていると判断した。
|
Strategy for Future Research Activity |
本研究課題の核となる時系列問い合わせデータから開発したカテゴリ分け手法で得られたカテゴリとその特徴量を抽出する手法に対して評価が完了していない。これらの開発した手法に対して評価を完了させ、習熟度推定の精度を検証する必要がある。 2024年度は、開発した各手法の評価と、これまで開発したモデル、手法を組み合わせて情報リテラシー科目の習熟度推定を行うシステムの構築を進める。習熟度推定システムの精度の検証も行い、習熟度推定システムにおいて、学生が習熟できていないと推定されるトピックを表示する人材育成支援システムの構築を行う。
|