2024 Fiscal Year Research-status Report
テキストデータとの対話を可能にするマイニングシステムと可視化手法
| Project/Area Number |
24K00452
|
| Research Institution | Tokyo Metropolitan University |
Principal Investigator |
椿本 弥生 東京都立大学, 大学教育センター, 准教授 (40508397)
|
| Co-Investigator(Kenkyū-buntansha) |
西出 崇 小樽商科大学, グローカル戦略推進センター, 教授 (30513171)
大石 哲也 九州工業大学, 学習教育センター, 教授 (30552236)
廣川 佐千男 東京都立産業技術大学院大学, 産業技術研究科, 研究員 (40126785)
高松 邦彦 東京科学大学, 企画本部, マネジメント教授 (80392017)
|
| Project Period (FY) |
2024-04-01 – 2029-03-31
|
| Keywords | 自由記述データ / ランダムサンプリング / Bag-of- Wordsモデル / 生成AI / 意味内容の予測 |
| Outline of Annual Research Achievements |
本年度は、申請計画書で掲げたStep 1の予備分析とStep 2の対話的システム開発の初期目標を達成した。まず、卒業時アンケートの自由記述データ(約2,000件)を対象に、Step 1の予備分析を行った。GPA別・年度別に分析した結果、「教員との距離の近さ」や「サークル活動」が満足理由の共通点として抽出され、コロナ禍では経験の減少等により自由記述内の語彙バリエーションが減少する傾向を明らかにした。そのほか、GPA低~中群では「単位取得」「友人関係」、高群では「実習参加」「支援体制」がそれぞれ特徴的要因であることを示した(JSiSE全国大会報告)。 さらに、同様のテキストを用いたランダムサンプリング実験では、Bag-of-Wordsモデルにおけるコサイン類似度を指標に、サンプル抽出率10%で平均0.8以上の高い意味内容代表性を確認した一方、BM25指標では特徴語のばらつきが大きく、少数意見の一般化には注意を要する知見を得た(大学教育学会報告)。 これらの成果は、Step 1の予備分析の目標を達成するとともに、Step 2の対話的システム開発に向けた有力な知見となった。現在は、生成AIのAPIを活用した対話的分析モデルの探索に着手している。さらに今後は、テキストからの抽出語を説明変数とする意味内容予測モデル探索にも着手し、本研究全体の実現性をさらに高める、Step 2の対話的システム開発を進める予定である。
|
| Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究では、申請計画調書に示した4ステップのうち、Step 1「テキストデータの予備分析」とStep 2「対話的システム開発」の初期段階を本年度中に完遂した点が、概ね順調な進展と判断できる理由である。まずStep 1では、卒業時アンケート自由記述約1,946件に対し、基本的な内容分析を実施した。これは申請書で想定した「テキストと他変数との多角的組み合わせによる探索的分析」の要件を満たすものである。次にStep 1の別角度における分析では、卒業年次調査テキスト2,007件を対象としたランダムサンプリング実験では、Bag-of-Wordsモデルによりサンプル抽出率10%で平均0.8以上の意味内容代表性を得て、サンプリング手法の有効性を示した。この分析から得られた知見は、Step 2への重要なものとなった。以上より、Step 1とStep 2に対応する具体的成果をあげることができており、当初計画どおりの時期・範囲で研究目標を達成していることから、「概ね順調に進展している」と評価できる。
|
| Strategy for Future Research Activity |
現在は、Step1をふまえて、Step2として生成AIのAPIを活用した対話的分析モデルの探索に着手している。これは従来の自由記述データで検討を進めるが、異なるタイプの文章(例えば、Web上の口コミデータや、学生のレポートデータなど)においても検討を進める予定である。これらの文章を収集する準備を進めていく必要がある。 さらに今後は、テキストからの抽出語を説明変数とする意味内容予測モデル探索にも着手し、本研究全体の実現性をさらに高める、Step 2の対話的システム開発を進める予定である。
|
| Causes of Carryover |
参加を予定していた学会等がいずれも近場で開催され、旅費の負担が小さかった。また、データの管理等に人件費が必要となる見積もりであったが、いざデータを扱ってみると、外部の人員を割かずとも、研究班のメンバー内で十分に管理できる状況であることが判明したため、人件費がかからなかった。
|