研究課題/領域番号 |
21K02759
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分09070:教育工学関連
|
研究機関 | 関西学院大学 |
研究代表者 |
武田 俊之 関西学院大学, 高等教育推進センター, 教育技術主事 (70227031)
|
研究期間 (年度) |
2021-04-01 – 2025-03-31
|
研究課題ステータス |
交付 (2023年度)
|
配分額 *注記 |
4,030千円 (直接経費: 3,100千円、間接経費: 930千円)
2023年度: 910千円 (直接経費: 700千円、間接経費: 210千円)
2022年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円)
2021年度: 1,820千円 (直接経費: 1,400千円、間接経費: 420千円)
|
キーワード | 教育理論データベース / 専門用語抽出 / 自然言語処理 / 教育研究 |
研究開始時の研究の概要 |
教育理論の共通知識基盤構築として有用性の高い確率的言語モデルを開発、評価、探求するために、論文から抽出した用語(概念および測定変数名)をコーパスとして、トピックモデルやディープラーニングを用いて作成する。モデルの評価は引用関係の指標や研究者による妥当性評価によっておこない、共通知識基盤としての有用性を検証する。
|
研究実績の概要 |
2023年度は以下の研究をおこなった。 ChatGPT等生成AIへの対応。ChatGPT発表以降の生成AIの進歩は研究計画時点では想定できないレベルで速く、クローズドな商用モデル(ChatGPT、Gemini、Claude等)やLLM-jpをはじめとする日本製の言語モデルなどが開発された。また、言語モデル関連の研究(モデルの性質の解明、性能強化等)論文も多数発表された。本研究は教育に関する専門知識を用いたPre-trainedモデルの微調整による言語モデルの開発が目的であるため、これらの技術の進歩の影響について検討が必要であった。それゆえ、言語モデル関連の論文レビュー、高性能な言語モデル(ChatGPT等)の利用実験、新しい技術(embeddingsの利用やRetrieval Arugmented Generationなど)への対応などに時間を費やすこととなった。 コーパスの拡充。オープン・サイエンスのトレンドもあり、利用できるデータが増えていること、また、論文からの知識抽出手法の継続的改善による言語モデルの品質向上に加えて、生成AIのembeddingsを用いたコーパスの検索と多言語対応を自然かつ高性能に実現することができた。 共通知識基盤としての妥当性評価。複数の生成AI(GPT-4、Gemini、Claude3、Swallowなど)によるタスクの実行を組み合わせることによって、論文の検索結果、研究分野や用語、概念語などの推定がおこなえることを確認した。複数の生成AI (GPT-4等最高性能のもの)にくらべて、本研究で構築したBERTを微調整したモデルが十分な性能を有していることが示唆される結果が得られた。 本研究で実施した研究レビュー、情報やデータの収集を通して、教育における生成AIの利用や教材の生成などについて整理した内容の報告をおこなった。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
「研究実績の概要」で述べたように、本研究で利用する自然言語処理の発展が極めて速く、本研究の妥当性を確認するために、新しい技術への対応に多くの時間を費やすことになった。本研究の当初の予定からすると進捗は遅れているが、一方で新しい研究(生成AIによる評価やembeddingsの利用による検索の高度化など)の実施や新規性の高い研究の手がかり、応用の可能性などを見出すことができた。
|
今後の研究の推進方策 |
研究期間最終年度として以下の研究をおこなう。 (1) 言語モデルの評価。23年度の研究を進めて、共通知識基盤としての言語モデルの妥当性評価をおこなう。生成AIによるジャッジを妥当性を持って実施するための方法はまだ議論が分かれるところであり、本研究で可能な範囲で再現性のある評価方法を決定、実施する。 (2) コーパスの充実。多言語の論文をシームレスに利用する可能性が高くなっており、本研究の目的である概念語と論文群からの理論の可視化の実現へ向けてオープンな論文データを収集してコーパス構築をおこなう。 (3) 本研究の成果をまとめた論文を報告する。
|