「教育的価値」の高い日本語コーパスの構築による小規模言語モデルの研究

研究課題

研究課題/領域番号	25H01137
研究種目	基盤研究(A)
配分区分	補助金
応募区分	一般
審査区分	中区分61:人間情報学およびその関連分野
研究機関	東京科学大学
研究代表者	岡崎直観東京科学大学, 情報理工学院, 教授 (50601118)
研究分担者	Ma Youmi 東京科学大学, 情報理工学院, 助教 (31007123)
研究期間 (年度)	2025-04-01 – 2028-03-31
研究課題ステータス	交付 (2025年度)
配分額 *注記	47,190千円 (直接経費: 36,300千円、間接経費: 10,890千円) 2025年度: 23,920千円 (直接経費: 18,400千円、間接経費: 5,520千円)
キーワード	大規模言語モデル / 基盤モデル / 小規模言語モデル / コーパス
研究開始時の研究の概要	大規模言語モデル (LLM)、およびそれを小型化した小規模言語モデル (SLM) の性能は、モデルのアーキテクチャや学習方法よりも、学習データの品質に左右される。本研究ではLLMにとって教育的価値の高い（＝能力を高めやすい）学習コーパスの特質を分析し、その知見に基づいて学習コーパスを構築する。また、そのコーパスを用いてSLMを学習し、モデルを公開することで、幅広い学術研究、科学技術あるいは産業応用での活用を目指す。

報告書

(1件)