2022 年度実施状況報告書

自動推論プロセスの分析による人にとっての数学問題困難度の予測

研究課題

研究課題/領域番号	22K19800
研究機関	東京理科大学
研究代表者	松崎拓也東京理科大学, 理学部第一部応用数学科, 教授 (40463872)
研究期間 (年度)	2022-06-30 – 2025-03-31
キーワード	数学問題の難易度 / 自動演繹 / 数式処理 / テキスト解析
研究実績の概要	既存の数学問題を大量に学習データとして使用するために，数学テキストの言語解析に関する基礎処理について研究を行った．特に，（１）過去の大学入試数学問題テキストを用いて分野適応を行ったニューラル言語モデルを基に高精度なテキスト解析を行う技術，および（２）数学テキスト中の数式のタイプを正確に予測するために，ニューラル言語モデルを用いた統計的予測と型理論に基づく形式的手法を組み合わせる技術の研究開発を進めた．（１）に関しては，ニューラル言語モデルの分野適応のみによって，テキストの構文解析精度が約4ポイント向上することを明らかにした．また，その際の精度向上の大きな要因は，数学問題テキストで頻出する数式を含む並列構造の解析がより正確になることであると示した．また，分野適応の効果は問題テキスト中の数式をニューラル言語モデルへの入力においてどのように表現するかに依存し，数式を表す特殊なトークンで数式全体を置換する方法が最も効果的であることを明らかにした．（２）に関しては，統計的予測と形式的手法を融合した数式タイプ予測のための基盤システムの開発が完了し，高精度化のための改良をおこなっている．さらに，（１）（２）の技術の基礎となるニューラル言語モデルの挙動を理解し，高精度化するための基礎研究として，入力テキスト中のトークン位置の分散表現（位置埋め込み）の性質について分析を行い，トークン位置方向の時系列として見た場合の位置埋め込みには周期性が存在し，ニューラル言語モデルは，この周期性を基にトークン位置に基づく推論を行っていることを明らかにした．
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由既存の数学問題およびその難易度のデータを基に，個々の問題の難易度を問題テキストを基に予測するための基礎技術の研究を着実に進めた
今後の研究の推進方策	これまでに開発した技術を基に，数学問題テキストからその問題内容の表現を自動的に得て，それを入力として問題の難易度を予測する統計モデルの研究開発を進める．また，数式処理および自動演繹の過程を入力とし，問題で求められる「発想」を含めた推論の困難度を定量化する方法について，データに基づく分析を進め，適切な定量化方法を探る．
次年度使用額が生じた理由	大規模なニューラルネットによる予測モデルの訓練には年度内に至らなかったため，予定していたGPUの購入を延期した．今年度中盤にはその時点での性能/コスト比に優れた製品を選定し購入する予定である．