研究課題/領域番号 |
21K02759
|
研究機関 | 関西学院大学 |
研究代表者 |
武田 俊之 関西学院大学, 高等教育推進センター, 教育技術主事 (70227031)
|
研究期間 (年度) |
2021-04-01 – 2024-03-31
|
キーワード | 教育理論データベース / 専門用語抽出 |
研究実績の概要 |
本研究は、増大する教育データを教育改善につなげるための、教育理論の関連や差異を可視化する理論横断的な共通知識基盤構築として有用性の高い確率的言語モデルを開発、評価、探求することが目的である。本年度は以下の研究をおこなった。 1.日本語論文からの用語(概念、変数)抽出手法の開発をおこなった。モデル開発に必要なデータソースとして、CiNii、J-Stage、KAKENの各データベースのAPIを用いて、タイトル、キーワード、アブストラクト、その他メタデータ、PDF等本文の収集をおこなった。現在約20,000件のデータを収集済みである。これらの情報からキーワードを抽出して、同義語や表記ゆれの名寄せするための手法を開発、日本語形態素解析器SudachiPy用の辞書を作成した。論文PDFから本文テキスト、図、表を切り出し、概念語や変数名を抽出するプログラムを開発した。まだ(特に古い論文の処理において)精度は不足しているが、実用化の方向性の確認はできた。 2.タグ付きコーパスの作成について、収集したデータの整理をおこない、データ加工の方法の開発をおこなった。 3.用語とその関連情報を用いた確率的言語モデルの作成のために、単語の頻度、専門用語抽出手法、用語の共起ネットワーク視覚化、トピックモデル、word2vec、BERT等Transformer系のデータ処理技術などについて、本研究のデータに合わせた処理方法の実装に着手した。本研究の成果は広範囲な研究者をターゲットとしており、一つの手法で完結させるのではなく、複数の方法を同時に適用させることが望ましいと考えられる。 4.本研究の目的に関連して、エビデンスに基づく教育、教育個人データに関する情報の収集をおこない、理論、概念の整理をおこない、学会報告をおこなった。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
研究計画の進捗はおおむね順調である。 しかし、コロナ禍のために、学会における情報収集が予定通りではなく、また、アルバイト等によるデータ処理補助業務ができなかったため、検証が不完全である。 研究の内容としては、言語処理、画像処理等本研究に関連した研究(方法、ツール等)の変化が激しく、またデータの入手の方法や規約の変更などがあり、小さい軌道修正は多数あるが、目標達成においては総合的に順調である。
|
今後の研究の推進方策 |
研究計画通りに研究を進める。2021年度にできなかった補助者によるデータの検証等の作業等を追加で進める。 研究の内容としては、言語処理の手法の進展がきわめて速い中で、最新手法をどこまで取り入れることができるかを見極める必要がある。 また、本研究の成果は教育データ利用やラーニング・アナリティクスへの期待の高まりに関連が強くある。研究の経過について、機動的な情報発信を検討する。
|
次年度使用額が生じた理由 |
コロナ関連のために、学会報告(特に国際学会)の機会が少なかったことおよび、データ処理等の作業をおこなうことができなかった。2022年度は学会報告、データ処理作業にこれらの助成金を使用する。
|