研究課題/領域番号 |
21K02646
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分09050:高等教育学関連
|
研究機関 | 国立情報学研究所 |
研究代表者 |
中渡瀬 秀一 国立情報学研究所, 情報社会相関研究系, 特任研究員 (90599896)
|
研究期間 (年度) |
2021-04-01 – 2025-03-31
|
研究課題ステータス |
交付 (2023年度)
|
配分額 *注記 |
3,640千円 (直接経費: 2,800千円、間接経費: 840千円)
2023年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
2022年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円)
2021年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円)
|
キーワード | 研究書 / ヒューマニティーズ / 学術評価 / 研究領域 / 研究動態 / 学術分野 / テキスト生成AI / モニターリング / 人文学 / 人社系 / 研究評価 / 学術動態 / インデクス / 生成系AI / 学術書籍 / 学術分析 / 分析基盤 / 研究分野 / 研究図書 / 指標 / メトリクス / 学術 / 研究成果分析 / 学術書 / 書誌情報 / 学術計量 |
研究開始時の研究の概要 |
本研究は,人文系分野等の研究成果特性に基づいた成果分析を可能とする分析基盤の構築を目的とする. 本研究では,成果発表形態において理工系研究分野とは異なる人文系分野等に着目し,助成金報告書や公開著作目録の横断分析によりその特性を明らかにする.さらに研究では同特性に適合した分析のための情報源,及びそれらの分析機能を有する基盤の構築を行う. 計画項目は,①人文・社会科学系の研究分野における成果形態の解明,②分析用情報源の構築,③成果分析機能の構築である.
|
研究実績の概要 |
学術における成果発表の形態は各研究分野によって異なるため、研究成果の分析もその形態を反映して行う必要がある。本研究は、特に理工系分野とは異なる人文系分野等の発表形態の特性に適合した成果分析を可能とする分析基盤の構築を目的としている。この目的に沿って、本年度は対象とする人文系等の個別分野に関する資料を収集しデータ化するための調査研究を以下の通り進めた。 情報源から取得した電子データの本文を解析することでその情報を構造化するという課題に対して、汎用的な解析能力を持つ生成AI(2022年11月リリース)が与える影響を明らかにする必要があり調査を進めた。その中で、人文学に属する史学等の論文データを用いた本文からの情報抽出実験を行った。その結果、以下の点が明らかになっている。 第一に、生成AIによる情報の認識や抽出は従来のMLやパタン処理に比べて、入力データの書式に対して頑健である。論文の書式(縦書/横書・段組・引用形式)には雑誌による差異があるにもかかわらず、生成AIによる処理では差異に応じた少量の指示(または無指示)であっても情報の抽出が可能であった。一方、MLやパタン処理の場合、想定外の書式に対する抽出は機能しないため、システム化には周到な事前準備が必要である。また、その維持のために書式の変化を継続的に監視し、処理を更新することも必要である。 第二に、未知の雑誌固有の記法を認識して自動的に変換することが可能である。そのような記法の例として、繰り返し記号(連続して現れる同一記述を代用する記号)がある。生成AIの処理で繰り返し記号が抽出された場合には、その記号を元の内容に置換することが可能であった。これらの結果については学会で発表を行った。 このように生成AIの利用が本研究におけるデータ処理の性能を向上させるため、当初の設計を変更してツールの作成を進めている
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本年度計画の中心は、これまでの調査によって特定された個別研究分野の資料を収集し、解析するツールを内製および委託によって開発することであった。 当初、これらはMLとパタン処理を用いた枠組みで設計されていたが、本年度の研究成果を基に処理性能の向上が見込まれるテキスト生成AIを用いる方式に刷新する。このため、研究計画を再編し延長している。
|
今後の研究の推進方策 |
令和6年度は、まず前年の調査・実験によって有効性が確認されたテキスト生成AIによる処理を導入し、システムの枠組みを刷新する。 次に、収集した情報を分析に適した情報源として構築するための基礎データの構造やその整備方法を検討する。 またデータの構造化に使用する生成AIを分析の工程にも利用できるか検討する予定である。以上による研究の成果は、学会発表や論文化によって順次公表していく。
|