研究課題/領域番号 |
21K02646
|
研究機関 | 国立情報学研究所 |
研究代表者 |
中渡瀬 秀一 国立情報学研究所, 情報社会相関研究系, 特任研究員 (90599896)
|
研究期間 (年度) |
2021-04-01 – 2025-03-31
|
キーワード | 研究書 / ヒューマニティーズ / 学術評価 / 研究領域 / 研究動態 / 学術分野 / テキスト生成AI / モニターリング |
研究実績の概要 |
学術における成果発表の形態は各研究分野によって異なるため、研究成果の分析もその形態を反映して行う必要がある。本研究は、特に理工系分野とは異なる人文系分野等の発表形態の特性に適合した成果分析を可能とする分析基盤の構築を目的としている。この目的に沿って、本年度は対象とする人文系等の個別分野に関する資料を収集しデータ化するための調査研究を以下の通り進めた。 情報源から取得した電子データの本文を解析することでその情報を構造化するという課題に対して、汎用的な解析能力を持つ生成AI(2022年11月リリース)が与える影響を明らかにする必要があり調査を進めた。その中で、人文学に属する史学等の論文データを用いた本文からの情報抽出実験を行った。その結果、以下の点が明らかになっている。 第一に、生成AIによる情報の認識や抽出は従来のMLやパタン処理に比べて、入力データの書式に対して頑健である。論文の書式(縦書/横書・段組・引用形式)には雑誌による差異があるにもかかわらず、生成AIによる処理では差異に応じた少量の指示(または無指示)であっても情報の抽出が可能であった。一方、MLやパタン処理の場合、想定外の書式に対する抽出は機能しないため、システム化には周到な事前準備が必要である。また、その維持のために書式の変化を継続的に監視し、処理を更新することも必要である。 第二に、未知の雑誌固有の記法を認識して自動的に変換することが可能である。そのような記法の例として、繰り返し記号(連続して現れる同一記述を代用する記号)がある。生成AIの処理で繰り返し記号が抽出された場合には、その記号を元の内容に置換することが可能であった。これらの結果については学会で発表を行った。 このように生成AIの利用が本研究におけるデータ処理の性能を向上させるため、当初の設計を変更してツールの作成を進めている
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本年度計画の中心は、これまでの調査によって特定された個別研究分野の資料を収集し、解析するツールを内製および委託によって開発することであった。 当初、これらはMLとパタン処理を用いた枠組みで設計されていたが、本年度の研究成果を基に処理性能の向上が見込まれるテキスト生成AIを用いる方式に刷新する。このため、研究計画を再編し延長している。
|
今後の研究の推進方策 |
令和6年度は、まず前年の調査・実験によって有効性が確認されたテキスト生成AIによる処理を導入し、システムの枠組みを刷新する。 次に、収集した情報を分析に適した情報源として構築するための基礎データの構造やその整備方法を検討する。 またデータの構造化に使用する生成AIを分析の工程にも利用できるか検討する予定である。以上による研究の成果は、学会発表や論文化によって順次公表していく。
|
次年度使用額が生じた理由 |
(理由)前年度は、指定された研究分野の詳細な成果情報を収集し解析するためのツール群の試作を内製および委託によって進めた。一方、2022年度後半に公開された実用的なテキスト生成AIは、本ツールの処理性能を向上させると見込まれたため、その効果を検証した。その結果、従来の処理方法と比較して優位性が確認された。これに伴い、データ処理の枠組みを生成系AIによる処理で刷新するために計画を延長した。以上により次年度使用が生じる。 (使用計画)繰越分は再設計や実装のための委託費等に充当する。
|