| 研究課題/領域番号 |
22K17957
|
| 研究種目 |
若手研究
|
| 配分区分 | 基金 |
| 審査区分 |
小区分61030:知能情報学関連
|
| 研究機関 | 国立研究開発法人理化学研究所 |
研究代表者 |
寺西 裕紀 国立研究開発法人理化学研究所, 革新知能統合研究センター, 特別研究員 (50899408)
|
| 研究期間 (年度) |
2022-04-01 – 2025-03-31
|
| 研究課題ステータス |
完了 (2024年度)
|
| 配分額 *注記 |
3,380千円 (直接経費: 2,600千円、間接経費: 780千円)
2024年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円)
2023年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円)
2022年度: 780千円 (直接経費: 600千円、間接経費: 180千円)
|
| キーワード | 構文解析 / 依存構造解析 / 並列構造解析 / 談話構造解析 / 複合語解析 / 文書表現学習 / 文書エンコーディング / 文脈拡張 / 文書検索 / 文脈解析 / 文書エンコーダ / 大規模言語モデル / 自然言語処理 / 依存構造 / 並列構造 / 複文構造 |
| 研究開始時の研究の概要 |
文の構造解析の基盤技術は、単語と単語の間の係り受け関係(依存関係)を明らかにすることであるが、既存技術は近接して現れる単語間の依存関係しか高精度に解析できていない。科学技術論文などの専門的文書には長く複雑な文が頻出し、離れた単語間の依存関係の解析が困難であるため、単語の依存関係に基づくテキストマイニングの性能に影響を及ぼしている。 本研究は、文を長く複雑にする要因となる複文構造や並列構造などの言語現象に着目し、言語現象の性質を利用した単語間の関係解析を試みる。言語現象の構成要素に基づいた解析手法を確立し、長く複雑な文における単語間の依存関係の解析精度向上を目指す。
|
| 研究成果の概要 |
本研究は、長く複雑な文に対する構文解析の精度向上を目的に、談話構造や名詞句に基づくチャンク分割手法、解析順をモデルに学習させる主辞選択アプローチ、事前学習モデルによる並列構造のデータ拡張、文脈を広く捉える文書エンコーディング手法の検証を行った。チャンク分割では句構造の誤認やアノテーションの限界が明らかとなり、解析順の自動獲得では誤りの蓄積や収束の不安定さが課題となった。一方、T5モデルを用いたデータ拡張は低資源下の並列構造解析において効果的であることが示され、文書エンコーディングでは分割・統合型モデルが従来手法と同等以上の性能を達成した。
|
| 研究成果の学術的意義や社会的意義 |
本研究は、従来困難とされてきた長文の構文解析に対し、複数の新規アプローチを総合的に検討し、その限界と可能性を明らかにした点で学術的意義がある。また、事前学習モデルを用いた学習データの生成手法の開発や文書の分割・統合エンコーディング手法の検証については今後の研究への応用も期待される。研究期間を通じて、事前学習モデルの大規模化や生成AIと呼ばれる汎用的なLLMの進展の影響を受け、構文解析の意義や設計について再評価する契機となり、本研究はLLMの推論・思考を補強・拡張するといった構文解析の新たな展開の可能性につながる知見となった。
|