科学技術論文における長く複雑な文の構文解析

研究課題

研究課題/領域番号	22K17957
研究種目	若手研究
配分区分	基金
審査区分	小区分61030:知能情報学関連
研究機関	国立研究開発法人理化学研究所
研究代表者	寺西裕紀国立研究開発法人理化学研究所, 革新知能統合研究センター, 特別研究員 (50899408)
研究期間 (年度)	2022-04-01 – 2025-03-31
研究課題ステータス	交付 (2022年度)
配分額 *注記	3,380千円 (直接経費: 2,600千円、間接経費: 780千円) 2024年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円) 2023年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円) 2022年度: 780千円 (直接経費: 600千円、間接経費: 180千円)
キーワード	構文解析 / 並列構造解析 / 大規模言語モデル / 複合語解析 / 自然言語処理 / 依存構造 / 並列構造 / 複文構造
研究開始時の研究の概要	文の構造解析の基盤技術は、単語と単語の間の係り受け関係（依存関係）を明らかにすることであるが、既存技術は近接して現れる単語間の依存関係しか高精度に解析できていない。科学技術論文などの専門的文書には長く複雑な文が頻出し、離れた単語間の依存関係の解析が困難であるため、単語の依存関係に基づくテキストマイニングの性能に影響を及ぼしている。本研究は、文を長く複雑にする要因となる複文構造や並列構造などの言語現象に着目し、言語現象の性質を利用した単語間の関係解析を試みる。言語現象の構成要素に基づいた解析手法を確立し、長く複雑な文における単語間の依存関係の解析精度向上を目指す。
研究実績の概要	本年度は（i）長文の構文解析、（ii）複雑な文の構文解析を対象に研究を進めた。（i）長文の構文解析について、長文を意味のあるまとまり（チャンク）で区切ることで、チャンク内の局所的解析・チャンク間の大域的解析によるアプローチを試みた。チャンクとして談話構造のセグメントを用いて実験を行った結果、談話構造のセグメント境界と統語構造構文木の部分木範囲が一致しない事例が少なくなく、構文解析の精度向上に至らなかった。談話構造の情報を構文解析の制約として用いるのではなく、構文解析の学習・推論のための特徴として用いるなど、今後の方向性が得られた。異なるチャンク粒度として、文が長くなるドメインにおいて顕著に現れる長い名詞句に着目した予備実験を行った。しかし既存の言語資源の多くは名詞句内の複合語のアノテーションが付与されておらず、アノテーションの欠落に起因する学習・評価の問題が判明した。そこで複合語のアノテーションを補完する手法について開発を進行中である。（ii）複雑な文の構文解析について、複雑な文に頻出する並列構造に着目し、並列構造の範囲同定タスクにおいて成果が得られた。具体的には、大規模言語モデルを利用した空所補完によって並列構造を生成させ、得られた並列構造を範囲同定タスクの学習に用いることでタスクの精度向上に成功した。今後は同種のアプローチを並列構造以外の言語現象・構造に適用するなどの応用も検討する。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由長文の構文解析について、初年度は構文解析を分割統治的に実行するためのチャンク粒度を設計する計画であったが、実際にチャンク粒度の設計について実験・分析を行って一定の示唆が得られた。また、文を長く複雑にする要因となる言語現象に着目した解析について、並列構造の解析に関する研究成果が得られた。
今後の研究の推進方策	2023年度は長文の構文解析の分割統治的アプローチにおいて、チャンク内解析・チャンク間解析のそれぞれに特化した手法について開発を進める。

報告書

(1件)

2022 実施状況報告書

研究成果

(1件)

すべて学会発表 (1件) (うち国際学会 1件)

[学会発表] Coordination Generation via Synchronized Text-Infilling2022
- 著者名/発表者名
  Hiroki Teranishi, Yuji Matsumoto
- 学会等名
  The 29th International Conference on Computational Linguistics
- 関連する報告書
  2022 実施状況報告書
- 国際学会