研究課題/領域番号 |
22K17957
|
研究機関 | 国立研究開発法人理化学研究所 |
研究代表者 |
寺西 裕紀 国立研究開発法人理化学研究所, 革新知能統合研究センター, 特別研究員 (50899408)
|
研究期間 (年度) |
2022-04-01 – 2025-03-31
|
キーワード | 構文解析 / 並列構造解析 / 大規模言語モデル / 複合語解析 |
研究実績の概要 |
本年度は(i)長文の構文解析、(ii)複雑な文の構文解析 を対象に研究を進めた。 (i)長文の構文解析について、長文を意味のあるまとまり(チャンク)で区切ることで、チャンク内の局所的解析・チャンク間の大域的解析によるアプローチを試みた。チャンクとして談話構造のセグメントを用いて実験を行った結果、談話構造のセグメント境界と統語構造構文木の部分木範囲が一致しない事例が少なくなく、構文解析の精度向上に至らなかった。談話構造の情報を構文解析の制約として用いるのではなく、構文解析の学習・推論のための特徴として用いるなど、今後の方向性が得られた。異なるチャンク粒度として、文が長くなるドメインにおいて顕著に現れる長い名詞句に着目した予備実験を行った。しかし既存の言語資源の多くは名詞句内の複合語のアノテーションが付与されておらず、アノテーションの欠落に起因する学習・評価の問題が判明した。そこで複合語のアノテーションを補完する手法について開発を進行中である。 (ii)複雑な文の構文解析について、複雑な文に頻出する並列構造に着目し、並列構造の範囲同定タスクにおいて成果が得られた。具体的には、大規模言語モデルを利用した空所補完によって並列構造を生成させ、得られた並列構造を範囲同定タスクの学習に用いることでタスクの精度向上に成功した。今後は同種のアプローチを並列構造以外の言語現象・構造に適用するなどの応用も検討する。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
長文の構文解析について、初年度は構文解析を分割統治的に実行するためのチャンク粒度を設計する計画であったが、実際にチャンク粒度の設計について実験・分析を行って一定の示唆が得られた。 また、文を長く複雑にする要因となる言語現象に着目した解析について、並列構造の解析に関する研究成果が得られた。
|
今後の研究の推進方策 |
2023年度は長文の構文解析の分割統治的アプローチにおいて、チャンク内解析・チャンク間解析のそれぞれに特化した手法について開発を進める。
|
次年度使用額が生じた理由 |
今年度予定していたデータ作成業務の発注と物品購入を次年度以降に行う予定のため。
|