2022 Fiscal Year Research-status Report
Project/Area Number |
22K17957
|
Research Institution | Institute of Physical and Chemical Research |
Principal Investigator |
寺西 裕紀 国立研究開発法人理化学研究所, 革新知能統合研究センター, 特別研究員 (50899408)
|
Project Period (FY) |
2022-04-01 – 2025-03-31
|
Keywords | 構文解析 / 並列構造解析 / 大規模言語モデル / 複合語解析 |
Outline of Annual Research Achievements |
本年度は(i)長文の構文解析、(ii)複雑な文の構文解析 を対象に研究を進めた。 (i)長文の構文解析について、長文を意味のあるまとまり(チャンク)で区切ることで、チャンク内の局所的解析・チャンク間の大域的解析によるアプローチを試みた。チャンクとして談話構造のセグメントを用いて実験を行った結果、談話構造のセグメント境界と統語構造構文木の部分木範囲が一致しない事例が少なくなく、構文解析の精度向上に至らなかった。談話構造の情報を構文解析の制約として用いるのではなく、構文解析の学習・推論のための特徴として用いるなど、今後の方向性が得られた。異なるチャンク粒度として、文が長くなるドメインにおいて顕著に現れる長い名詞句に着目した予備実験を行った。しかし既存の言語資源の多くは名詞句内の複合語のアノテーションが付与されておらず、アノテーションの欠落に起因する学習・評価の問題が判明した。そこで複合語のアノテーションを補完する手法について開発を進行中である。 (ii)複雑な文の構文解析について、複雑な文に頻出する並列構造に着目し、並列構造の範囲同定タスクにおいて成果が得られた。具体的には、大規模言語モデルを利用した空所補完によって並列構造を生成させ、得られた並列構造を範囲同定タスクの学習に用いることでタスクの精度向上に成功した。今後は同種のアプローチを並列構造以外の言語現象・構造に適用するなどの応用も検討する。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
長文の構文解析について、初年度は構文解析を分割統治的に実行するためのチャンク粒度を設計する計画であったが、実際にチャンク粒度の設計について実験・分析を行って一定の示唆が得られた。 また、文を長く複雑にする要因となる言語現象に着目した解析について、並列構造の解析に関する研究成果が得られた。
|
Strategy for Future Research Activity |
2023年度は長文の構文解析の分割統治的アプローチにおいて、チャンク内解析・チャンク間解析のそれぞれに特化した手法について開発を進める。
|
Causes of Carryover |
今年度予定していたデータ作成業務の発注と物品購入を次年度以降に行う予定のため。
|
Research Products
(1 results)